用人工產生語音乃至整段語言的技術。合成語音的裝置稱言語合成器或言語合成系統。早期的合成器是機械式或電路式,如今,言語合成已經電腦化瞭。言語合成技術不僅是深入研究語音特性的一種手段,而且也是實現人機語言通信的一種手段。

  在語音研究中,利用言語合成技術可以靈活而精確地控制語音的特性參數,合成出各種各樣的語音樣本,通過對這些樣本的聽辨,逐步揭示出語音現象的機理。

  類型及其發展 言語合成約可分為5個階段:①20世紀40年代以前用機械或電路模擬語音。②50年代有瞭新的進展,言語聲譜分析已相當完備。輔音與元音之間的“過渡音征”畫成模式,通過模式還音器能產生很標準的輔音,至今還有參考價值。③60年代,計算機應用於語音合成系統,言語的“規則合成”成為最先進的合成自然語言的途徑。④70年代以來,在規則合成的基礎上,主要向合成的商品化發展,大量的多語言對譯器充斥市場,多限於有限辭匯和低質量的音質。⑤80年代以來,提高瞭合成的音質以及“文–語合成”,盲人閱讀機等都有瞭相當成績。這種連續語言的合成要求,展開瞭第5代言語合成的序幕。未來的言語合成,除瞭更仿真地合成語音外,還要包括語法、語氣等特征,為人–機對話系統奠定基礎。

  計算機與言語合成 計算機能以極高的速度進行運算和控制,又能接受、存儲和輸出龐大的信息。然而,迄今為止,人和計算機之間的信息交換,幾乎都是依靠鍵盤打字、屏幕顯示和打印輸出。人的話語是一種最自然、最有效的通信媒介,因此,語音合成是人–機對話最重要技術之一。

  計算機的言語合成系統大體有以下3類:

  ①規則合成系統紮根於語音產生的聲學理論。按此理論,任何一個語音都由聲源激勵、聲道共鳴和口鼻輻射3個過程產生。語音不同,產生語音的一套聲學參數也不同。

規則合成系統的原理框圖

  ②單元編輯合成系統。事先存入一套語音單元中每一單元的一小段數字波形,存入的單元可以是音素或音節,或者是某音素的脈沖響應波形,例如,存入所有濁音音素的一個周期的波形。合成時,將這些單元選擇性地連接起來。

  ③錄音編輯合成系統。事先把待輸出的語句、短語、單詞等進行錄音、壓縮和編碼,然後存入計算機。使用時,在既定的指令串控制下,計算機對存入的信息進行檢索、編輯和解碼,輸出話音。這種系統如同一種低數碼率的錄放機。在錄音編輯合成系統中,存入的是原始語音的波形,隻要發音人經過挑選,語音音質較好,合成的質量就能比較合乎理想。早期由於受到計算機存儲量的局限,人們不可能把日常交談或閱讀時所用的各種詞匯和語句都存入計算機,隻能按不同用途存入優先的語句和詞匯,應用上受到較大的限制。隨著計算機的飛速發展,儲量能容納巨萬的詞匯,乃至各種語音學的規則。因此,合成系統多以此為主。

  國內外對上述3種類型的語音合成系統正在大力開發。有的系統已開始用於自動報時、天氣預報、自動報電話號碼、汽車自動報警、語音教學、導遊語詞翻譯、發音玩具等方面。有的系統和語音自動識別系統合為一種應答系統,用於車站、機場自動售票業務等,乃至電話中不同方言的自動轉譯。在一種盲人助讀系統中,輸入文字後,系統能流利地朗讀。

  見言語識別。

  

推薦書目

 FLANAGAN J L, RABINER L R. Speech Synthesis. Stroudsburg, Pa.: Dowden, Hutchinson & Ross, 1973.