指人和電腦之間用自然語言口語語音對話的通信系統。這是令人嚮往的前景。因為人用口語語音傳輸資訊最快,最方便;而雙手又是自由的,可以同時進行其他操作。

  自然語言語音理解系統,從20世紀60年代初開始研究,10多年間一直停留在用模式識別的方法辨認單詞的語音識別上,即在電腦裏貯存某些單詞的聲學模式,用來匹配輸入的語音信號。由於語音識別無法使電腦辯認連續語流中的語音變化,以及人和人之間、同一個人先後發音之間的差別,也不能排除除噪聲幹擾,因此效果不大。單人口呼(一個人發音)輸入,計算機不過識別100多個單詞;多人口呼(不止一個人發音)輸入,隻能識別10~20多個單詞而已。

  70年代初期認識到,必須綜合應用語言學知識來研究計算機對連續語流的語音理解。1971年美國國防部高級研究計劃中心(ARPA)為語音理解研究(SUR)設立基金,要求在5年之內取得突破。具體指標是:使計算機能理解特定范圍內的正常口語句子(連續語音),單詞不少於1000,錯誤不超過10%。在ARPA SUR計劃下,到1976年先後建成瞭一些英語語音理解的實驗系統,都能在有限的詞匯、句法和特定的主題范圍內理解英語口語句子。其中有代表性的是美國卡爾奈吉-梅隆大學的 HEARSAY和HARPY系統,BBN公司的HWIM系統。

  HEARSAY有兩個系統。70年代初期建成HEARSAYI,隨後改進,1976年建成 HEARSAYⅡ,以文件檢索為主題,單詞1011個,隻能接受單人口呼(一男)。HARPY系統的主題也是文件檢索,單詞也是1011個,但能接受多人口呼(三男二女)。HWIM系統的主題是旅遊指南,包括日程安排和費用,單詞1097個,能接受多人口呼(三男)。

  這些系統的設計互不相同,各自采用瞭特定的技術安排。但在總的方法上是一致的,即語音、詞匯、句法、語義、語用的分析同時進行,互為補充,以確定輸入句的內容。一般的處理程序是:分析輸入語音信號的聲學物理特征,根據音系規則歸納音位、音位變體、連續音變和語音省略以切分音節;根據構詞規則作出可能的單詞假設,稱為“底端分析”。同時應用句法、語義、語用規則和主題知識,根據上下文預測輸入句的內容,稱為“頂端分析”。底端無需識別每一個語音信號,模糊不清的可以跳過;隻要能提出句中某幾個單詞的假設,就能由頂端根據詞的搭配、句法組合和主題知識前後左右加以推斷,建立句中單詞序列的一種或幾種假設,再用底端的語音數據核實,擇優選用。這種上下結合的分析方法是一個重要的突破,取得瞭明顯的效果。據HARPY的實驗,底端憑語音數據切分單詞的準確率隻有42%,而語音、句法、語義綜合分析的準確率高達97%。HEARSAYⅡ的實驗結果相同:增加句法分析,單詞識別的準確率提高25%;再增加語義分析,準確率又提高25%。

  ARPA SUR 計劃之後又陸續建立瞭一些類似的系統,都未超過上述系統的成效。目前面臨的問題是:能理解的詞匯、語句局限性過大,更不能區別語音近似的句子。HARPY 被認為是ARPA SUR計劃中最成功的系統,也隻能理解特定的有限態語句,句中不能替換任何單詞。

  70年代後期和80年代初期,語音理解向縱深方向探索,同時開始設計某些專用性系統。例如澳大利亞堪培拉高等教育學院信息科學學校正在研制的 FOPHO系統,輸入澳大利亞英語口語語音,計算機經過識別、理解能轉寫為音標顯示輸出,為教學和科研服務。德意志聯邦共和國不倫瑞克工業大學通信技術研究所則在研制一個輸入德語口語語音、輸出德語書面文字的系統,等等。

  關於漢語語音理解的研究,見漢語語音理解系統。

  

參考書目

 A.Barr and E.A.Feigenbaum,The Hɑndbook of Artificiɑl Intelliɡence,Pitman,London,1981.