指人和電腦之間用自然語言書面對話的系統。從20世紀60年代初開始研究,早期使用關鍵字和模式匹配的方法,電腦隻能應答有限的、固定格式的輸入句,沒有句法、語義分析和知識推理。70年代初取得突破。70年代中期到80年代初又繼續有所進展。建成的系統較多,各自使用瞭不同的語法理論和電腦程式。其中有代表性的分述如下。

  J.維諾格拉德的語言觀及其SHRDLU系統< 維諾格拉德於1972年在美國麻省理工學院建成SHRDLU系統,把語言分析和知識推理綜合在一起,在自然語言理解的研究中跨出瞭重要的一步。維諾格拉德認為,人聽到或看到一個句子是運用瞭全部知識和智力來理解的,包括句法、語義、上下文、主題知識和推理。計算機要理解自然語言也必須具有這些知識並使之相互作用。句法需要解決的問題是“語言究竟是怎樣組織起來表達意義的?”而不是“怎樣分析一個孤立的句子結構?”句法必須跟語義、推理密切配合,語義根據對客觀世界的認識作出推論以指示句法分析。語義學是句法學和邏輯推理之間的橋梁,語義學的目的是研究意義的表達形式。

  SHRDLU系統采用韓禮德的“系統語法”,計算機根據句法特征識別輸入句的態、式、語氣等,按句型逐層分解到詞為止;語義分析和知識推理同時配合,以排除歧義和誤解。獲取語義信息後查詢知識庫,執行指定的操作或作出應答。這個系統貯存200條英語單詞,能理解較復雜的英語句子。背景是8塊顏色、形狀、大小各不相同的積木,一個放積木的盒子和一隻機械手,因此一般稱之為“積木世界”。計算機能根據人打字輸入的指令或問題在屏幕上顯示操作或應答。例如根據指令抓起紅色長方形大積木,回答某塊積木之上是否放著某種顏色的積木等。

  W.A.伍茲的擴充轉移網絡及其LUNAR系統 伍茲於1970年提出擴充轉移網絡(簡稱ATN),1972年在美國BBN 公司建成LUNAR系統。ATN是一種句法分析方法,也是一種計算機處理程序。生成語法缺乏短語結構中的規則和結構之間的直接聯系;根據轉換規則可能生成的語句又過多,構成“組合爆炸”,而把生成語句的過程顛倒為分析語句的過程困難也不少,因此計算機無法應用。ATN 建立瞭英語部分句型的有限狀態轉移線路網絡,同時設置瞭某些操作技術,使上下文相關,並能重新組合結構成分包括復寫、添加、刪略、換位等。如此即可應用轉換規則,充分發揮轉換語法的效能。圖1~3是簡化瞭的擴充轉移網絡示意圖。

  圖1是句型網絡。S是初始態,有兩個走向:句首是名詞短語就轉入狀態q1,如為助動詞則轉入狀態q2q1又有兩個走向:連接動詞到達q4,或連接助動詞轉入q3再連接動詞到q4q4是終結態(用斜線表示),句子可在此結束(不及物動詞句),也可再連接NP到達終結態q5(及物動詞句)。q5後還可能連接多個介詞短語再回到q5。圖2是名詞短語網絡。NP是初始態,也有兩個走向:一條線路以限定詞開始轉入狀態q6q6可連接多個形容詞之後再連接名詞到達終結態q7q7之後還可連接多個介詞短語再回到q7。另一條線路是專名或代詞,直接到達終結態q8。圖3是介詞短語網絡。PP是初始態,由介詞轉入q9,連接名詞短語到達終結態q10

圖1 句型網絡

圖2 名詞短語網絡

圖3 介詞短語網絡

  LUNAR系統貯存英語單詞3500條,主題是查詢阿波羅登月艙帶回的月球泥石采樣的化學成分,為地質學傢檢索信息服務。語句輸入,由ATN分析,求出深層結構,憑以解釋語義,並將語義信息編譯成一種謂詞演算查詢語言,檢索數據庫求得答案輸出。例如人問:“有多少種角礫巖含有橄欖石?”機答:“5種。”如再問是哪5種,即列舉該5種樣品的編號。LUNAR是第1個面向應用而又設計完善的系統。ATN已成為自然語言理解研究中廣泛采用的著名方法,此後建成的不少系統,包括語音理解系統HWIM在內都以 ATN為基礎。

  R.C.尚克的概念從屬論及據此建成的諸系統 美國學者尚克於1973年提出概念從屬論(簡稱CD),同時在美國斯坦福人工智能實驗室建成MARGIE系統;1975年尚克和他的同事在耶魯大學建成SAM系統,1978年建成PAM系統,1979年建成FRUMP系統,1980年建成IPP系統。

  CD的主要內容是:人腦中存在著某種概念基礎,語言理解的過程就是把語句映射到概念基礎中去的過程。概念基礎具有完善的結構,能根據初始的輸入預期可能的後續信息。要使計算機理解自然語言就必須研究概念結構及其映射規則。句法隻起一個指引作用,無需詳細分析。概念結構由概念及其從屬關系構成。常用動詞和形容詞可抽象為少數“語義基元”,表示行為和狀態的基本概念。采用美國C.菲爾莫爾(1929~ )的“格語法”,區分5種格關系。概念結構用圖像標記法構成 CD表達式,而句中任何隱含的信息都必須在CD表達式中表現出來。例如:John eats the ice cream with a spoon(約翰用勺吃冰淇淋)的 CD表達式為:

⇔表示施動關系,INGEST表示“攝入”的語義基元。包括“吃、喝、吞、咽……”等詞。

表示受動關系,O是賓格。 表示方向關系,D是方向格。 表示工具關系,I是工具格。右端出現語義基元MOVE(移動),右下角出現名詞 mouth(嘴),而句中並無這類詞語,因為用勺不斷把冰淇淋送入口中是本句固有的語義信息。這是CD跟其他析句方法的根本區別,在解釋語句和演繹推理時獲得顯著成效。根據上述,將概念從屬關系編入詞典。語句輸入,由句法指引找出主要動詞和名詞,查詞典獲得解釋。例如輸入Johnate the steak,查 eat條的註解為:

代入句中名詞(X代以John,Y代以steak)即可得到理解。

  MARGIE系統按照概念從屬論建成,是一個推理和語句解釋的模型,能根據輸入句推論出若幹事實,包括原因、結果等。例如:輸入“約翰給瞭瑪麗一些阿司匹林”,計算機即輸出:“約翰相信瑪麗需要阿司匹林。瑪麗病瞭。”語句解釋即計算機能用其他詞來解釋輸入句。例如輸入:“約翰殺瞭瑪麗,是掐死的。”輸出則為“約翰扼死瞭瑪麗。約翰掐住瑪麗,瑪麗死瞭,因為她不能呼吸”。

  此後尚克學派將概念從屬論加以發展,用於篇章分析,提出“模本”、“計劃”、“目的”和“主題”等概念,使計算機能理解簡單的故事。一個模本概述一種日常活動中的標準事件序列,如“餐館模本”包括顧客走進飯館,坐在餐桌前,服務員送菜單,顧客點菜,吃飯,付款等。計劃是完成目的的手段,如“去某處”是總目的,完成這一目的的各種方法如騎車、坐公共汽車、開小臥車等是子目的,應列入總目的項下。主題則是背景信息,可據以預期行為的目的,如“愛情主題”隱含彼此保護、避免對方遭受傷害的目的。

  SAM 系統根據模本建成,能解釋故事情節,回答問題,進行推論,並作出英語、漢語、俄語、荷蘭語和西班牙語的摘要。例如輸入“約翰走進一傢飯館。他坐瞭下來。他生氣瞭。他走瞭。”輸出為:“約翰餓瞭。他決定到飯館去。他走進一傢館子。服務員沒理他。約翰生氣瞭。他決定離開這傢飯館。他走瞭。”計算機推論約翰離開飯館是由於沒有得到服務。因為“餐館模本”中有服務員送菜單一條,而輸入句中無此內容,卻有約翰生氣的句子。

  PAM 系統由美國學者R.威林斯基建成,以目的和計劃為理解故事的基礎。也能解釋故事情節,回答問題,作出推論和摘要。但無需模本中的事件序列,隻提出目的和計劃。如營救一個被巨龍拖走的人,隻在“營救”這個總目的項下列舉若幹子目的,包括到達巨龍巢穴和殺死巨龍的各種方法,即可預期下一步的行為。同時能根據主題推論目的,例如輸入“約翰愛瑪麗。瑪麗被巨龍拖走瞭。”PAM系統即可預期約翰要采取行動營救瑪麗。句中雖無此內容,但據“愛情主題”可作出推論。

  尚克學派又進一步研究語言理解和記憶的關系,概括各種具體知識結構為一般經驗,綜合句法、語義、知識、推理為一體,再建成FRUMP和IPP兩個快速閱讀系統。貯存2000多條英語單詞,對輸入故事無需逐字分析,而是跳過某些詞語提取主要信息。目前已能從報刊上摘錄一些新聞故事。

  G.亨德雷克斯的LIFER分析法以及據此建成的系統 LIFER 分析法由美國學者 G.亨德雷克斯於1977年在美國斯坦福研究所設計而成,提供瞭部分英語句型的句法 -語義框架,同時采用N.喬姆斯基的重寫規則和伍茲的ATN 分析輸入句。下圖是3種句型的轉移樹,〈L.T.G〉是 LIFER top grammar 的縮寫,表示初始符:

其中〈ATTRIBUTE〉(屬性),〈PERSON〉(人名)等非終結符屬於語義成分。這種將某些語義成分嵌入句型的方法稱為“語義語法”。用戶可自行定義語義成分,構成語句以切合自己的用途,因而任何用戶、任何主題均可應用。例如定義〈PERSON〉={John,Bill,Mary},〈A-TTRIBUTE〉={height,age,tall},即可理解輸入句 What is the age of John?(約翰的年齡是多少?)Whatis Mary's height?(瑪麗的身高是多少?)How tallis Bill?(比爾多高?)

  根據 LIFER分析法已建成若幹系統,包括醫藥咨詢、作業安排、資源分佈等主題。最龐大復雜的是斯坦福研究所的LADDER系統(1977),能聯結美國各地許多計算機的數據庫,用戶無需知道數據貯存在何處及其貯存方式,直接用英語查詢即可得到回答。斯坦福研究所的另一系統 HAWKEYE(1977)則屬於圖像識別和自然語言理解的綜合模型,計算機能根據圖像回答問題。例如指著地圖問:“從這兒到那兒的距離是多少?”

  預計80年代自然語言書面理解的研究將在篇章模型和綜合模型兩方面發展,並建立一些應用系統。篇章模型如尚克學派正在進一步研究的故事理解,綜合模型如斯坦福研究所的 HAWKEYE。此外,聯邦德國漢堡大學於1981年建成一個“交通動態對話系統”,由彩色電視輸入動態情景,用德語問答,主題是詢問街上的交通情況。關於漢語書面理解的研究,見漢語書面理解系統。

  

參考書目

 范繼淹、徐志敏:《自然語言理解的理論和方法》,載《國外語言學》,1980,第5期。

 A.Barr and E.A.Feigenbaum,The Hɑndbook of Artificiɑl Intelliɡence,Pitman,London,1981.