自然語言自動處理中的一種分析方法,借助於樹狀圖來說明句子中詞與詞、片語與片語之間的句法、語義和邏輯關係。

  語言中的任何一個句子都隱藏著一個樹狀圖。例如,句子“鋁是一種重要的金屬”中隱藏著的樹狀圖如下:

  這個樹形圖中,S表示句子,NP表示名詞詞組,VP表示動詞詞組,AP表示形容詞詞組,NUMER表示數量詞組,N 表示名詞,V表示動詞,CARD表示基數詞,QTF表示量詞,ADJ表示形容詞,PART表示助詞,它們都是標記。

  樹形圖由結和連接結的枝組成,每一個結至少有一個標記,也可以有多個標記,其中,有的標記是表示詞組類型或詞類的,如 S、NP、VP、V、N、PART等,它們不出現在具體的句子中,稱為非終極標記。有的標記是表示語言中具體的詞,如 “鋁”、“是”、“一”等,它們出現在具體的句子中,稱為終極標記。如果一個結點上有多個標記,那麼,除瞭上述標記之外,其他標記還可以表示詞和詞組的句法功能信息(如主語、謂語、定語、賓語、狀語、補語等),詞和詞或者詞組和詞組之間的邏輯關系信息(如施事者、受事者、與事者等)和語義關系信息(如並列、原因、結果、讓步、比較、工具、時間、空間等)以及其他的語法信息。

  樹形圖中各個結點之間,有兩種關系值得註意:一種是支配關系,一種是前於關系。

  如果在樹形圖中從結x到結y有一系列的枝把它們連接起來,而且所有的枝順著同一方向,這即表示結 x支配結 y。例如,上面的樹形圖中,標有VP的結支配著標有 NUMER的結,因為連接結VP與結NUMER的枝都一律從較高的結 VP 降到較低的結NUMER;當x支配y時,y就叫做x 的後裔。

  如果結x與結y是相異的,x支配y,而且x與y之間沒有另一個相異的結,這叫做直接支配。結y就叫做結x的直接後裔。在上面的樹形圖中,標有VP的結有兩個直接後裔,即標有V的結和右邊的標有NP的結,V和NP這兩個結稱為姐妹。支配關系中不被任何其他的結支配的結叫做根。圖中,標有 S的結就是根;被其他結支配而不支配任何其他結的結,叫做葉。一般說來,樹形圖是從上到下畫出的,所以,根總是在頂部,葉總是在底部。

  樹形圖中的兩個結,隻有當它們之間沒有支配關系的時候,才能在從左到右的方向上排序,這時,這兩個結之間,就存在前於關系,左邊的結前於右邊的結。在上面的樹形圖中,標有“鋁”的結前於標有VP的結及VP所支配的結,因為結VP與結“鋁”之間不存在支配關系;但是,標有“鋁”的結不能前於支配它的NP及 N等結。可見,支配關系同從左到右的前於關系是相互排斥的,也就是說,在樹形圖中,如果兩個結x與y之間存在前於關系,那麼,x與y之間必定不能存在支配關系。並且,如果 x前於y.則由x支配的所有的結都前於由y支配的所有的結。

  根據這些基本性質,一幅樹形圖可以提供如下3個方面的語法信息:

  ①句子中的詞序:樹形圖中的各個葉按從左到右的前於關系排列起來,就是它所表示的句子的詞序。這些葉之間是不存在支配關系的。

  ②句子的層次:一個結的直接後裔就是這個結的直接成分,根據結之間的直接支配關系,便可看出句子的層次關系。

  ③詞類信息、詞組類型信息、句法功能信息、詞與詞或者詞組與詞組之間的邏輯關系信息和語義關系信息等。

  樹形圖中的一個結可以與多個標記相對應,用多值標記函數 L表示如下:

  y1,y2,…,yn就是在一個結點x上可以標記的各種信息。

  因而樹形圖既能提供句中詞序和層次的幾何值,又能提供詞類、詞組類型、句法功能、邏輯關系、語義關系的代數值。

  

參考書目

 馮志偉:《漢語句子的多標記多叉樹形圖分析法》,載《人工智能學報》,長沙,1983。

 R.Rustin,(ed.),Nɑturɑl Lɑnɡuɑɡe Processinɡ,Algorithmic Press,New York,1973.