統計語言學-百科詞條

　　數理語言學的一個分支，應用統計數學的方法來研究語言現象的語言學科。統計語言學的研究領域目前主要包括以下幾個方面：

　　①統計語言單位的出現頻率，如對辭彙和音位、語素出現的頻率進行統計研究。

　　②統計作傢的用詞頻率、詞長分佈和句長分佈，以瞭解作傢運用語言的風格；用這種方法還可判定匿名文章的作者。

　　③計算語言存在的絕對年代以及親屬語言從共同原始語分化出來的年代代，這方面的研究叫做語言年代學，又稱為詞源統計分析法。此外，還可對親屬語言的語法、語音體系進行統計、比較。

　　④采用信息論方法研究語言的熵和羨餘度。語言的熵就是在交際過程中語言符號出現的不定度。不定度的大小與語言的熵的高低一致。當語言的接收者接收到語言符號之後，不定度被消除，熵等於零，因而在交際過程中，語言接收者所得到的信息量恰恰等於被消除的熵。語言的羨餘度是指語言中超過傳遞最少需要量的信息量的比例，在一般情況下，人們為瞭保證對方能夠理解，總是提供比實際需要多得多的信息量，因此，不論在書面語還是口語中，語言都有羨餘度。

　　⑤探討語言的一般統計規律。例如，在按頻率遞減順序排列的頻率詞典中，詞的序號越大，詞的頻率越小，序號與頻率之間的關系可以用數學公式描述為一定的統計規律，這個統計規律叫做齊夫定律，因其研究者之一、美國語文學傢G.K.齊夫而得名。

　　⑥運用隨機過程論來研究語言，把語言看成彼此聯系的字母序列，前一個字母決定後一個字母的出現，於是形成一條字母鏈，叫做馬爾科夫鏈，因其最早的研究者俄國數學傢A.A.馬爾科夫而得名。

　　⑦研究文章中兩個詞之間、兩個語法范疇之間、兩個語義類之間或兩個句法類型之間的間距，以揭示文章在句法或語義上的特征。

　　⑧研究語言的詞匯與文章長度的關系，以揭示文章中詞匯的豐富程度和差異程度。

　　統計語言學在數理語言學中有比較悠久的歷史。古印度語法學傢在研究《吠陀》時，就進行過單詞和音節數目的統計。1851年，英國數學傢A.德·摩爾根(1806～1871) 曾把詞長作為文章風格的一個特征加以統計研究。蘇格蘭學者L.坎貝爾於1867年、德國學者W.迪丁貝爾格於1881年都曾采用統計方法確定柏拉圖著作的寫作時期。1887年，美國學者T.C.門登霍爾對英國文學作品、特別是莎士比亞的作品進行過統計分析。1913年，馬爾科夫研究瞭俄語中字母序列的生成問題，提出瞭馬爾科夫隨機過程論。1935年，齊夫發表瞭齊夫定律。1944年，英國數學傢G.U.尤勒在《文學詞語的統計分析》一書中廣泛使用概率和統計方法來研究語言。1950年，美國學者M.斯瓦德士進行瞭語言年代學的研究。1951年，美國數學傢C.申農采用信息論的方法研究書面英語中的熵和羨餘度；美國學者 V.英格韋對句法現象進行瞭間距分析。1954年，法國學者P.基羅根據文章中詞的頻率分佈提出瞭詞匯豐富度的概念。1956年，英國學者G.赫爾丹出版瞭《語言是選擇和機遇》一書，系統總結瞭統計語言學的研究成果。近30年來，在語言統計中日益廣泛地使用計算機，逐漸改變瞭傳統的手工查頻、統計的辦法，提高瞭統計的效率和精度。

　　統計語言學大致可分為語音統計學、詞匯統計學、語法統計學和語義統計學，分別研究語言的語音、詞匯、語法和語義的統計特征。從描寫的角度出發，詞匯統計學又可以分為年代統計學、風格統計學和分類統計學3 個分支，分別根據時代的變化、作者寫作風格的不同和語言的類屬或起源對詞匯特征進行統計分析。

　　統計語言學的許多研究成果，對於通信技術、語言教學和自然語言的信息處理都很有價值。

參考書目

　G.Herdan，Quɑntitɑtive Linɡuistics，Butterworths，London，1964.