在語言學、電腦科學、數學、心理學和自動化技術等學科的基礎上形成的一門邊緣學科。研究電子電腦對中文書面和口語資訊進行各種加工的問題。

  中文資訊處理並不等同於漢字資訊處理。漢字資訊處理系統是中文資訊處理系統中非常關鍵的一部分,可以說是中文資訊處理系統藉以建立的工具。但是漢字資訊處理系統的研製成功,一般隻解決瞭漢字的編碼、輸入、存儲、編輯和輸出問題,至於加工或處理什麼,如何加工,那是中文資訊處理的的內容。中文信息處理系統(純口語的系統和拼音文字的系統除外)以漢字信息處理系統作為自己的必備部件,同時還帶有為不同目的服務的各種應用軟件。中文信息處理系統的另一特點是以詞而不是以單個漢字作為加工的基本單位。中文信息處理和中國少數民族語言文字的信息處理都是自然語言處理的一部分。

  已開展的中文信息處理研究有9項:

  ①漢字信息處理。這是一項最關鍵的語言工程,漢字如不能進入計算機,圖書情報工作自動化、印刷出版現代化、辦公室事務自動化都將化為空談。近年來,漢字信息處理研究得到很大發展。曾設計瞭500多種漢字編碼方案(見漢字編碼),其中上機通過試驗或已被采用作為輸入方式的,已達數十種之多。研制瞭上百種漢字信息處理系統和設備。

  漢字信息處理除瞭在漢字編碼方面進行研究外,還制成瞭若幹種漢字輸入輸出專用設備,成套的漢字信息處理系統(包括漢字編碼法、通用中外文鍵盤、通用中外文顯示器、漢字打印設備、漢字庫和系統軟件等)已批量生產。中國研制的計算機激光漢字照排系統已在國內外廣泛應用。中國的字模生產有良好的基礎,1985年5月國傢標準局公佈瞭《信息交換用漢字15×16點陣字模集及數據集》和《信息交換用漢字24×24點陣字模集及數據集》兩項標準,後來又分批公佈瞭32×32點陣……以至256×256點陣的標準。這些標準為各種設備的設計和推廣提供瞭有利條件。

  為擺脫繁重的編碼輸入工作,漢字的光電自動識別研究提上瞭日程。近年來有越來越多的單位從事手寫體和印刷體的識別研究。中國科學院自動化所的漢王聯機手寫漢字識別系統已能識別2萬多漢字,漢王OCR已能識別GB2312–1980二級漢字的多種印刷字體,正確率都相當高。

  為瞭使各種系統之間的信息交換有共同性,也為瞭使各種輸入輸出設備的設計有統一的根據,1981年國傢標準局公佈瞭《信息交換用漢字編碼字符集·基本集》(簡稱《漢字標準交換碼》GB2312–1980)。它根據漢字使用頻度制定,共分兩級,一級3 755個字,二級3 008個字,共6 763個字。為瞭滿足少數用字量超過基本集的用戶和臺灣、香港等地的需要,後來又制定瞭多個輔助集和國傢標準擴充碼(GBK)。2000年3月信息產業部和原國傢質量技術監督局聯合發佈瞭《信息交換用漢字編碼字符集·基本集的擴充》標準(GB18030–2000),收錄瞭27 484個漢字。

  ②機器翻譯。計算機和語言的最早結合始於機器翻譯。1956年,機器翻譯被列入中國科學工作的發展規劃。1957年,機器翻譯研究工作正式開始,這是中文信息處理的第一項工程。首先研究的是俄漢機器翻譯,並於1959年成功地進行瞭試驗,譯文輸出是代碼,而不是漢字,因為當時沒有漢字輸出裝置。1958年底至1960年初,又研制瞭一套英漢機器翻譯規則系統。1966~1975年工作處於停頓狀態。已研制出多種英漢和俄漢、法漢、日漢、德漢以及漢外(英、法、德、俄、日)機器翻譯系統。有多個商品化英漢機譯系統出售,但翻譯正確率還不夠高。

  ③中文信息檢索。為瞭提供標引和檢索藍本,1979年中國科學技術情報研究所編輯出版瞭《漢語主題詞表》(10卷)。目前,中國有上百個單位開展電子計算機信息檢索研究,不少單位進行定題信息服務(SDI),並建立各種漢字文獻數據庫。見中文信息檢索。

  ④言語統計。1978年語言研究所和計算技術研究所在合作研究ECMT–78英漢機器翻譯系統的過程中曾編制一個排序統計程序,加工過一些外文資料和漢語拼音資料。這是計算機漢語統計的初步嘗試。此後,出現瞭一批機編頻率辭書:《現代漢語頻率詞典》(北京語言學院出版社,1986),《現代漢語常用詞詞頻詞典(音序部分)》(宇航出版社,1990)。前者在180萬字的語料基礎上進行,先用人工仔細切分統計,然後用計算機進一步處理。後者在2 000萬字的語料基礎上采用機器切分方法進行。二者的分詞標準很不相同,前者過嚴,後者過寬。

  ⑤漢語理解系統。隨著人工智能的進展,語言研究所、心理研究所、自動化研究所和一些大學開展瞭漢語理解系統(人機對話)的研究。目前隻限於書面語言理解,而且主要是問答型。輸入方式采用漢語拼音。上機試驗結果表明,有的系統已有識別多種句型的能力(見漢語書面理解系統)。漢語語音理解系統也在研制之中。

  ⑥計算機輔助語言教學。隨著計算機的普及和網絡的發展,多媒體(光盤)語言教學和現代化遠程語言教學(網絡)充分發揮瞭計算機輔助語言教學的作用。很多大學建立瞭多媒體演播室和遠程教育中心,不僅解決瞭教師短缺和因材施教的問題,而且大大提高瞭學習效率。

  ⑦語音識別和言語合成。語音打字的任務早在1958年提出,1964年實現瞭“元音識別機”,1970年前後又實現瞭10個口呼漢語數字的識別機。但利用電子計算機進行識別研究,則始於1972年。聲學研究所利用語音圖樣匹配方法在一定范圍內實現瞭單呼語言的識別,正確率達99.5%以上。近年來,中國科學院自動化所的LVCSR系統的建立,體現瞭大詞匯量、連續語音、非特定人的語音綜合研究技術的實力。在此基礎上的廣播語音識別錯誤率已降到10%左右。

  漢語合成的研究已在清華大學等單位進行。

  ⑧方言研究。國外有人曾將漢語方言資料輸入計算機,讓計算機提供各個方言聲母、韻母、聲調的出現頻率,以及鼻化、腭化現象分佈的百分比。這些數據不僅有利於方言的共時描寫和比較,而且還有利於檢驗各種歷史構擬假說的正確性。中國已開始利用計算機進行方言研究和繪制方言地圖

  ⑨索引、詞表和詞典的編制。1980年武漢大學等單位開始語言自動處理工作,主要是編制逐字索引,同時提供漢字統計數據。相繼印出(《駱駝祥子》、《倪煥之》、《雷雨》、《日出》和《北京人》的逐字索引,以及《論衡》的語詞索引和統計資料。

  利用計算機編制詞表、詞典也已提上日程。1988年語言研究所編制出版瞭《多語對照語言學詞匯(英、法、德、俄、中)》。機編詞典除能加快辭書的編輯出版過程外,還可以隨時擴充、修改,保持詞典的先進性。20世紀80年代以後,機編詞典逐步成瞭主流。

  中文信息處理研究方興未艾。隨著研究手段的改善和研究工作的深入,還將有更多更新的項目湧現。

  

推薦書目

 張壽萱, 徐建毅, 張建生. 中文信息的計算機處理. 北京: 宇航出版社, 1984.

 劉湧泉. 中國的語言工程. 中文信息, 1985(1).