為漢字設計的一種便於輸入電腦的代碼。由於電子電腦現有的輸入鍵盤與英文打字機鍵盤完全相容。因而如何輸入非拉丁字母的文字(包括漢字)便成瞭多年來人們研究的課題。

  漢字資訊處理系統一般包括編碼、輸入、存儲、編輯、輸出和傳輸。編碼是關鍵。不解決這個問題,漢字就不能進入電腦。

  漢字進入電腦的三種途徑 分別為:

  ①機器自動識別漢字:計算機通過“視覺”裝置(光學字符閱讀器或其他),用光電掃描等方法識別漢字。

  ②通過語音識別輸入:計算機利用人們給它配備的“聽覺器官”,自動辨別漢語語音要素,從不同的音節中找出不同的漢字,或從相同音節中判斷出不同漢字。

  ③通過漢字編碼輸入:根據一定的編碼方法,由人借助輸入設備將漢字輸入計算機。

  機器自動識別漢字和漢語語音識別,國內外都在研究,雖然取得瞭不少進展,但由於難度大,預計還要經過相當一段時間才能得到解決。在現階段,比較現實的就是通過漢字編碼方法使漢字進入計算機。

  漢字編碼的困難點 漢字進入計算機,有許多困難,其原因主要有三點:

  ①數量龐大:隨著社會的發展,新字不斷出現,死字沒有淘汰,漢字總數不斷增多。一般認為,現在漢字總數已超過6萬個(包括簡化字)。雖有研究者主張規定3000多或4000字作為當代通用漢字,但仍比處理由二三十個字母組成的拼音文字要困難得多。

  ②字形復雜:有古體今體,繁體簡體,正體異體;而且筆畫相差懸殊,少的一筆,多的達36筆,簡化後平均為9.8筆。

  ③存在大量一音多字和一字多音的現象:漢語音節416個,分聲調後為1295個(根據《現代漢語詞典》統計,輕聲39個未計)。以1萬個漢字計算,每個不帶調的音節平均超過24個漢字,每個帶調音節平均超過7.7個漢字。有的同音同調字多達66個。一字多音現象也很普遍。

  五種類型的編碼法 據粗略統計,現有400多種編碼方案,其中上機通過試驗的和已被采用作為輸入方式的也有數十種之多。歸納起來,不外5種類型:

  ①整字輸入法:前一階段,一般是將三四千個常用漢字排列在一個具有三四百個鍵位的大鍵盤上。近來,大多是將這些漢字按XY座標排列在一張字表上,通常叫“字表法”,或“筆觸字表法”。比如,X25行和Y90列交叉的字為“國”,當電筆點到字表上的“國”字時,機器自動將該字的代碼2590輸入。鍵盤上或字表中字按部首或按音序或按字義聯想而排列。不常用的字作為盤外字或表外字,另行編碼處理。

  ②字形分解法:將漢字的形體分解成筆畫或部件,按一定順序輸進機器。筆畫一般分成8種:橫(一)、豎(丨)、撇(丿)、點(丶)、折()、彎(乚)、叉(十)、方(口)。部件一般歸納出一二百個。由於一般鍵盤上隻有42個鍵(包括數字和標點),容納不下這麼多部件,因而有人設計中鍵盤,也有人利用部件形體上的相似點或出現概率的不同,而把100多個部件分佈在26個字母鍵上。

  ③字形為主、字音為輔的編碼法:這種編碼法與字形分解法的不同在於還要利用某些字音信息。如有的方案為瞭簡化編碼規則,縮短碼長,在字形碼上附加字音碼,有的方案為瞭采用標準英文電傳機,將分解歸納出來的字素通過關系字的讀音轉化為拉丁字母。

  ④全拼音輸入法:絕大多數是以現行的漢語拼音方案為基礎進行設計。關鍵問題是區分同音字,因而有的方案提出“以詞定字”的方法,還有的方案提出“拼音-漢字轉換法”,即“漢語拼音輸入 ──機內軟件變換(實為查機器詞表)──漢字輸出”系統。

  ⑤拼音為主、字形為輔的編碼法:一般在拼音碼前面或後面再添加一些字形碼。拼音碼有用現行漢語拼音方案或稍加簡化的,還有的為瞭縮短碼長而把聲母和韻母都用單字母或單字鍵表示的“雙拼方案”或“雙打方案”。如F鍵既表聲母F,又表韻母ang,連擊兩下,便是Fang“方”字。區分同音字的字形碼也多種多樣。除瞭大部分采用偏旁部首的信息外,還有采用起末筆或采用語義類別的。

  上述各種編碼法,各有短長。例如,字表法的特點是一字一格(鍵),無重碼,直觀性好,操作簡單。缺點是需特制鍵盤,速度較慢。字形分解法的好處是按形取碼,不涉及字音,因而不認識的字(包括生僻字、古字)也同樣可以編碼輸入;但漢字形體結構非常復雜,寫法也有許多差異,分解標準不易統一,因而不少方案規則較多。拼音輸入法(包括拼音-漢字轉換法)的優點是操作簡捷,可以“盲打”,不受漢字簡化、字形改變的影響,符合拼音化方向,並且還便於作進一步信息處理;缺點是不認識的字無法輸入;另外,如果不加字形碼或不用以詞定字法或顯式選擇法,同音字較難處理。

  雙軌制編碼 漢語拼音推廣應用,並逐步過渡到漢字和漢語拼音文字並存並用,這是一種雙軌制。漢字信息處理領域中,音碼和形碼的並存並用,同樣是一種雙軌制。因此,不少人認為,采用雙軌制好,理由有以下5點:

  ①對掌握普通話的人來說,使用音碼比形碼方便,速度比較快。形碼雖然較慢,但能輸入任何漢字(包括古字)。采用雙軌,操作員認識的字可按音輸入,不認識的字按形輸入,會普通話的人可按音輸入,方音重的人可按形輸入。

  ②對於用字量少的單位,按音輸入無問題,但對用字量多的單位來說,按音輸入就不如按形輸入,因為一般人隻能念出一部分漢字。

  ③按形輸入(尤其是整體輸入)對於中文信息處理的某類工作,如統計漢字,非常適合;但是對於其他類工作,例如統計漢語的音(聲韻調)則無能為力。按音輸入則正相反。雙軌正好是相輔相成。

  ④有的形碼可以照顧多種漢字(如日本的漢字、南朝鮮的漢字),而音碼能分詞連寫,便於作進一步的信息處理。

  ⑤適當的雙軌方案,不會增加設備上的麻煩。如不考慮采用整字輸入,一般均可使用現有的小鍵盤。

  漢字編碼研究的新發展 除瞭單軌向雙軌發展之外,還有下列趨勢:

  ①混合式編碼法。筆觸字表示法中除整體字之外,增加一些部件或字元,可以解決盤外字問題,甚至能具有字形分解法的全部優點。而筆畫方案為瞭提高速度,一般也增加一些部件或整字。

  ②充分利用簡碼和詞匯碼。這樣可以提高輸入速度。因而人們為少量出現頻率高的字或詞設計瞭單字母和雙字母的簡碼。

  詞匯碼也是提高速度的手段。有一種形碼方案的詞匯碼是根據每個字的部件規定的,如“漢字編碼”的詞匯碼是43、45、55、13(氵冖纟石)。另一種形碼方案的詞匯碼是利用計算機引導方式輸入的。例如,當“中”字輸入後,一按語詞鍵,屏幕上便顯示出“中國”、“中型”、“中性”、“中華”等雙音詞;選擇“中國”後,如再按一下語詞鍵,便可顯示出“(中國)話”、“(中國)人民”、“(中國)共產黨、”、“(中國)工農紅軍”等詞或詞組。音碼方案的詞匯碼實際上為詞組碼,如 ZRG“中華人民共和國”,ZZXY“中國中文信息研究會”。詞匯碼不僅能提高速度,而且也能區別同碼。但是,如果用得太多,也會產生重碼。因此,有必要劃分通用詞匯碼和專業詞匯碼,以減少重碼。

  ③充分發揮“電腦”的作用,盡量減少“人腦”的負擔。上述計算機引導輸入法就是一例。還有的方案不斷以開窗口方式向操作員提供選擇的范圍。這樣,操作員不必再記憶大量的編碼規則。

  編碼工作中的定型化和標準化 編碼方案的定型化,即一般所說的選優工作,對計算機的普及應用非常重要。當然,定型或選優並不意味著隻定一種或隻選一種,而要照顧到多種用戶的需要。關於選優,曾提出多種評定標準,一般包括字碼無二義性、操作方便易學、輸入和處理效率高、存儲節省、傳輸可靠、設備經濟實用、組詞能力強。

  編碼方案繁多,需要有一個統一的標準。1981年,國傢標準局公佈瞭《信息交換用漢字編碼字符集基本集》(簡稱漢字標準交換碼),共分兩級,一級3755個字,二級3008個字,共6763個字。這種漢字標準交換碼是計算機的內部碼,可以為各種輸入輸出設備的設計提供統一的標準,使各種系統之間的信息交換有共同一致性,從而使信息資源的共享得以保證。目前,正在制定《信息交換用漢字編碼字符集輔助集》,以滿足少數用字量超過基本集的用戶和臺灣、香港等地的需要。

  

參考書目

 劉湧泉:《語言應用和現代化──中文信息處理研究》,載《語文研究》,1983,第1期,太原。

 中國漢字編碼研究會編:《漢字編碼方案匯編》,科學技術文獻出版社,北京,1979。