中國字舉凡五萬有餘,即使教育部頒訂的常用字也有 4808 個。 若要以一字一鍵的方式輸入,幾乎可以肯定是不實際的想法。 早期的中文打字機,事實上是個鉛字撿字機,一個面盤上有上千個鉛字。 這樣的機械,應該不適合一般人使用。 而體積過於龐大,也不適合在一般的辦公室內架設。
林語堂先生曾率先嘗試發明拆字與組字的小型中文打字機 (並幾乎為此破產)。 他企圖將中國字拆成若干個事先整理完全的部首或偏旁; 這些中國字的小單元,此後稱為字根。 將這些字根作成鍵盤上的按鍵,就好像西方語言的字母一樣。 使用者按下一組按鍵,由機械的設計將這些字根組合,印在紙上,合成一個字。 這個想法類似於王雲五先生的四角號碼; 兩者都是設法將一個中國字的字形拆開化解, 使得中國字有一個簡單的索引辦法。
傳統的中國字典,其索引辦法用的是部首和筆畫。 但是,許多人不能理解部首的設計; 例如林語堂先生就經常為文抱怨部首設計的不合理。 而且,使用筆畫數來作索引,顯然不是一個有效率的作法。 另一個常用來當檢索辦法的是讀音。 這個困難就更明顯了。 一則許多字可能是見到卻讀不出來的, 二則各地的鄉音和方言使得讀音並不統一。
林語堂先生的想法是非常適用的; 他的困難在於,他領先了時代太遠。 當時他必須用堅硬的機械結構來實現他的理想。 而方便且便宜的個人電腦還要三十年才問世。 試想,輸入一個木,是木字; 兩個木是林,這兩個木字必須要變的比較窄; 三個木是森,這三個木字必須要變的比較窄又比較矮,而且要堆在一起。 這樣的機械該有多複雜? 但是,這種複雜而有一定規則的事情,正是電腦最擅長的工作。
林先生的設計並沒有真的被挪用到今天的電腦上,成為輸入中文的工具。 但是他的想法卻隨處可見。 例如朱邦復先生的倉頡輸入法,現在已經是 PC 上的一種中文標準配備 (朱先生將這項發明捐給了社會,不收版權費)。 幾乎所有中文鍵盤上,都印著英文字母,注音字母,和倉頡輸入法的字根。 同樣想法但是號稱比較簡單的,有王贊傑先生的大易輸入法; 每個字最多只取四個字根。 最近又有劉重次先生的行易輸入法,也是每個字最多只取四個字根。 但可能字根的解讀更簡單或直覺一點,近年的幾次輸入競賽,是由使用行易法的選手奪魁。 其平均速度竟然達到每分鐘一百八十多個中國字。 即使一個字僅須按下三個鍵,每秒也得敲下九個鍵,這還包括在腦子裡拆字的時間。 這個記錄對一般人而言,可能就像奧林匹克的百公尺短跑記錄一樣的望塵莫及。
以上所說以倉頡法為代表的中文輸入法,統稱為字形輸入法。
字形輸入法是藉由鍵盤輸入指令,指導電腦為我們選擇一個中國字。 我們可以有一個最基本的估計。 由於一般的計算機中都以 Big-5 為中文的編碼系統,而此系統共定義了 13,461 個中國字的字形以及它們的編碼。 假如在鍵盤上我們可以運用的按鍵數是 n,則這 n 個鍵一共可以組成
為了公平比較不同的字形輸入法在設計上的合理性與邏輯性 (合邏輯的方法比較容易記住),我提出以下一套問題:
另一種是由讀音來輸入,統稱為字音輸入法。 前面說了,字音輸入法有其困難。 那麼,除了其成為一個最簡單,對大部分人而言最好學的輸入法之外, 字音輸入法還有什麼存在的價值呢?
在我們投入時間,精力甚至金錢,去學習一種中文輸入法之前,要認清: 我們輸入中文的工作性質,是在依照既定的稿件或印刷品,將其電子化, 還是成為一個作者,將自己的意思直接以電子形式寫出來。 如果您的工作主要屬於前者,那麼, 您的工作要件當然是要快而正確。 這時候,您可能根本不會思考您正在抄寫的文章內容,只要能把眼前的字輸入電腦就是了。 所以,字形輸入法是一個合理的工具: 您只須將已經印成或寫出來的字化成字根的代碼,鍵入電腦, 根本不須理會它的讀音和意義。 一名熟練的輸入者,每分鐘輸入個一百字並不誇張。
但是,如果您自己就是作者,字形輸入法就值得商榷了。 雖然正式的結論需要心理學家的研究證明,但我想一般人會同意, 當我們思考的時候,字音比字形先出現。 而且,若是一邊思考一邊書寫,輸入的速度就變得相對來說不非常重要了。 對作者而言,字音輸入法或許比較自然。 在這種情形,通常您不會遇到需要輸入一個您不會唸的字; 當然偶爾您會發現幾個您念錯的字,這是難免,但是應該不至於造成太大的困擾。 倒是方言或不標準的發音,的確是一大障礙。 所幸以目前大多數受過新式教育的作者,大概在發音上沒有太大的困難。
撇開這些問題,字音輸入法的最大障礙是一項電腦技術問題。 眾所周知,中國字同音字何其多。 單以常用字為例,沒有同音字的只有像
我 徐 死 能 白 拍 跑 胖 摸 買 粉 放 大 短 套 透 牛 撈 冷 改 給 口 海 誰 熟 少 彆 耍 收 說 扔 賊 租 猜 外 走等等。而一般字典上,與「義」同音的字總有八十個以上。
同音字固然降低字音輸入法的效率,提高出錯的機會; 更糟糕的是它更加傷害我們的眼睛。 因為我們的眼睛必須更專注在螢幕上,並且可能要遊走於螢幕的兩個不同的部位。 所幸近代語言學的應用大量地改善了這個缺點。 關鍵是,中國話的同音字很多,但是同音詞卻很少; 同一個詞性的同音詞就更少了 (像「氣管」和「企管」,「修課」和「休克」)。 如果一個字音輸入的程式能設計得夠聰明,它可以先記得很多詞, 然後在使用過程當中學習新詞,如果再加上文法和文章類別 (法律,醫學,etc.) 的輔助, 則作者通常只須要鍵入讀音,電腦可以選出正確的詞。 當然,這種技術不太可能在原始設計時就完美,例如它不大可能知道您和您的親友的名字。 但是透過妥善設計的學習功能,在同一位作者長期使用後, 這種「智慧型」的字音輸入法會有相當高的效率。 不過,對於文言文或詩詞的作者,它的功能可能不太高。 這一類的作者,可能比較實際的作法是先用紙筆寫稿, 然後用一個字形輸入法使其電子化。
字音輸入法也是以鍵盤為輸入媒介的,它的效率通常比字形輸入法要差。 也就是說,平均每個字所須要的按鍵數頗大於理論上的最小下界。 (注音符號的長度 (1--3) + 聲調符號 (0--1) + 選字 (1--13))。 但是,透過智慧型的辭庫與辭義處理,它容許一次輸入一句話。所以, 它的效率或許有可能達到最低的平均值。
除了以鍵盤為媒介的中文輸入法,還有其他的方式; 諸如語音,手寫和光眼 (OCR). 這些方式的輸入法都已經有了商業產品問世。 但是,它們的適用性都還有待大家的考驗。 原因之一是,這些方法都需要使用者與其善意的配合。 在彼此適應的情況下,它們或許會成為某些人的好幫手,但是卻未必適合其他人。
課外讀物:
[1] 【我的倉頡】網站,也有 CCCII 碼的教育資訊。
原址:
http://mycj.tale.net
中大數學的鏡射地址:
http://www.math.ncu.edu.tw/mcl/mycj
[2] 自然輸入法,含有辭庫的智慧型輸入法。
中研院資訊所【語言與文件應用系統實驗室】 (LPDA Lab)
的首頁:
http://www.iis.sinica.edu.tw/LPDA,以及其內的【開放式中文全功能輸入系統】
(Open Chinese):
http://www.iis.sinica.edu.tw/LPDA/OpenChinese
單維彰 (95/10/07) --- 96/10/29, 01/10/07