Unicode

目前的 Unicode 版本是 3.0 (2000/01/31)。因為資料量很大, 而且標準字集無法可靠地利用電子字型來傳遞。所以,Unicode 標準字集, 必需由書本取得。我個人也認為,這是最可靠的做法。 但是,我目前手中的書本,是 1996 年份的 Unicode 2.0。 所以此處所簡介者,都是根據版本 2.0 所言。 稍候將在獲得標準書本之後,再介紹最新版本。

當 Unicode 的首碼是 0,次碼是低拜 (low byte) 的時候,它就是 ASCII 碼。 當首碼是 0,次碼是高拜 (high byte) 的時候,它就是 Latin-1 碼。 其他字符的首碼都 >0,例如 CJK 的首碼在 0x4E--0x9F 之間。 除了混在 CJK 裡面的中國字以外,臺灣使用的ㄅㄆㄇㄈ注音符號, 放在 (0x31 0x05) 到 (0x31 0x2C) 之內,共 40 個。 注音符號不是 37 個嗎?多出來的 3 個,似乎是台語的注音。 此外,還有 94 個 ASCII 字符的全形字 (寬度是普通 ASCII 字符的兩倍), 放在 (0xFF 0x01) 到 (0xFF 0x5E) 之內。

Unicode 有潛力成為國際間的標準交換碼, 但是就特定地域、特定文字的電腦使用者而言,卻未必實用。 譬如,中文的排序,傳統上需先按照筆畫數來排, 同筆畫數的按照部首,再來可能按照讀音或其他屬性。 Big-5 和 CNS 編碼系統,或多或少將字碼按照這個順序排列, 所以,只要按照號碼排序,就幾乎等於中國字的排序了。 但是,在 Unicode 裡面,中國字的字碼順序不再按照這種古法排序, 因此不能僅以 Unicode 的交換碼來排序。

以下是從 Unicode Version 2.0 的書本中摘錄下來的 CJK 字集中, 最先的 64 個字符。 可以看得出來,除了我們認識的中國字之外,還有簡體字、日本字、 以及一些偏旁。 此字集中的第 1 個字就是「一」。這和 Big-5 與 CNS 都一樣。 但 Big-5 的第 2 個字「乙」,也是一個一筆畫字,卻在 Unicode 的 CJK 字集中,被排到第 90 個字。

A scan from Version 2.0

[Unicode Version 3.0]

課外讀物:
[1] CNS 11643 中文標準交換碼全字庫伺服器 (含 Unicode 之發展與轉換) http://www.cns11643.gov.tw
[2] Unicode 網站 http://www.unicode.org


[ 發表感想或意見 ] ‧ [ 讀者推薦課外讀物 ]
單維彰 (00/05/28) ---