Unicode

目前的 Unicode 版本是 3.0 (2000/01/31)。因為資料量很大，而且標準字集無法可靠地利用電子字型來傳遞。所以，Unicode 標準字集，必需由書本取得。我個人也認為，這是最可靠的做法。但是，我目前手中的書本，是 1996 年份的 Unicode 2.0。所以此處所簡介者，都是根據版本 2.0 所言。稍候將在獲得標準書本之後，再介紹最新版本。

當 Unicode 的首碼是 0，次碼是低拜 (low byte) 的時候，它就是 ASCII 碼。當首碼是 0，次碼是高拜 (high byte) 的時候，它就是 Latin-1 碼。其他字符的首碼都 >0，例如 CJK 的首碼在 0x4E--0x9F 之間。除了混在 CJK 裡面的中國字以外，臺灣使用的ㄅㄆㄇㄈ注音符號，放在 (0x31 0x05) 到 (0x31 0x2C) 之內，共 40 個。注音符號不是 37 個嗎？多出來的 3 個，似乎是台語的注音。此外，還有 94 個 ASCII 字符的全形字 (寬度是普通 ASCII 字符的兩倍)，放在 (0xFF 0x01) 到 (0xFF 0x5E) 之內。

Unicode 有潛力成為國際間的標準交換碼，但是就特定地域、特定文字的電腦使用者而言，卻未必實用。譬如，中文的排序，傳統上需先按照筆畫數來排，同筆畫數的按照部首，再來可能按照讀音或其他屬性。 Big-5 和 CNS 編碼系統，或多或少將字碼按照這個順序排列，所以，只要按照號碼排序，就幾乎等於中國字的排序了。但是，在 Unicode 裡面，中國字的字碼順序不再按照這種古法排序，因此不能僅以 Unicode 的交換碼來排序。

以下是從 Unicode Version 2.0 的書本中摘錄下來的 CJK 字集中，最先的 64 個字符。可以看得出來，除了我們認識的中國字之外，還有簡體字、日本字、以及一些偏旁。此字集中的第 1 個字就是「一」。這和 Big-5 與 CNS 都一樣。但 Big-5 的第 2 個字「乙」，也是一個一筆畫字，卻在 Unicode 的 CJK 字集中，被排到第 90 個字。

[Unicode Version 3.0]

課外讀物：
[1] CNS 11643 中文標準交換碼全字庫伺服器 (含 Unicode 之發展與轉換) http://www.cns11643.gov.tw
[2] Unicode 網站 http://www.unicode.org

[ 發表感想或意見 ] ‧ [ 讀者推薦課外讀物 ]

單維彰 (00/05/28) ---