为什么有的字形可以「打出字」，有的不可以？_网络百科

因爲在當今電腦都使用的 Unicode（統一碼、萬國碼）裏，處理到「中日韓統一表意文字」的收錄時，應用到兩個對立的原則：表意文字認同原則（Han Unification Rule，又稱表意文字統合原則）與原規格分離原則（Source Separation Rule，又稱原字集分離原則）。

認同原則與原規格分離原則

東亞各國字形多有微妙的差異。如「房」字的第一筆，韓國傳統漢字字形、臺灣敎育標準字形作撇；香港敎育參考字形、中國大陸規範作點；日本標準作橫。又如「次」字的左旁，韓國採用傳統字形，首筆爲橫，次筆爲挑，即「二」字作左旁偏旁時的末橫讓右變挑之寫法；臺灣敎育字形作兩橫，即「二」字而且末橫不讓右變挑；大陸、日本、香港等則作「冫」（俗稱兩點水）。這種程度的差異，理想上是整併作一個字爲佳。否則，要是凡異體字都收進不同碼位裏，Unicode 收錄的漢字就會過於臃腫，用戶搜尋時也會因異體問題而找不到想要的結果。

「次」（U+6B21）的不同地域標準，從左至右爲：臺灣、中國大陸、韓國、越南、日本。

然而，從之前各種受挫之文字整併計劃的經驗得知，整合字集與現行通用字集（Big5 或國標碼）等無法一一對應，是推行整合字集的最大阻礙。例如，日本的 JIS（日本產業規格，Japanese Industrial Standards）編碼裏，同時收錄了「剣」字與「劍」字，原本 JIS 文件裏這兩個字可以並存。若採用整合字集後，它們會變成同一個字，就會造成使用上的困擾。而且，如果將多個不同地區字形合併，會影響閱讀者，令使用者不習慣並非以往所見字形；更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形（或地區性的異體字）。

於是，表意文字認同原則與原規格分離原則就應運而生。

在表意文字認同原則下，Unicode「只對字（Character），而不對字形（Glyph）」編碼，會把同一字的不同字形（即異體字）合併。好像上述的「次」字，在 Unicode 裏會整併成一個碼。又例如不同地區而有不同寫法的部首，如「⻌（中國大陸規範、日本新字體）、⻍（港臺舊字形、韓國、日本舊字體）、⻎（臺灣敎育字形）」、「礻（首筆是頓點，中國大陸規範、臺灣敎育字形）、⺭（首筆是直點，日本新字體）、⺬（日本舊字體、韓國、港臺舊字形）」、「爫（中國大陸、港臺新字形）、⺥（舊字形）」等，都會合併編碼。這些部首的寫法差異就會交由字型處理。比如說，使用依中國大陸漢字標準《印刷通用漢字字形表》的字體下（如中易宋體、微軟雅黑體）便會出現「⻌、爫」；使用臺灣敎育標準字形（如微軟正黑體或新版細明體，但非舊版細明體^[1]）就會出現「⻎、爫」等字形。這大大解決了因地區而異之部首寫法。

至於原規格分離原則是指，在上述所列出之各種來源文本裏，若有任何字集同時收了兩種以上的文字字形，則在 Unicode 中日韓統一表意文字中，也同時收錄這些字。這樣一來，現行的各種原有字集與 Unicode 漢字可以一一對應。比如「房」字，各地字集都沒有分別編碼，就只編進一個碼位，部首第一筆的寫法交由字型處理。然而，「戶」、「户」、「戸」這三個字，在一些地區標準裏是分別編碼的，Unicode 則以三個碼位來分別收錄它們。上述的「劍」與「剣」也一樣，要分別收錄到不同的碼位。

基於上述運作，Unicode 能大幅減少收錄漢字字數，同時讓地區編碼過渡至 Unicode 時，字集裏的字元不會有流失。但是，原規格分離原則破壞了 Unicode「只對字，而不對字形」編碼之原則，使某些漢字獲得兩個或多個編碼，亦遭受不少批評。

後來的一些重複漢字會使用「兼容區」提供暫存編碼，可以通過歸一化（normalization）步驟移除。比如維基百科，在編輯者按下「發佈更改」後，會把編輯區域裏的兼容區字元自動替換成非兼容區字元，換言之編輯者無法使用兼容區字元。一般的漢字輸入法，以及多數漢字字型，也不支援兼容區字元。用戶若要使用放在兼容區裏的字形，可能要花上額外的操作，甚至仍不得要領，無法選用。

橙字是正常 Unicode 編碼。黃字是兼容區編碼，難以正常輸入。若只有一個 Unicode 編碼，卻有兩個字形，表示 Adobe 以 CID 技術，在同一 Unicode 碼內製作了兩個字形，可用 Adobe InDesign 等軟件選擇心目中的異體字。但在不支援 CID 的軟件裏，只能顯示其中一形。

另外，原規格分離原則只適用於最初 Unified Repertoire and Ordering（URO）的 20,902 字，換言之，由「擴展區 A」開始就不再適用。原因是個別地區提交了不少僅有十分輕微差異的字樣，比如臺灣《異體字字典》裏的各種異體，要求 Unicode 分別編碼。然而，那些字樣所立足的地區編碼，並非該地區的通用編碼，例如是「中文標準交換碼」（臺灣實際通行的編碼是 Big5 碼）。若 Unicode 全面採納，將會令 Unicode 對異體字的處理更混亂。最終，Unicode 決定自「擴展區 A」起就不再使用原規格分離原則。

今天，異體字選擇器（Variation Sequence）以及 Adobe 常用的 CID 字型等技術，已容許在一個 Unicode 編碼裏收錄和調用兩個或多個漢字字樣，原規格分離原則在今天已成爲過時技術的副產品。

起源不同原則

留意的是，可以整併的字只限異體字。如果有些漢字，它的音、義根本不一樣，是兩個不相同的字，即使它們外形相近，寫法差異比另一些整併的字少，但仍不能合併。這規則稱爲起源不同原則（Noncognate Rule）。

擧例說：「土」和「士」雖然形似，卻是兩個不同的字，我們不可以整併它們。（然而，日本、韓國、大陸、香港等地的「寺」字，與臺灣敎育字形的「寺」字，兩者頂部分別是「土」和「士」，但它們音義全同，是同一字的異體，於是就能夠整併。）

其他起源不同的例子還有「胄」和「冑」，「柿」和「杮」，「汨」和「汩」，「陝」與「陜」等。這些字都不可以整併。

學界批評

中文文字學學界對 Unicode 的原規格分離原則有不少批評，尤其是它令同一個異體部件時而分離，時而合併，在日常使用層面引伸了許多問題。擧例說，「青」和「靑」、「淸」和「清」都在正常區域中作分離編碼，獲得兩個碼位；「晴」、「靖」、「精」雖也獲兩個碼位，但其中一個是在兼容區中，日常難以應用；「請」、「情」、「蜻」、「靜」更只有一個碼位。或例如，「直」、「植」、「埴」、「殖」、「置」的末筆無論是橫還是豎橫（豎折），都被整併作相同的碼位，可是「値」和「值」卻分離作兩個碼位。Unicode 的做法，沒有把含有相同異體部件的字全都合併，也沒有把它們全都分離，結果經常導致字形不一致，或者使用者無法選擇他希望使用的字形。

其他漢字使用地區也有類似聲音。例如「戋」和「㦮」兩個偏旁，前者爲「戔」的中國大陸簡化漢字，後者爲「戔」的日本略字，在「残」和「⿰歹㦮」、「浅」和「⿰氵㦮」、「践」和「⿰⻊㦮」等組合裏，Unicode 就整併起來。可是碰到「栈」和「桟」，卻不統合，分別安排到 U+6808 與 U+685F 兩個碼位中。這種情況遭日本學者指爲 Unicode 自相矛盾（參見：安岡孝一：《Unicodeの矛盾》）。

在下也寫過一篇《Unicode 摧殘正體字》，批評此問題。可以參閱：

說文:unicode 摧殘正體字 [刻石錄]

事實上，由於在「中日韓統一表意文字」的不同區域裏，Unicode 本身也使用了不一致的併分尺度，因此，早期的異體字時常獲分配正常碼位，後來常常只有兼容區的暫存編碼，再後來則不時被直接整併並交由異體字選擇器處理。若不修正或更改早期的編碼，類似的問題將會持續存在。

为什么有的字形可以「打出字」，有的不可以？

相关推荐