为什么有的字形可以「打出字」,有的不可以?


因爲在當今電腦都使用的 Unicode(統一碼、萬國碼)裏,處理到「中日韓統一表意文字」的收錄時,應用到兩個對立的原則:表意文字認同原則(Han Unification Rule,又稱表意文字統合原則)與原規格分離原則(Source Separation Rule,又稱原字集分離原則)。

認同原則與原規格分離原則

東亞各國字形多有微妙的差異。如「房」字的第一筆,韓國傳統漢字字形、臺灣敎育標準字形作撇;香港敎育參考字形、中國大陸規範作點;日本標準作橫。又如「次」字的左旁,韓國採用傳統字形,首筆爲橫,次筆爲挑,即「二」字作左旁偏旁時的末橫讓右變挑之寫法;臺灣敎育字形作兩橫,即「二」字而且末橫不讓右變挑;大陸、日本、香港等則作「冫」(俗稱兩點水)。這種程度的差異,理想上是整併作一個字爲佳。否則,要是凡異體字都收進不同碼位裏,Unicode 收錄的漢字就會過於臃腫,用戶搜尋時也會因異體問題而找不到想要的結果。

「次」(U+6B21)的不同地域標準,從左至右爲:臺灣、中國大陸、韓國、越南、日本。

然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5 或國標碼)等無法一一對應,是推行整合字集的最大阻礙。例如,日本的 JIS(日本產業規格,Japanese Industrial Standards)編碼裏,同時收錄了「剣」字與「劍」字,原本 JIS 文件裏這兩個字可以並存。若採用整合字集後,它們會變成同一個字,就會造成使用上的困擾。而且,如果將多個不同地區字形合併,會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)。

於是,表意文字認同原則與原規格分離原則就應運而生。

表意文字認同原則下,Unicode「只對字(Character),而不對字形(Glyph)」編碼,會把同一字的不同字形(即異體字)合併。好像上述的「次」字,在 Unicode 裏會整併成一個碼。又例如不同地區而有不同寫法的部首,如「⻌(中國大陸規範、日本新字體)、⻍(港臺舊字形、韓國、日本舊字體)、⻎(臺灣敎育字形)」、「礻(首筆是頓點,中國大陸規範、臺灣敎育字形)、⺭(首筆是直點,日本新字體)、⺬(日本舊字體、韓國、港臺舊字形)」、「爫(中國大陸、港臺新字形)、⺥(舊字形)」等,都會合併編碼。這些部首的寫法差異就會交由字型處理。比如說,使用依中國大陸漢字標準《印刷通用漢字字形表》的字體下(如中易宋體、微軟雅黑體)便會出現「⻌、爫」;使用臺灣敎育標準字形(如微軟正黑體或新版細明體,但非舊版細明體[1])就會出現「⻎、爫」等字形。這大大解決了因地區而異之部首寫法。

至於原規格分離原則是指,在上述所列出之各種來源文本裏,若有任何字集同時收了兩種以上的文字字形,則在 Unicode 中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與 Unicode 漢字可以一一對應。比如「房」字,各地字集都沒有分別編碼,就只編進一個碼位,部首第一筆的寫法交由字型處理。然而,「戶」、「户」、「戸」這三個字,在一些地區標準裏是分別編碼的,Unicode 則以三個碼位來分別收錄它們。 上述的「劍」與「剣」也一樣,要分別收錄到不同的碼位。

基於上述運作,Unicode 能大幅減少收錄漢字字數,同時讓地區編碼過渡至 Unicode 時,字集裏的字元不會有流失。但是,原規格分離原則破壞了 Unicode「只對字,而不對字形」編碼之原則,使某些漢字獲得兩個或多個編碼,亦遭受不少批評。

後來的一些重複漢字會使用「兼容區」提供暫存編碼,可以通過歸一化(normalization)步驟移除。比如維基百科,在編輯者按下「發佈更改」後,會把編輯區域裏的兼容區字元自動替換成非兼容區字元,換言之編輯者無法使用兼容區字元。一般的漢字輸入法,以及多數漢字字型,也不支援兼容區字元。用戶若要使用放在兼容區裏的字形,可能要花上額外的操作,甚至仍不得要領,無法選用。

橙字是正常 Unicode 編碼。黃字是兼容區編碼,難以正常輸入。若只有一個 Unicode 編碼,卻有兩個字形,表示 Adobe 以 CID 技術,在同一 Unicode 碼內製作了兩個字形,可用 Adobe InDesign 等軟件選擇心目中的異體字。但在不支援 CID 的軟件裏,只能顯示其中一形。

另外,原規格分離原則只適用於最初 Unified Repertoire and Ordering(URO)的 20,902 字,換言之,由「擴展區 A」開始就不再適用。原因是個別地區提交了不少僅有十分輕微差異的字樣,比如臺灣《異體字字典》裏的各種異體,要求 Unicode 分別編碼。然而,那些字樣所立足的地區編碼,並非該地區的通用編碼,例如是「中文標準交換碼」(臺灣實際通行的編碼是 Big5 碼)。若 Unicode 全面採納,將會令 Unicode 對異體字的處理更混亂。最終,Unicode 決定自「擴展區 A」起就不再使用原規格分離原則。

今天,異體字選擇器(Variation Sequence)以及 Adobe 常用的 CID 字型等技術,已容許在一個 Unicode 編碼裏收錄和調用兩個或多個漢字字樣,原規格分離原則在今天已成爲過時技術的副產品。

起源不同原則

留意的是,可以整併的字只限異體字。如果有些漢字,它的音、義根本不一樣,是兩個不相同的字,即使它們外形相近,寫法差異比另一些整併的字少,但仍不能合併。這規則稱爲起源不同原則(Noncognate Rule)。

擧例說:「土」和「士」雖然形似,卻是兩個不同的字,我們不可以整併它們。(然而,日本、韓國、大陸、香港等地的「寺」字,與臺灣敎育字形的「寺」字,兩者頂部分別是「土」和「士」,但它們音義全同,是同一字的異體,於是就能夠整併。)

其他起源不同的例子還有「胄」和「冑」,「柿」和「杮」,「汨」和「汩」,「陝」與「陜」等。 這些字都不可以整併。

學界批評

中文文字學學界對 Unicode 的原規格分離原則有不少批評,尤其是它令同一個異體部件時而分離,時而合併,在日常使用層面引伸了許多問題。擧例說,「青」和「靑」、「淸」和「清」都在正常區域中作分離編碼,獲得兩個碼位;「晴」、「靖」、「精」雖也獲兩個碼位,但其中一個是在兼容區中,日常難以應用;「請」、「情」、「蜻」、「靜」更只有一個碼位。或例如,「直」、「植」、「埴」、「殖」、「置」的末筆無論是橫還是豎橫(豎折),都被整併作相同的碼位,可是「値」和「值」卻分離作兩個碼位。Unicode 的做法,沒有把含有相同異體部件的字全都合併,也沒有把它們全都分離,結果經常導致字形不一致,或者使用者無法選擇他希望使用的字形。

其他漢字使用地區也有類似聲音。例如「戋」和「㦮」兩個偏旁,前者爲「戔」的中國大陸簡化漢字,後者爲「戔」的日本略字,在「残」和「⿰歹㦮」、「浅」和「⿰氵㦮」、「践」和「⿰⻊㦮」等組合裏,Unicode 就整併起來。可是碰到「栈」和「桟」,卻不統合,分別安排到 U+6808 與 U+685F 兩個碼位中。這種情況遭日本學者指爲 Unicode 自相矛盾(參見:安岡孝一:《Unicodeの矛盾》)。

在下也寫過一篇《Unicode 摧殘正體字》,批評此問題。可以參閱:

說文:unicode 摧殘正體字 [刻石錄]

事實上,由於在「中日韓統一表意文字」的不同區域裏,Unicode 本身也使用了不一致的併分尺度,因此,早期的異體字時常獲分配正常碼位,後來常常只有兼容區的暫存編碼,再後來則不時被直接整併並交由異體字選擇器處理。若不修正或更改早期的編碼,類似的問題將會持續存在。

物理和化学中有些哪些好玩儿的随机过程?
上一篇
光是粒子还是波?(光是粒子还是波实验)
下一篇
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

相关推荐

  • 苹果手机各个功能介绍,iphone必须关闭的十个功能

    1、关闭蓝牙。现在已经很少有人用蓝牙传输文件了,而且iPhone与安卓的蓝牙并不兼容,所以,可以在设置中,关闭蓝牙功能。2、关闭通知功能。关于APP推送,无非也就是一些更新提醒,关了也不会有什么影响,还能多省点电。3、关闭自动调节亮度功能。一般来说,可以将屏幕亮度在15%-30%之间,在强光环境中,在进行手动调整就可以了。4、禁止后台刷新。在设置—通用中,关闭后台自动刷新功能,也可以对省电起到一点...

  • 高德打车怎么设置途经地,高德如何添加途经路线

    1、点击高德地图APP界面底部的“导航”按钮,进入导航模式。2、点击右下角的“路线”,进入路线设定页面,根据要求输入起点、终点进行路线规划。3、点击“添加途经点”,弹出添加途经点页面,点击右上角,可以添加或者删除途经点,乘客可以手动输入要添加的途经点。4、当添加完途经点时,点击“确定”按钮,即可添加途经路线。此时地图会显示出这条路线上所有的途经点,以及当前途经点的地点信息。怎么设计高德地图设置要经...

  • 高中必修二物理知识点总结,高一物理必修2重点知识点归纳

    您好,1.运动学-位移、速度、加速度的概念及计算方法-相关运动的分析方法,如相对运动和抛体运动-牛顿运动定律及其应用2.力学-力的概念及种类,如重力、弹力、摩擦力等-牛顿第一、二、三定律及其应用-力的合成与分解-能量、功、动能定理、功率的概念及计算方法-动量、冲量定理及其应用3.热学-温度、热量、热能的概念及计量单位-热传递的方式及其特点,如传导、对流、辐射-热力学第一、二定律及其应用,如热机效率...

  • 如何通俗地理解协方差和相关系数?(如何通俗地理解久期)

    1 正相关与负相关1.1 相关性事物之间可能会有关系,这可以通过数据看出。比如要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高,两者的关系称为 正相关 :城镇化有另外一个反作用...

  • 如何理解傅里叶变换公式?(快速傅里叶变换公式)

    喜欢科普的我思考良久,准备挑战一下这个高难度的问题。难并不是因为有多么难学,而是非常的抽象,无法直观理解,也是很多在校大学生的梦魇。借用我在《线性代数有什么用?学习线性代数的意义在哪?》里写过的一句话...