中日韩统一表意文本
中日韩统一表意文本(英语:),或译中日韩等同表意文本[1]、中日韩认同表意文本[2]、中日韩统一汉字集[3]、中日韩统合汉字[4],又称作统汉码、统一汉字集(英语:),创建目的是将中、日、韩、越、壮、琉球文起源相同、本义相通、形状一样或稍异的表意文本,在ISO 10646及统一码标准赋予相同编码。这作业活动在统一码标准称为汉字等同[5](英语:,或译为汉字认同、汉字统一、汉字统合)。整理出来的中日韩统一表意文本,由统一码联盟建置的Unihan数据库维护。
![]() |
![]() “次”字在台、中、韩、越、日汉字标准中的变体 |
---|
注意:本条目可能有部分无法显示,若遇此情况请参阅Wikipedia:Unicode扩展汉字。 |
中日韩统一汉字集所含括的为汉字及其衍生出来的语素文本,包括繁体字、简化字、日本汉字(/)、韩国汉字(/)、琉球汉字(/)、越南的喃字(/)与儒字(/)、方块壮字(/)。
历史
1978年,日本产业规格制订了基于ISO/IEC 2022的JIS C 6226,为全世界最早的汉字编码,包含6349汉字。1980年代,台湾(CCCII、CNS 11643)、中国大陆(GB 2312)、韩国(KS C 5601)开始订了各自的编码规范。这些规范彼此之间并无连系。若要在一份文档中同时使用,则要以转义字符的方式来交换。
1980年,日本的国立国会图书馆的高桥德太郎以书目学的观点指出,统一的东亚汉字编码系统有必要。同年,台湾制定了三字节的中文信息交换码,这是第一款期望可以一致处理中国、日本、韩国汉字的编码。之后,美国的国会图书馆采用了此标准,并另外命名为东亚编码字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。
1984年,ISO的文本编码委员会(ISO/TC 97/SC2)决议制订出一套编码规格(ISO 10646),是以交换文本集的方式来统一处理世界的文本。并成立了工作小组(ISO/TC 97/SC 2/WG 2)。这编码一开始的构想是采用16比特,而对于日本及中国等国的汉字编码则原封不动地加入。但若如此,中国当时所制订的编码都无法加入,因而反对,并在1989年提出各国汉字统合集合(Han Character Collection,HCC)的构想。
1990年完成了ISO 10646的初版草案(DIS 10646)。汉字用32比特表示,并将各国的汉字编码原封不动加入。但中国认为,若各国各自为汉字编码,将不利于统一处理汉字,因而反对。为了日后能顺利讨论汉字编码及处理有关方针,并呼吁WG 2特别设置了中日韩联合研究小组(CJK-JRG,Joint Research Group,为表意文本小组的前身),以持续讨论。
另一方面,1987年,全录的Joe Becker和Lee Collins开发了统合处理全世界所有文本的统一码。1989年发表了统一码概要。基本为16比特。于是,中、日、韩的汉字统合了。基本方针以16比特处理所有文本。1990年完成了基于此方针的最终草案。1991年1月,大致同意此方案的企业成立了统一码联盟。中、日、韩类似的汉字使用约二万多字。为了未来扩充,保留了三万汉字以供其它用途。
1991年,各国希望能以一致的方式处理文本,否决了ISO/IEC 10646的初版草案。基于中国与统一码联盟的提议,ISO 10646和统一码成立了中日韩联合研究小组。中日韩联合研究小组将基于各国的汉字编码,独自订定规范、制作ISO 10646和统一码的统一汉字编码。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但发现一些缺失,之后修正。
1993年5月正式制订最初的「中日韩统一表意文本」位于U+4E00-U+9FFF,共20902字;不过汉字“〇”(U+3007)误当数字放入符号和标点区。一个月后制订了统一码1.1。
1999年,依据ISO/IEC 10646的第17修正案(Amendment 17)订定扩展区A,于U+3400-U+4DFF加入6582汉字。
2001年,依据ISO/IEC 10646-2添加扩充区B,于U+20000-U+2A6FF有42711汉字;但短时间内增加大量汉字,产生许多重复字形。
2005年,依据ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文种平面增加U+9FA6-U+9FBB,共22汉字。
2009年,统一码5.2扩展区C增加U+2A700-U+2B734,基本多文种平面增加U+9FC4-U+9FCB。
2010年,统一码6.0扩展区D增加U+2B740-U+2B81F。
2012年,统一码7.0基本多文种平面增加1汉字:U+9FCC。
2015年,统一码8.0扩展区E增加U+2B820-U+2CEAF,基本多文种平面增加U+9FCD-U+9FD5。
2017年,统一码10.0扩展区F增加U+2CEB0-U+2EBEF,基本多文种平面增加U+9FD6-U+9FEA。
2018年,统一码11.0基本多文种平面末尾增加5汉字:U+9FEB-U+9FEF。
2020年,统一码13.0增加4969汉字,其中4939字位于第三平面的扩展区G,码位为U+30000-U+3134A。同时,亦在基本区增加13字:U+9FF0-U+9FFC,在扩展A区增加10字:U+4DB6-U+4DBF,在扩展B区增加7字:U+2A6D7-U+2A6DD。
2021年,统一码14.0基本多文种平面末尾增加3汉字:U+9FFC-U+9FFF。同时,亦在扩展B区增加2字:U+2A6DE-U+2A6DF,在扩展C区增加4字:U+2B735-U+2B738。
2022年,统一码15.0增加4193汉字,其中4192字位于第三平面的扩展区H,码位为U+31350-U+323AF。同时,亦在扩展C区增加7字:U+2B739。
2023年,统一码15.1增加622汉字,位于第二平面的扩展区I,码位为U+2EBF0 - U+2EE5D。
另外,第三平面的U+38000至U+3AB9F预计放置篆书,相关提案已经提交。按路线图,该平面还会收录金文、简帛文、陶文、鸟虫书等[6]。
版本
ISO 10646版本 | 统一码版本 | 添加 | 置放平面 | 字数 | 累计
字数 |
---|---|---|---|---|---|
1993 | 1.0 | 中日韩统一表意文本(U+4E00-U+9FA5) | 基本多文种平面 | 20902 | 20915 |
1汉字(U+3007,〇),于中日韩符号和标点区 | 基本多文种平面 | 1 | |||
在「中日韩兼容表意文本」中但实则独一的汉字(U+FA0E﨎、U+FA0F﨏、U+FA11﨑、U+FA13﨓、U+FA14﨔、U+FA1F﨟、U+FA21﨡、U+FA23﨣、U+FA24﨤、U+FA27﨧、U+FA28﨨、U+FA29﨩)[注 1] | 基本多文种平面 | 12 | |||
2000 | 3.0 | 中日韩统一表意文本扩展区A(U+3400-U+4DB5) | 基本多文种平面 | 6582 | 27497 |
2001 | 3.1 | 中日韩统一表意文本扩展区B(U+20000-U+2A6D6) | 第二辅助平面 | 42711 | 70208 |
2003第一修订版 | 4.1 | HKSCS-2004未加入ISO 10646的汉字(U+9FA6-U+9FB3,) | 基本多文种平面 | 22 | 70230 |
2003第四修订版 | 5.1 | 7日语汉字[8](U+9FBC-U+9FC2,龼龽龾龿鿀䜤鿂),U+4039拆分为U+4039和U+9FC3鿃[9] | 基本多文种平面 | 8 | 70238 |
2003第五修订版 | 5.2 | 中日韩统一表意文本扩展区C(U+2A700-U+2B734) | 第二辅助平面 | 4149 | 74395 |
2003第六修订版 | 2日语用汉字(ARIB #47、#95,U+9FC4鿄,U+9FC5鿅)、1添加汉字(ARIB #93,U+9FC6鿆)、HKSCS-2004推出后添加的5香港汉字[10](U+9FC7-U+9FCB,鿇鿈鿉鿊鿋) | 基本多文种平面 | 8 | ||
2010 | 6.0 | 中日韩统一表意文本扩展区D(U+2B740-U+2B81D) | 第二辅助平面 | 222 | 74617 |
2012 | 6.1 | 1汉字(U+9FCC鿌) | 基本多文种平面 | 1 | 74618 |
2015 | 8.0 | 中日韩统一表意文本扩展区E(U+2B820-U+2CEA1) | 第二辅助平面 | 5762 | 80389 |
「急用汉字」:《通用规范汉字表》余下未收入的3字(U+9FCD-U+9FCF,鿍鿎鿏),1个从U+4CA4(䲤)分离出来的字U+9FD0(鿐),5个其他图书用字及化学元素用字(U+9FD1-U+9FD5,鿑鿔鿕) | 基本多文种平面 | 9 | |||
2017 | 10.0 | 中日韩统一表意文本扩展区F(U+2CEB0-U+2EBE0) | 第二辅助平面 | 7473 | 87883 |
21汉字(U+9FD6-U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪) | 基本多文种平面 | 21 | |||
2018 | 11.0 | 5汉字(U+9FEB-U+9FEF,鿫鿬鿭鿮鿯),前三字是新命名的化学元素用字,后两字来自日本 | 基本多文种平面 | 5 | 87888 |
2020 | 13.0 | 中日韩统一表意文本扩展区G(U+30000-U+3134A) | 第三辅助平面 | 4939 | 92857 |
急用科学与技术用字[11](U+9FF0-U+9FFC,鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼)、10个需分离的汉字[12][13][14](U+4DB6-U+4DBF,䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿) | 基本多文种平面 | 23 | |||
昆曲工尺谱用字[15](U+2A6D7-U+2A6DD,𪛗𪛘𪛙𪛚𪛛𪛜𪛝) | 第二辅助平面 | 7 | |||
2021 | 14.0 | 3汉字(U+9FFD-U+9FFF,鿽鿾鿿) | 基本多文种平面 | 3 | 92866 |
2汉字(U+2A6DE-U+2A6DF,𪛞𪛟) | 第二辅助平面 | 2 | |||
4汉字(U+2B735-U+2B738,𫜵𫜶𫜷𫜸) | 第二辅助平面 | 4 | |||
2022 | 15.0 | 中日韩统一表意文本扩展区H(U+31350–U323AF) | 第三辅助平面 | 4192 | 97059 |
1汉字(U+2B739,𫜹) | 第二辅助平面 | 1 | |||
2023 | 15.1 | 中日韩统一表意文本扩展区I(U+2EBF0-U+2EE5F) | 第二辅助平面 | 622 | 97681 |
成员机构
收字来源
总计
提交源(类别) | 提交量 |
---|---|
![]() |
65941 |
![]() |
17654 |
![]() |
344 |
![]() |
58597 |
![]() |
16148 |
![]() |
20739 |
![]() |
23795 |
![]() |
13278 |
![]() |
2503 |
大藏经文本数据库委员会 | 3455 |
统一码协会 | 1019 |
总计 | 223653 |
最初期统一汉字
最初期共20902统一汉字,范围为U+4E00-U+9FA5,收字来源包括以下字集[17]:
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中国大陆 国标源(G) |
G0 | GB 2312-80 | 6763 |
G1 | GB 12345-90 | 2352(含58香港字和92吏读字,不包括和GB 2312重复的字) | |
G3 | GB 7589-87繁体版本 | 7237 | |
G5 | GB 7590-87繁体版本 | 7039 | |
G7 | 现代汉语通用字表 | 42(G0、1、3、5、8未包括的字) | |
G8 | GB 8565.2-89 | 290(G0、1、3、5未包括的字) | |
台湾源(T) | T1 | CNS 11643-1986第一字面 | 5401+9计量用汉字 |
T2 | CNS 11643-1986第二字面 | 7650 | |
TE | CNS 11643-1986第十四字面 | 6319+239中文信息交换码特字+10全录字符集(Xerox Character Code Standard,XCCS)特字 | |
日本源(J) | J0 | JIS X 0208-90 | 6335+非汉字1个(仝)[18] |
J1 | JIS X 0212-90 | 5801 | |
韩国源(K) | K0 | KS C 5601-87 | 4888(含268重见字[19]) |
K1 | KS C 5657-91 | 2856 | |
委员会源(U) | KS C 5601-1987(当中重复的汉字) | ||
美国国会图书馆之东亚字符编码(East Asia Character Code,简称EACC;标准号ANSI Z39.64-1989)[20] | |||
大五码 | |||
中文信息交换码第一字面 | |||
GB 12052-89(汉字部分) | |||
(富士通标准) | |||
中国大陆电报码 | |||
台湾电报码(CCDC) | |||
全录中文编码 | |||
人名用汉字准用字体表(人名用汉字许容字体表;日本) | |||
IBM选取的日本和韩国表意文本 |
其中,统一码技术委员会源(U源)指,并非由表意文本小组所递交的参考字集,而是委员会额外递交作参考的字集标准。并且此来源的字集不适用原字集分离原则(见稍后)。
扩展A区
扩展A区包含有6592汉字,位置在U+3400-U+4DBF。这6千多汉字分别从以下字典或字集取得:
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中国大陆 国标源(G) |
G_KX | 《康熙字典》 | 5357(独有1892字) |
G_HZ | 《汉语大字典》 | 5888(独有339字) | |
G3 | GB 7589-87繁体版本 | 2391 | |
G5 | GB 7590-87繁体版本 | 1226 | |
G7 | 现代汉语通用字表 | 120 | |
GS | 新加坡汉字 | 226 | |
台湾源(T) | T3 | CNS 11643-1992第三字面(原为CNS 11643-1986第十四字面)新加入字符 | 2178 |
T4 | CNS 11643-1992第四字面 | 2917 | |
T5 | CNS 11643-1992第五字面 | 395 | |
T6 | CNS 11643-1992第六字面 | 197 | |
T7 | CNS 11643-1992第七字面 | 133 | |
TF | CNS 11643-1992第十五字面 | 86 | |
日本源(J) | JA | 日本信息技术零售商统一当代表意文本(1993) | 574 |
韩国源(K) | K2 | PKS C 5700-1:1994 | |
K3 | PKS C 5700-2:1994 | 1834 | |
越南源(V) | V0 | TCVN 5773:1993 | 138 |
V1 | TCVN 6056:1995 |
扩展B区
扩展B区有42717汉字,位置在U+20000-U+2A6DD。根据IRG N777号文档(页面存档备份,存于),这四万多汉字分别从以下字典或字集中取得:
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中国大陆 国标源(G) |
G_KX | 《康熙字典》 | 18486(包括在补遗篇出现的一字) |
G_HZ | 《汉语大字典》 | 28914 | |
G_CY | 《辞源》 | 66 | |
G_CH | 《辞海》 | 247 | |
G_HC | 《汉语大词典》 | 553 | |
G_BK | 《中国大百科全书》 | 86 | |
G_FZ | 北大方正排版系统 | 65 | |
G_4K | 《四库全书》 | 522 | |
香港源(H) | H | 香港增补字符集(HKSCS) | 1081 |
台湾源(T) | T4 | CNS 11643-1992第四字面 | 3408 |
T5 | CNS 11643-1992第五字面 | 8111 | |
T6 | CNS 11643-1992第六字面 | 5934 | |
T7 | CNS 11643-1992第七字面 | 6299 | |
TF | CNS 11643-1992第十五字面 | 6401 | |
日本源(J) | J3 | JIS X 0213:2000,level 3 | 25 |
J3A | JIS X 0213:2004,level 3 | 1 | |
J4 | JIS X 0213:2000,level 4 | 277 | |
韩国源(K) | K4 | PKS 5700-3:1998 | 166 |
朝鲜源(KP) | KP0 | KPS 9566-97 | |
KP1 | KPS 10721-2000 | 5766 | |
越南源(V) | V2 | VHN 01:1998 | 2290 |
V3 | VHN 02:1998 | 425 |
这些汉字有不少重复,经整理后实际只有42711汉字。另外,U+2F800-U+2FA1D放了来自台湾的542兼容汉字。
统一码4.1汉字
为使统一码向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,4.1版引进了香港增补字符集的14用字和GB 18030的8用字。该22字编于U+9FA6-U+9FBB。
另外,U+FA70-U+FAD9放了来自北韩的106兼容汉字。
统一码5.1汉字
2008年4月推出的统一码5.1版收录7个由日本Adobe公司递交的日语汉字(U+9FBC-U+9FC2)[21],和鿃(大字加两个入字,就如陕西省的字换上目字旁)(U+9FC3)。本来统一码3.0收录了目字旁加(大字加两个人字)字的「」(U+4039),目字旁加㚒字的字,与「」无论意义和发音均不同,故魏安(Andrew West)和井作恒(John H. Jenkins)申请追加此字[22]。
扩展C区
于2009年10月发布的统一码5.2涵盖了扩展C区,共收录4149汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未编码的汉字,在U+2A700-U+2B734。这四千多汉字分别从以下字典或字集取得:
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中国大陆 国标源(G) |
G_BK | 《中国大百科全书》 | 74 |
G_FZ | 北京大学方正排版系统 | 1 | |
G_HZ | 《汉语大字典》 | 1 | |
G_HC | 《汉语大词典》 | 14 | |
G_GH | 《古代汉语词典》 | 50 | |
G_GJZ | 商务印书馆用字 | 61 | |
G_XC | 《现代汉语词典》 | 25 | |
G_CH | 《辞海》 | 264 | |
G_KX | 《康熙字典》及补遗 | 6 | |
G_CYY | 中国测绘科学研究院用字 | 55 | |
G_ZFY | 《汉语方言大辞典》 | 202 | |
G_ZJW | 366 | ||
台湾源(T) | TC | CNS 11643-1992第12字面 | 634 |
TD | CNS 11643-1992第13字面 | 767 | |
TE | CNS 11643-1992第14字面 | 350 | |
澳门源 | MAC | 澳门信息系统字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) | 16 |
日本源(J) | JK | 日本国字集(Japanese KOKUJI Collection) | 367 |
韩国源(K) | K5 | 韩国表意文本小组汉字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001) | 404(当中主要包含古代字例) |
朝鲜源(KP) | KP1 | KPS 10721:2003 | 5357(独有1892字) |
越南源(V) | V4 | 《喃字词典》()[阮光红(),2006] | |
《岱喃字字典》(,,2006) | |||
《沔南喃字榜查》(,,1994) | |||
委员会源(U) | ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴鲁鲁:夏威夷大学出版社) | ||
耶稣基督后期圣徒教会香港分会用字 | |||
Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),剑桥:哈佛大学出版社) | |||
宋本《广韵》 | |||
《中国鸟类系统检索》(郑作新等,北京:科学出版社,2000) | |||
段玉裁《说文解字注》 |
扩展D区
扩展D区包含的都是所谓的「急用汉字」,合共222新汉字,于2010下半年发布的统一码6.0中,编码范围为U+2B740-U+2B81F(实际有字符为U+2B740-U+2B81D)。
扩展D区原本计划放置扩展C区未收录的16000多汉字,但在2007年5月,台湾了6545个第二部分字集内私用汉字,不再使用字,原因是那些人名用字的拥有人已去世或移居外地[23],此后扩展D区缩减到大约10000字左右[24]。由于各种阻碍,协议先把数量较少,又急切要收录的汉字提交出来,就是「急用汉字」,以便和统一码6.0.0版一起发表。提出的急用汉字只有二百二十二字(本来有二百二十三字,但日本撤回其中一字)。现在文本小组把第二部分字集延后到扩充E区。
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中国大陆 国标源(G) |
G_CH | 《辞海》 | 1 |
G_IDC | 公安部身份证系统人名和地名用字 | 31 | |
G_XC | 《现代汉语词典》 | 4 | |
G_ZH | 《中华字海》 | 39 | |
台湾源(T) | TB | CNS 11643-2007第11平面24字(教育部闽客方言用字) | 24 |
日本源(J) | JH | 通用电子情报交换环境整备计划(,日本经济产业省提出的人名和地名用字) | 108 |
委员会源(U) | Adobe-Japan1-5和Adobe-CNS1-5字体里的异体字 | 15 |
扩展E区
扩展E区亦在2015年6月17日的统一码8.0中发布,放置于编码范围U+2B820-U+2CEAF。
扩展E区本应包含扩展D区未收录的10000多个汉字,但在2008年11月,中国大陆以“难以逐个找证据”为理由,了3215汉字[25],这些汉字主要用于地名、人名、姓氏,亦有数百个《中国大百科全书》中的文本。这是继台湾6545字之后的又一次大规模。之后又经过长时间的检查处理,E区最终定稿,共5762字[26]。
这些汉字来源如下:
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中国大陆 国标源(G) |
G_BK | 《中国大百科全书》 | 15 |
G_CH | 《辞海》 | 112 | |
G_CY | 《辞源》 | 3 | |
G_CYY | 中国测绘科学院用字(地名用字) | 98 | |
G_DZ | 地质出版社用字 | 1 | |
G_GH | 《古代汉语词典》 | 176 | |
G_HC | 《汉语大词典》 | 7 | |
G_IDC | 公安部身份证系统人名和地名用字 | 36 | |
G_JZ | 商务印书馆用字 | 147 | |
G_KX | 《康熙字典》 | 22 | |
G_RM | 人民日报用字 | 3 | |
G_WZ | 汉语大词典出版社用字 | 12 | |
G_XC | 《现代汉语词典》 | 57 | |
G_XH | 《新华字典》 | 4 | |
G_ZFY | 《汉语方言大辞典》 | 712 | |
G_ZJW | 1410 | ||
台湾源(T) | TC | CNS 11643-1992第12平面323字(台湾人名用字) | 323 |
TD | CNS 11643-1992第13平面595字(台湾人名用字) | 595 | |
TE | CNS 11643-1992第14平面339字(台湾人名用字) | 339 | |
日本源(J) | JK | 日本国字集 | 415 |
澳门源(M) | MAC | 澳门信息系统字集 | 48 |
委员会源(U) | UTC | 从各处收集到的未收录汉字 | 227 |
越南源(V) | V4 | 《喃字词典》()[阮光红(),2006] | 1028 |
《岱喃字字典》(,,2006) | |||
《沔南喃字榜查》(,,1994) |
急用汉字
「急用汉字」是扩展E区整理后期,各地新发现并急于使用,又等不及放入扩展F区的字;和扩展E区一起收入统一码8.0,位置在U+9FCD-U+9FD5;当中中国大陆在此处申请收入三字,连同扩展E区的字,通用规范汉字表的8105字至此全部收入。
扩展F区
扩展F区在2017年6月20日的统一码10.0发布,编码范围为U+2CEB0-U+2EBEF。
扩展F区来源于新提交的一批汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字,共有7473字。
这些汉字的来源如下:
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中国大陆 国标源(G) |
G_CY | 《辞源》 | 122 |
G_FC | 《现代汉语规范词典》 | 27 | |
G_IDC | 公安部身份证用字 | 1 | |
G_LGYJ | 《壮族嘹歌研究》 | 1 | |
G_OCD | 《牛津英汉汉英词典》 | 2 | |
G_PGLG | 《壮族民歌文化丛书·平果嘹歌》 | 70 | |
G_XHZ | 《新华大字典》 | 51 | |
G_Z | 《古壮字字典》 | 995 | |
G_ZJW | 《殷周金文集成引得》 | 33 | |
G_ZYS | 《壮族人民的文化遗产——方块壮字》《中国民族古文本研究》 | 2 | |
日本源(J) | JMJ | 日本文本信息基础工程 | 1645 |
韩国源(K) | KC | 韩国历史情报统合系统 | 1793 |
澳门源(M) | MAC | 澳门信息系统字集 | 22 |
大藏经研究组(SAT) | USAT | 《大正新修大藏经》(SAT版) | 2884 |
委员会源(U) | UTC | 从各处收集到的未收录汉字 | 1 |
扩展G区
于2020年3月10日公布的统一码13.0中在第三辅助平面收录扩展区G的4939汉字,码位为U+30000-U+3134A[27][28]。
这些汉字的来源如下(部分字符来自多于一处来源,所以下表总数多于收录总数4939字):
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中国大陆 国标源(G) |
G_HZR | 《汉语大字典》(第二版) | 878 |
G_PGLG | 《壮族民歌文化丛书·平果嘹歌》 | 13 | |
G_Z | 《古壮字字典》 | 1191 | |
韩国源(K) | KC | 韩国历史情报统合系统(한국 역사 정보 통합 시스템) | 428 |
台湾源(T) | T13 | CNS 11643第19字面(将设立的新平面) | 347 |
TB | CNS 11643第11字面 | 3 | |
TC | CNS 11643第12字面 | 2 | |
TD | CNS 11643第13字面 | 1 | |
英国源(UK) | UK | IRG N2107R2 | 1566 |
大藏经研究组(SAT) | USAT | 《大正新修大藏经》(SAT版) | 329 |
委员会源(U) | UTC | 从各处收集到的未收录汉字 | 239 |
扩展H区
2022年9月13日公布的统一码15.0在第三辅助平面收录扩展区H的4192汉字,码位为U+31350-U+323AF。
这些汉字的来源如下(部分字符来自多于一处来源,下表总数多于收录总数4192字):
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中国大陆 国标源(G) |
GDM | 中华人民共和国公安部治安管理局地名汉字 | 128 |
GHC | 汉语大词典 | 27 | |
GKJ | 全国科学技术名词审定委员会术语定名用字 | 30 | |
GLGYJ | 壮族嘹歌研究 | 11 | |
GPGLG | 壮族民歌文化丛书•平果嘹歌 | 14 | |
GXM | 217 | ||
GZ | 古壮字字典 | 285 | |
GZA-1 | 生生不息的传承•孝与壮族行孝歌之研究 | 6 | |
GZA-2 | 壮族伦理道德长诗传扬歌译注 | 38 | |
GZA-3 | 壮族民歌古籍集成•情歌(一)嘹歌 | 2 | |
GZA-4 | 壮族民歌古籍集成•情歌(二)欢𭪤 | 11 | |
GZA-6 | 中国壮族谚语 | 59 | |
GZA-7 | 远古的追忆•壮族创世神话古歌研究 | 1 | |
韩国源(K) | KC | 韩国历史情报统合系统 | 512 |
朝鲜源(KP) | KP1 | KPS 10721-2000 | 1 |
台湾源(T) | T12 | TCA-CNS 11643第十八平面 | 7 |
T13 | TCA-CNS 11643第十九平面 | 696 | |
T4 | CNS 11643-1992第四平面 | 1 | |
T6 | CNS 11643-1992第六平面 | 1 | |
TB | CNS 11643-2007第十一平面 | 4 | |
TC | CNS 11643-2007第十二平面 | 3 | |
TE | CNS 11643-2007第十四平面 | 2 | |
英国源(UK) | UK | IRG N2232R | 917 |
越南源(V) | V0 | TCVN 5773:1193 | 6 |
V4 | 汉喃编码字汇 | 74 | |
VN | 越南横向扩展用字 | 851 | |
大藏经研究组(SAT) | 大藏经文本数据库 | 241 | |
委员会源(U) | UTC | 161 |
扩展I区
2023年9月12日公布的统一码15.1在第二辅助平面收录扩展区I的622个汉字,码位为U+2EBF0-U+2EE5F。
这些汉字的来源如下:
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中国大陆 国标源(G) |
GIDC23 | 公安部身份证系统人名和地名用字2023版 | 622 |
认同原则与原字集分离原则
表意文本认同原则(Han Unification Rule,又称表意文本统合原则)与原字集分离原则(Source Separation Rule,又称来源字集分离原则、原规格分离原则),是两项对立原则,它们是统一码整理中日韩统一表意文本的基础。
东亚各国字形多有微妙的差异。如「房」字的第一笔,韩国传统汉字字形、台湾教育部标准字体作撇「」;香港教育参考字形、中国大陆规范作点「」;日本标准作横「」。又如「次」字的左旁,韩国采用传统字形,首笔为横,次笔为挑;台湾教育部作两横;大陆、日本、香港等则作「冫」(俗称两点水)。这种程度的差异,理想是整并为一字为佳。否则,要是凡异体字都收进不同码位里,统一码收录的汉字就会过于臃肿,用户搜索时也会因异体问题而找不到想要的结果。
然而,从之前各种受挫之文本整并计划的经验得知,集成字集与现行通用字集(Big5或国标码)等无法一一对应,是推行集成字集的最大阻碍。例如,日本的JIS编码同时收录了「」与「」字,原本JIS文档里这两字可以并存。如果采用集成字集后,它们会变成同一字,使用的时就会造成困扰。而且,如果将多个不同地区字形合并,会影响阅读者,令用户不习惯并非以往所见字形;更有可能引致阅读者因习惯而书写不属于自己地区的字形(或地区性的异体字)。
于是,表意文本认同原则与原字集分离原则就应运而生。
按表意文本认同原则,统一码「只对字(Character)而不对字形(Glyph)」编码,会把同一字的不同字形(即异体字)合并。好像上述「次」字,统一码会整并成一码。又例如不同地区而有不同写法的部首,如「(中国大陆规范、日本新字体)、(港台旧字形、韩国、日本旧字体)、(台湾教育部)」、「(中国大陆规范、台湾教育部)、(日本新字体)、(日本旧字体、韩国、港台旧字形)」、「(中国大陆、港台新字形)、(旧字形)」等,会合并编码。这些部首的写法差异就会交由字体处理。比如说,使用依中国大陆汉字标准《印刷通用汉字字形表》的字体(如中易宋体、微软雅黑体)便会出现「、」;使用台湾教育部标准字体(如微软正黑体或新版细明体,但非旧版细明体[注 3])就会出现「、」等字形,大大解决了因地区而异之部首写法。
至于原字集分离原则是指,上述所列出之各种收字来源,若有任何字集同时收了两种以上文本字形,中日韩统一表意文本也会同时收录这些字。这样一来,现行各种原有字集与统一码汉字可一一对应。比如「房」字,各地字集都没有分别编码,就只编进一码位,部首第一笔的写法交由字体处理。然而,「」、「」、「」这三字,在一些地区标准里是分别编码的,统一码则以三码位分别收录它们。上述的「」与「」也一样安放到不同码位。
基于上述运作,统一码能大幅减少收录汉字字数,同时让地区编码过渡至统一码时,字集里的字符不会流失,但原字集分离原则破坏了统一码「只对字而不对字形」编码之原则,某些汉字获得两位或以上编码,亦遭受不少批评。
后来的一些重复汉字会使用“兼容区”提供暂存编码,可用归一化()步骤移除。一般的汉字输入法,以及多数汉字字体,也不支持兼容区字符。
另外,原字集分离原则只适用于最初Unified Repertoire and Ordering(URO)的20902字,换言之,由「扩展区A」开始就不再适用。原因是个别地区提交了不少仅有十分轻微差异的字样,比如台湾《异体字字典》里的各种异体,要求统一码分别编码。然而,那些字样所建基的地区编码,并非该地区的通用编码,例如是中文标准交换码(台湾实际通行的编码是Big5码)。若统一码全面采纳,将会令统一码对异体字的处理更混乱。
今天,变体串行(Variation Sequence)以及Adobe常用的CID字体等技术已容许在一粒统一码编码收录和调用多于一款汉字字样,原字集分离原则在今天已成为过时技术的副产品。
起源不同原则
留意的是,可以整并的字只限异体字。如果有些汉字的音、义根本不一样,是两个不同的字,即使它们外形相近,写法差异比另一些整并的字少,但仍不能合并。这规则称为起源不同原则(Noncognate Rule)。
擧例说:「土」和「士」虽然形似,却是两个不同的字,不可整并。然而,日本、韩国、大陆、香港等地的「」字,与台湾教育部的「」字,两者顶部分别是「土」和「士」,但它们音义全同,是同一字的异体,就可以整并。
其他起源不同的例子还有「」与「」(「月偏旁」与「肉偏旁」对立)、「」与「」(「肉底」与「冃底」对立),「柿」和「杮」(右方「市部件」与「巿部件」对立),「汨」和「汩」(右方「日部件」与「曰部件」对立),「」与「」(右旁「部件」与「部件」对立)等。
然而,汉字中有「同形字」的现象,有两个或以上读音与字义,虽然字源不同,却由同一字形表达出来。比如汉字「芸芸众生」的「芸」,与日本汉字「艺」字的新字体「芸」,是同形字。要是这些同形字之字形确实相同而非相似(「芸」字的草头虽然有三笔的「」、四笔的「」等不同写法,但它们都指同一部件,没有对立),就不会应用起源不同原则。
学界批评
中文文本学学界对统一码的原字集分离原则有不少批评,尤其是它令同一异体部件时而分离,时而合并,引伸许多日常使用的问题。擧例说,「」和「」、「」和「」都在正常区域中作分离编码,获得两码位;「晴」、「靖」、「精」虽也获两码位,但其中一位在兼容区,日常难以应用;「请」、「情」、「蜻」、「静」更只有一码位。或例如合并「」和「」、「」和「」而分离「」和「」作两码位。统一码的做法没有把有相同异体部件的字全都合并,也没有把它们全都分离,结果字形经常不一致,或者用户无法选择他希望使用的字形[29]。
其他汉字使用地区也有类似声音。如「」和「」两个偏旁,前者为「」的大陆简化字,后者为「」的日本新字体,在「」和「」、「」和「」、「」和「」等组合里,就整并起来。可是碰到「」和「」,却不统合,分列U+685F与U+6808两码位。日本学者指这种情况为统一码的矛盾[30]。
事实上,统一码本身在「中日韩统一表意文本」不同区域里也用了不一致的并分尺度,因此早期异体字时常获配正常码位,后来常常只有兼容区的暂存编码,再后来则不时直接整并并交由变体选择符处理。若不修正或更改早期编码,类似问题将会持续存在。
批评
收字过少
合并异体字虽有助减少收录字数,但研究学术时,如古籍、历史及文本等,部份文献却要将字形不同之字同时并列。已合并的各字在这些文献里变得各有各意思。学者若使用统一码,遇到这种情况,就要用不同电脑字体去显示同一字码,甚至要自行造字,或舍统一码而用其他编码。一来寻找、转换电脑字体构成不便,二来有损统一码记录每一字之用意,三来不能以纯文本交换,四来电脑字体或因授权条款之限,难以交换流传。另外,这亦等于不能以统一码准确记录文献,不利数码文本。
不同字形之字合并后,若以字形为本检索,会产生混乱,难以检索,如笔画检字,艸部之「头」,中国、日本算作三画,而传统中文为四画,留有「」形者则为六画。统一码同一字码源于字形不同就有几种笔画,检索混乱。即使检出字,笔画与显示出来的字形也不相符。因此,批评者认为,统一码合并异体字并不可取。
收字过多
但是另一方面,统一码收录不少幽灵汉字,其出处难以找到,它们在实际生活也极少机会使用,有些甚至是错讹字,或者仅是某一人的名字用字,那人不见得是名人,甚至可能已去世,却永久成为标准里的字符,占用了一码位。比如台湾律师吕秋𧽚的「𧽚」字本应作「」,可是户政人员误听他外公说的台语,把「辵字边」听成「走马边」,外公又不敢更正。当事人长大后,才确认这是错字[33],但这字已永久收进统一码。又如香港增补字符集有许多人名用字,学者都指出乃属讹写,或是来历不明的自创新字[34]。中文信息界李祥在其专栏批评当局「解决不了增补字集中上千错字、白字、生造字的读音问题」,呼吁「不要把香港增补字符集与申请ISO强迫联系在一起」[35]。然而,这些人名讹字亦已经收进统一码,构成了收字过多的争议。
也有批评认为统一码收入大量错讹字及写法高度相似的同一字的不同字形本身就不应该。电脑文本本身永远不可能完全无损地记录文献,且文献本身也会因传抄制版等原因略有不同,如果把每字的各种写法全部编码,会浪费空间。完全无损地研究、记录文献只能通过查看原本或照相复印版来完成,把无损保存转嫁给编码是错误的。
现时统一码把一些异体字分别编码,带来了检索困难。只要写法稍有不同,就无法检出,令使用户检索字词时,必须反复检索其不同写法,造成重复劳动,对研究文献反而是种妨碍。例如统一码将「」和「𠒇」字安放在不同的码位里。在检索文献时,检索「」字时就找不到「雷庄𠒇」,检索「𠒇」字时就找不到「雷庄」,反而造成困扰[36]。
准则矛盾
统一码对同一部件有分有合,原则不一,如「」和「」、「」和「」都分离编码,但「」和「」就整并了;「」和「」、「」和「」皆整并作一码,而「」和「」又分开,既令人混淆,亦令人无所适从。统一码按原字集分离原则收字,只看各地区的既有编码,不理会同一部件的文本学问题。可是用户现实在电脑输入文本时看到的是具体字形而不是编码码位,会让人感到矛盾和困惑。
而且在统一码「中日韩统一表意文本」的不同区域里,官方也用了不一致的并分尺度。早期的异体字时常获分配正常码位;后来常常只有兼容区的暂存编码,使兼容区的字符在输入和显示时经常碰到问题;再后来则不时直接整并并交由变体选择符处理。于是统一码的编码矛盾就更突显。
已统一汉字
ISO 10646原则只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。以下使用HTML标示同一编码的字在不同地区的写法(但只是读者的浏览器所渲染的字体,与浏览器的设置与设备安装的字体有关,未必代表该地区的标准写法)。
- 例子
统一码 | 中文 | 日文 | 韩文 | 越文 | ||
---|---|---|---|---|---|---|
中国大陆 | 台湾 | 香港 | ||||
U+623F | ||||||
U+6C49 | [注 4] | |||||
U+6E2F | ||||||
U+6F22 | ||||||
U+6FB3 | ||||||
U+76F4 | ||||||
U+7A97 | ||||||
U+89D2 | ||||||
U+8AA4 | ||||||
U+8BEF | [注 4] | |||||
U+8D77 | ||||||
U+9AA8 |
注:不是所有网页浏览器均可分辨全部HTML的语言代码(Language Code)并使用不同字形。如非某一地区的用户看到的字形和当地通用的字形一样,表示该用户的浏览器不能分辨此标签,或设置两者以同一种字形显示。
未统一汉字
有些字只是同一字在不同地区的写法,理应统一,但因为原字集分离原则而只好分开编码。由于KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643有太多字形非常接近,按统一码标准应该统一,但分开编码的字。这些字只有正统的会编入正式字集(包括扩展区),不正统的编入「兼容表意文本区」(Compatibility Ideographs)和位于「第二辅助平面」的「兼容表意文本补充区」(Compatibility Ideographs Supplement)中。
范例:-{
统一码 | 字 | 统一码 | 字 | 统一码 | 字 |
---|---|---|---|---|---|
U+4E1F | 丢 | U+4E22 | 丢 | ||
U+514C | 兑 | U+5151 | 兑 | ||
U+518A | 册 | U+518C | 册 | ||
U+5433 | 吴 | U+5434 | 吴 | U+5449 | 呉 |
U+543F | 吿 | U+544A | 告 | ||
U+5965 | 奥 | U+5967 | 奥 | ||
U+5968 | 奨 | U+596C | 奖 | U+734E | 奖 |
U+5986 | 妆 | U+599D | 妆 | ||
U+59CD | 姗 | U+59D7 | 姗 | ||
U+5C13 | 尓 | U+5C14 | 尔 | ||
U+5F54 | 录 | U+5F55 | 录 | ||
U+6236 | 户 | U+6237 | 户 | U+6238 | 戸 |
U+63FA | 揺 | U+6416 | 摇 | U+6447 | 摇 |
U+66A8 | 暨 | U+66C1 | 曁 | ||
U+69D8 | 様 | U+6A23 | 样 | ||
U+6A2A | 横 | U+6A6B | 横 | ||
U+6B65 | 步 | U+6B69 | 歩 | ||
U+7155 | 煕 | U+7199 | 熙 | ||
U+7D55 | 绝 | U+7D76 | 绝 | ||
U+7DA0 | 绿 | U+7DD1 | 绿 | ||
U+9AEA | 髪 | U+9AEE | 发 | ||
U+9EAA | 面 | U+9EAB | 面 | ||
U+9EBC | 么 | U+9EBD | 么 | ||
U+9EC3 | 黄 | U+9EC4 | 黄 | ||
U+9ED1 | 黑 | U+9ED2 | 黒 |
}- 自上表发表后,WG2亦调查过其他汉字[37],认为另一批属于基本多文种平面的汉字,亦可考虑收编到ISO 10646 Annex S3。
技术问题
注释
- 这12字放到兼容区不是因为和其他字同形或为异体,而是因为它们只收录在厂商用字,但未有收录在官方标准(C-、T-、J-、K-Source)。他们有独立的形、音、义,即「独一」(unique)[7]。
- 部分字符来自多于一个来源,所以下表提交量总数多于收录总数97058字
- 旧版“细明体”指Windows XP或以前版本之新细明体及细明体,汉字写法大体遵从传承字形。
- 某些码位原来只有个别地区的字,但其他地区为兼容国际标准,逐渐将所有码位的字亦纳入其国家标准。
参考文献
- (PDF). [2022-12-19]. (原始内容存档 (PDF)于2020-02-02).
- . [2022-12-19]. (原始内容存档于2022-12-19).
- . [2022-12-19]. (原始内容存档于2022-12-22).
- . [2022-12-20]. (原始内容存档于2022-12-20).
- . [2022-12-19]. 原始内容存档于2021-08-26.
- . 统一码联盟. [2018-06-03]. (原始内容存档于2018-06-11).
- Unicode 6.1,第410-411页 (页面存档备份,存于)
- (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-08-19).
- (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15).
- (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15).
- (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15).
- (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15).
- https://github.com/unicode-org/uk-source-ideographs/ (页面存档备份,存于)
- . [2023-01-04]. (原始内容存档于2023-01-08).
- 日本的「仝」本来视为同上符号,编排于中日韩符号和标点区的 U+3004 . fonts.jp. [2010-04-19]. (原始内容存档于2010-04-12).;但后来与正字区 U+4EDD 的字认同(统一)了,U+3004 改为日本标准符号
- 收入中日韩兼容表意文本
- . www.ibiblio.org. [2010-04-18]. (原始内容存档于2008-05-16).
- (PDF). [2011-09-09]. (原始内容存档 (PDF)于2012-05-09).
- (PDF). [2011-09-09]. (原始内容存档 (PDF)于2011-09-16).
- (PDF). [2010-06-06]. (原始内容存档 (PDF)于2011-07-21).
- . (原始内容 (PDF)存档于2018-01-15).
- (PDF). [2015年12月12日]. (原始内容 (PDF)存档于2015年1月4日).
- (PDF). [2015-06-19]. (原始内容存档 (PDF)于2015-06-25).
- (PDF). [2020-03-11]. (原始内容存档 (PDF)于2020-03-24).
- . [2020-03-11]. (原始内容存档于2020-03-11).
- 刻石录:《Unicode摧残正体字》 (页面存档备份,存于)、刻石录:《不知丹青,枉谈汉字》 (页面存档备份,存于)
- . [2019-02-08]. (原始内容存档于2018-08-02).
- . 统一码联盟. [2009-05-04]. (原始内容存档于2009-05-04).
- . libUnihan. [2009-05-04]. (原始内容存档于2012-03-21).
- 吕秋远:《吕秋「走袁」》 (页面存档备份,存于),刊《立场新闻》。
- 《政府通用字库错漏百出 收录市民自创新字影响中文水平》,《太阳报》A6版,1999年10月13日
- . [2019-02-22]. (原始内容存档于2019-05-26).
- 散弹一号:《「𠒇」字系咩嚟?——港姐冠军带出嘅哲学问题》 (页面存档备份,存于),刊《辅仁媒体》。
- (.zip). [2019-06-22].
- (PDF). [2008-02-17]. (原始内容存档 (PDF)于2007-06-12).
外部链接
- 统一码里中日韩表意文本和相关字符浅说(页面存档备份,存于)
- CJK-CODE(页面存档备份,存于)
- UTF-8 and Unicode FAQ for Unix/Linux(页面存档备份,存于)
- 中华民国教育部异体字字典附录-中日韩共用汉字表(页面存档备份,存于)
- 查「Unicode 编码」或「教育部异体字字典字号」(页面存档备份,存于)(CBETA中华电子佛典协会)
- 汉字统合历史(页面存档备份,存于)
- 统汉字搜索工具(页面存档备份,存于)
- 表意文本变体数据库(页面存档备份,存于)
- Unicode Roadmap to the TIP(页面存档备份,存于)
- 中日韩统一表意文本(页面存档备份,存于)(PDF,34.0MB)
- 中日韩兼容汉字(页面存档备份,存于)(PDF,762kB)
- 中日韩兼容汉字补充(页面存档备份,存于)(PDF,601kB)
- 扩展A区汉字(页面存档备份,存于)(PDF,6.58MB)
- 扩展B区汉字(页面存档备份,存于)(PDF,38.7MB)
- 扩展C区汉字(页面存档备份,存于)(PDF,3.16MB)
- 扩展D区汉字(页面存档备份,存于)(PDF,215kB)
- 扩展E区汉字(页面存档备份,存于)(PDF,3.44MB)
- 扩展F区汉字(页面存档备份,存于)(PDF,4.33MB)
- 扩展G区汉字(页面存档备份,存于)(PDF,2.13MB)