动态组字
拼音文本如英文本母,一套字体只要制作26个字母和一些标点符号就足够使用。但汉字是一种意音文本,若无数千到数万个字符数量,便不足以应付基本的消息交换。即便已有数万个字符,往往在面对古籍时还有缺字的问题。这造成汉字无论是制作、保存、使用、或交流,成本都远高于表音文本,这对汉字的文化发展非常不利。
鉴于此,中国大陆和台湾都有人在研究「动态组字」技术,这个技术的目的是解除电脑系统对汉字的束缚。作法是,只在内存中保存少量(约数百至一千多)的字根部件,并用程序控制,以递归的方式根据部件做即时的「二维组字」,显示到屏幕上。「字根」在此就相当于拼音文本的字母,差别只在于字母表音而字根表意。
有了动态组字,用户便可因应各式需求自行造字,再无缺字之虞。此外,组字的过程反向操作(也就是拆字),就可以作汉字理解,也有助于人工智能、手写辨识及中文PDA、手机等手持式设备开发。亦可延长保存设备寿命。
Unicode
Unicode标准从3.0开始,开始有表意文本串行(Ideographic Description Sequence,IDS),为采用表意文本描述字符(Ideographic Description Character,IDC)与文本部件的组合,为缺字描述定下一个标准基础,只要加上解译描绘的机制,也是一种动态组字的实现。
参考
- Unicode 9.0的IDC (页面存档备份,存于)码位一览
- http://unicode.org/iuc/iuc18/papers/b16.ppt (页面存档备份,存于)
- Unicode 9.0 IDC/IDS技术规格文档 (页面存档备份,存于)
仓颉系统
这是最早产品化的系统,由早年电脑中文化的开拓者朱邦复所提出。编码上采文传码,是一种定长度编码,也就是说可造字有限。
文传码分为两版:
- 2 byte版的文传码,上限是15 bits(三万二千字),第一个bit为避开ASCII。
- 4 byte版的文传码,每个输入码占6 bits共5组,每个6 bits为仓颉输入码(26个)+ 5个重复字(1号重复,2号重复)所以理论上有超过一千万个码位。
该系统精巧快速,但因以8086汇编语言写成,故需要重新解译才能跨平台使用。组字方式纯粹取决于字形外貌,配合仓颉输入法字根作部件基础,未必符合文本学原理,如「」取码为「日弓」,乃取其首尾字根形状(「日」和「亅」)。优点:如果拼音文本,可组出符合中文构字原理的任何字,理论上可达一千万个字。目前只有在香港文化传信授权制造的特定的嵌入式硬件才有实作此技术。
参考
- 朱邦复工作室设计的字体产生器 (页面存档备份,存于)(繁体中文)
中央研究院汉字部件检字系统
中央研究院汉字部件检字系统的研发最早可追溯于1972年国立交通大学关于「交大字根系统」的一系列论文和报告。1993年,中央研究院信息科学研究所中由谢清俊院士及庄德明助技师所带领的文献处理实验室 (页面存档备份,存于)沿用「交大字根系统」的方法,经年整理各代古文,提出构字式(基于Big5)的作法,整理出各代文本的部件数据库,分析所有汉字在文本学上的合理组成,进行重作改造,进而创建汉字构形数据库。2008年更名为中央研究院汉字部件检字系统,程序部份改以GPL 3.0发布,数据部份则改以GFDL 1.2及CC-BY-SA 2.5 TW发布,作为整体软件项目时则以GPL 3.0发布。最新版本为2.7。目前中研院正开发3.0版,新版的中文本码将改用Unicode,亦支持简体中文Windows系统。
汉字构形数据库于2013年4月26日不再更新,代之以小学堂文本学数据库。该网站查找接口所采用之字形图片及字形属性信息皆以CC0 1.0通用共享。
参考
- 汉字构形数据库 (页面存档备份,存于),中华民国中央研究院。(繁体中文)
- 古籍解决缺字问题的方法 (页面存档备份,存于),中华民国中央研究院。(繁体中文)
- 〈=en&task=view OSSF::自由软件铸造场(Open Source Software Foundry)-「中央研究院汉字部件检字系统」发布程序原代码)(繁体中文)
- 小学堂文本学数据库 (页面存档备份,存于)(繁体中文)
矢量组字编辑器
台湾刹那搜索工坊(前易符科技)以构字式研究成果:汉字构形数据库为基础,改以Unicode IDS(Ideographic Description Sequence,且是不定长度编码)实作,成为构形码,可高效率以递归方式合成汉字,英语字母也可组到汉字中,但仍有合成汉字不美观的问题。2007年single.fnt作者本因汉字构形数据库著作权问题无法将刹那工坊维护的字形数据库兼字形档single.fnt转为开放文档,后因汉字构型数据库更改授权而GFDL化。
参考
- 开放古籍平台的意义与实作(繁体中文)
- 刹那工作室实作的无限组字编辑器解说(繁体中文)
- 动态组字技术组成表(繁体中文)
- 动态组字函数库项目(繁体中文)
- 正体中文网:介绍动态组字器(繁体中文)
- 魔法设计的艺术:汉字研究 (页面存档备份,存于)(繁体中文)
- Planet OrzLab: zhongwen(繁体中文)
- Planet OrzLab: unicode(繁体中文)
意传科技汉字组建
考虑到汉语的方言字经常需要特殊字形方能显示,其提供Unicode表意文本串行转为动态组字的图档的工具,使用 Java 撰写。
- GitHub 版本库 (页面存档备份,存于)
- 展示网站 (页面存档备份,存于)
参考
- 和田研フォント:日语的「和田研字体」条目
- 日本京都大学的汉字自动生成技术 (页面存档备份,存于)(日语)