字码

行政院主计处电子处理数据中心及中文数字化技术推广基金会于全字库网站上对于中文本码的定义为「依照一套固定的规则,针对指定的中文本集内的每一个字或符号,编订相对应的代码,以方便电脑信息之处理与应用」。

而字码又可以分类为:交换码内码以及外码(输入码)三种。

  • 交换码:不同电脑系统中,中文数据相互交换时,所用的共同设置。若设计得当,交换码也可做内码使用。[1]
  • 内码:某字在某电脑系统中的代表号码,属于某电脑系统的内部作业规则。
  • 输入码(外码):输入某字所必须敲入的键盘序,如:仓颉码、注音码。

中文本码发展背景

个人电脑兴起

20世纪中叶,电脑开始进入汉字使用地区,而当时国内的信息环境尚属萌芽阶段,民国61年,行政院主计处电子处理数据中心便开始研发中文软硬件的应用系统,如中文表报输出系统(CROS)、字根输入法中型中文键盘、第一代中文终端机、中文在线操作系统等,促使各界对发展出国内专属的中文化电脑环境有了进一步的认知,并有初步的共识。[2]

中文电脑的运用

电脑一开始应用进程全为西方人设想,只能用英文或符号输入输出数据,用户必须具备良好的英文根基,先将中文数据译成英文或符码,才能用电脑处理[1]。因此,在1960年代,电脑刚出现时,就有人开始研究「电脑中文化」的可行性。

行政院国家科学发展委员会的大力倡导下,掀起中文电脑研究的热潮。台湾大学、交通大学、清华大学、成功大学、中原理工学院、行政院主计处等研究机构,和王安、神通、东元、经纬、通用等私人电脑公司,纷纷朝向「中国人用中文电脑处理中文数据」的目标迈进,使中文数据也同样能够输入电脑,经过处理后,又用中文输出。[3]在这样的风潮下,中文本码的发展也逐步开展。

交换码

中文信息交换码

民国65年以后,国内外对于中文信息的处理变得愈来愈迫切。同时美国也因中国在国际舞台上日趋活跃,对于电脑处理中文的能力也有迫切需要。特别是在中、日、韩文文件及图书馆典藏两方面。民国68年由全美有关单位协调后,国会图书馆及各亚东语文图书馆等单位,统筹经费,委托〈美国学术团体联会〉主办此事。其负责人John W Haeger先于民国68年访问日本,日本国会图书馆答应免费提供电脑设备加上两位驻美日文电脑专家,以协主其开发东亚语文处理基础工作。

John W Haeger顺道访问台湾,了解台湾当时处理中文数据的技术,并且邀请台湾代表出席筹划中的〈亚东图书馆自动化会议〉,以交换各国处理亚东文本的心得。会议于民国68年1月召开,成员包括美国亚东图书馆界代表、日本、韩国和台湾代表。会中讨论如何订定标准之中、日、韩交换码,以作为自动化依据。日本代表提出以其国家标准JIS C 6226,并想用其中的汉字作为国际方块字上的标准,且当时也只有日本具有此一国家标准,所以负责人几乎采纳日本代表建议。但与会华裔美国国会图书馆代表及台湾代表居极力反对,并以日本汉字不足以代表中国文本的各种理由,保证基于台湾中文电脑的蓬勃发展趋势,台湾有此能力,编出一套真正属于中国文本之交换码,可用于全世界,故会议暂时否定日本提案。但要求台湾须于民国69年3月〈亚洲研究学会〉年会中提出台湾编着的〈中文信息交换码〉成果。

李国鼎接获此事,立即指示谢清俊博士等学者开始编〈中文信息交换码〉及各项相关配合事宜,并成立国字整理小组。国字整理小组负责全面而彻底从事中国文本整理、〈中文信息交换码〉之编订,以及解决电脑处理中文信息上所可能遇到的技术问题,还有中央图书馆在自动化方面的配合。完成后定名为〈中文信息交换码CCCII,共含教育部4808字,完全依照〈ISO 646〉和〈ISO 2022〉标准编码。

后于美国会议中,会议请台湾扩大编码,故中文信息交换码进行第二次修改,收:正体字21158字、异体字10793字等。民国70年2月在台北召开的〈国际中文图书馆数据自动化研讨会〉,〈中文信息交换码〉第二部正式公开。之后Research Library Group采用它作为美国处理中、日、韩文之正规标准。自民国72年〈中文信息交换码〉作为东亚国家文本码,推广到各学术单位及军事单位实行。

中文标准交换码

民国68年国家建设研究会建议台湾应编中文本码,而行政院将此案交由主计处电子处理数据中心研究,但该单位获知CCCII发表后,认为国字小组破坏政府体制,故决议另做一码,虽民国68年9月于溪头开协调会,但主计处仍维持原决议。

民国70年2月,主计处另推〈中文标准交换码〉,由李克昌主持,但因与ISO 646ISO 2022冲突,故民国71年7月又推〈中文信息标准交换码〉,9月又出〈中文信息交换码(附册)〉,但因字数过少汉字码空间无法扩充。民国72年10月推〈通用汉字标准交换码〉。民国75年又出新〈通用汉字标准交换码〉并获行政院核定,正式公布实施。同年中央标准局审定颁布为国家标准,编号「CNS11643」;民国81年该局再因应各界之需要,由原两个字面共 13,051 个字,大幅扩编为七个字面共 48,027 个字, 公布并更名为『中文信息标准码』。现为集成全国各信息系统与用字上的需求,其字面数已扩充到十五字面,除增纳国内诸如户役政、工商、公路监理等重要行政系统的用字外,亦将国际标准编码 ISO 10646 中各国的拼音文本、CJK 字集收纳其中。标准检验局于九十五年编审公告 CNS11643 最新版本,总字数高达九万多字。

内码

大五码

早期个人电脑没有共通的内码,导致厂商推出的中文应用软件无法推广,并且与IBM 5550、王安码等内码不能兼容,而台湾当时亦尚未推出中文编码标准。民国72年IBM5550第一部可处理汉字功能的个人电脑出现,财团法人信息工业策进会与国内13家业者合作进行「五大软件项目」,发表了Big5(大五码)。经济部标准检验局委托财团法人中文数字化技术推广基金会修订Big5 ,正式定名为「Big5-2003」。行政院主计处电子处理数据中心协商行政院研究发展考核委员会成立「Big5 码字集扩编计划」项目处理,民国86年七月扩编完成「Big5+码」。又完成Big5码补充字集的创建工作。

除了台湾外,其他使用繁体汉字的地区,如香港、澳门,及使用繁体汉字的海外华人,都曾普遍使用Big5码做为中文内码及交换码。由于Big5码缺乏粤语字,因此有从Big5码扩充而成的香港增补字符集

Unicode

世界各国大多制订了本土使用的字符码,依各国语言的字符集的大小,决定采用单字节或多字节的编码方式。为了国际数字化数据的交流,各国有了发展多语言集成性字符集的共识。民国77年 Xerox 公司建议以将电脑字符集编码的基本单位扩充,新的字符集编码标准被称为 Unicode。民国80年由 IBMDEC、Sun Micro、Xerox、Apple、MicroSoftNovell等公司共同成立 Unicode 协会,并由 Unicode技术委员会(UTC,Unicode Technical Committee)从事各国字符搜集、整理、编码等工作。在同年发表第一版的Unicode标准。由于Unicode尽量兼容既有的地区编码,同时也力求支持世界上各种语言文本,因此在作为内码的同时,也有交换码的作用。它的UTF-8UTF-16UTF-32皆可说是交换码。

五大行政信息系统编码

1、全国民众基本数据(EUC-CSIC)

EUC(Extend Unix Code)内码为全国户役政单位所使用的基本字码架构,UNIX 操作系统之内码,字码长度 4 byte,可纳编高达七、八万的姓名用字,满足全国人民户籍的基本数据的存放与处理。

2、财税系统 (财税码与税务码)

财税数据中心在信息作业上所采用的内码包含:

‧ 康大码(即 4Bytes 王安码)约两万一千多字。

‧ 新电信码(3Bytes 内码,2Bytes 展示)约两万四千多字。

‧ 税务码(D.P 主机专用,4Bytes 内码,2Bytes 展示)约一万八千多字。

‧ IBM 新主机码(2Bytes)约两万多字。

将上述码之交集约一万八千多字汇整成国税与税捐稽征机关信息系统发展时之字码基础,称为税务码。

3、交通事业(电信码)

交通部数据通信所为配合供公共数据处理、公路监理等信息系统所编订出数据通信中文电码(简称电信码),属内码性质。

4、工商登记用字 (工商)

经济部商业司负责管理全国公司行号的工商登记用字,其编码系统以大五码为基础,并建置约五千余个自造字。

5、地段名用字 (地政)

内政部地政司负责管理全国地址的登记用字,其编码系统亦以大五码为基础,每个不同的县(市)皆依各自不同的需求建置属于自己的自造字对照表,因此除了原有大五码的 13053 个字为各县(市)所共用外,自造字对照表分别有各县市等 25 种。

中文本码发展问题

台湾历史上的字码发展相当繁杂,经历了种种字码的设计。1980年代台湾的状况是几乎是处于年年编码、年年变码的情形,每个阶段所推出的字码都存在疏漏,如字码空间不足或是字集数量过少等等弊病。且也牵涉到台湾、中国编字码人员对中文本不够熟悉的问题。像是日本曾经起草〈国际标准组织IOS DP 10646〉草案作为新的字码世界标准,但该草案中,在中国字体系相当不足,缺乏正体字的空间,只有中国大陆的简体字。另一方面,台湾和中国大陆的字码系统是借用日本的系统(如民国75年的〈通用汉字标准交换码〉即为一例)。因此日本也不认同台、中的新方案。各国在技术层面难以配合。[4]

输入码(外码)

仓颉输入法的字码

仓颉输入法采用「日」至「田」及「卜」24个仓颉字母,另有「难」作为特殊字母,共25个,以键盘上的A-Y作为按键。Z键作为特殊功能键。

仓颉字码的键盘排列
按键 ABCDEFGHIJKLMNOPQRSTUVWXYZ
字码 廿
  • 仓颉输入法「重」码,视乎不同版本,也称「Z」、「片」、「符」、「标」等。

仓颉系统中,直接以仓颉输入法的字码作内码。

呒虾米输入法的字码

呒虾米输入法直接以26个英文本母作为字码。

按键 ABCDEFGHIJKLMNOPQRSTUVWXYZ
字码

大易输入法的字码

大易输入法有40个字根

大易字码的键盘排列
按键 ABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890 ;,./
字码 鹿

行列30的字码

行列输入法的字码与三行键盘的键位相对应。

按键 QWERTYUIOP
字码 1^2^3^4^5^6^7^8^9^0^
按键 ASDFGHJKL ;
字码 1-2-3-4-5-6-7-8-9-0-
按键 ZXCVBNM,./
字码 1v2v3v4v5v6v7v8v9v0v

中文电脑与字码使用现况

汉字作为语素文本,与表音文本有很大的不同,其相异之处亦展现在字码的使用上。

但由于电脑上要传递汉字必须先将每一个汉字都编码才能传输,于是,早期编码空间的不足导致了缺字现象,也就是说明明存在的字,却在电脑上显示不出来,Unicode的出现,则适度解决了这个难题,却又衍生出其他应用方面的缺憾。

当初Unicode组织在定义字码的时候,决定以字形为基础,将中日韩文使用到的汉字(简称CJK)统一在同一张码表。然而,如果一个字在各国的字形各不相同,那么,不论二者的差别有多细微,这两个字形的Unicode字码(codepoint)就不同。台湾使用的繁体字和中国通用的简体字就常出现这个状况,更遑论CJK文本混用的状况了。例如「吴」、「说」、「悦」。吴字由于台湾、中国、日本的写法略有差异,因此,共有三个不同的Unicode字码;至于「说」、「悦」等字,台湾的「兑」字上端是「正八」,中国则惯用「倒八」,差异虽小,也都有各自的Unicode字码。此外,一些偏旁简化字(例如,「金」字边的「银」字),字形差异不大,对应的繁简体的Unicode字码却也各不相同。

但尽管有上述缺憾,但基本上现今较常用的电脑系统,如windows,普遍仍是使用Unicode码。

注释

  1. 黄, 大一. . 台北市: 长松文化事业有限公司. 民国79年4月: 189. ISBN 9579064008.
  2. 余保伦. . 主计月刊.
  3. . (原始内容存档于2018-11-28).
  4. 黄, 大一. . 台北市: 长松文化事业有限公司. 民国79年4月.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.