汉字
汉字(日语:/ Kanji */?,:/ hanja;越南语:/),又称中文本、华文本、华语字、唐话字、唐人字、中国字,为记录汉语而发明的语素文本[13][14],受到汉字文化圈广泛使用,为世界唯一仍广泛使用并高度发展的语素文本[15][lower-alpha 3],也是独有的指示会意文本体系。最初,由中国上古时代的黄河文明华夏族所发明创制,其字体历经长久改进及演变。目前确切出现的历史尚有讨论空间,最早可追溯至陶文,成熟于约公元前1300年商朝的甲骨文、籀文、金文,再到春秋战国与秦朝的籀文、小篆,发展至汉朝发生隶变产生隶书并于后世衍生出草书、楷书、行书,在唐代稳定为今日所用的手写字体标准——正楷。
汉字 | |
---|---|
类型 | |
使用时期 | 约公元前1300年至目前 |
书写方向 | 横排从左到右,从上到下(现代) 竖排从上到下,从右到左(传统) |
语言 | 汉语(官话、粤语、闽语、客家语、赣语、湘语、吴语、晋语)、壮语[lower-alpha 1]、日语、琉球语、韩语、越南语等[lower-alpha 2]、蒙古语 |
相关书写体系 | |
父体系 | (原始文本)
|
子体系 | 假名、谚文、喃字、契丹文、方块壮字、女真文、注音符号等 |
ISO 15924 | |
ISO 15924 | Hani (500), Han (Hanzi, Kanji, Hanja) Hans(简体) Hant(繁体) |
Unicode | |
别名 | Han |
范围 | U+4E00至U+9FFF[1] U+3400至U+4DBF[2]() |
汉字 | |||||||||||||||||||||||||||||||||||||||
![]() | |||||||||||||||||||||||||||||||||||||||
汉语名称 | |||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
简化字 | |||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||
越南语名称 | |||||||||||||||||||||||||||||||||||||||
越南语 | |||||||||||||||||||||||||||||||||||||||
喃字 | |||||||||||||||||||||||||||||||||||||||
壮语名称 | |||||||||||||||||||||||||||||||||||||||
壮语 | |||||||||||||||||||||||||||||||||||||||
名称 | |||||||||||||||||||||||||||||||||||||||
谚文 | |||||||||||||||||||||||||||||||||||||||
汉字 | |||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||
日语名称 | |||||||||||||||||||||||||||||||||||||||
汉字 | |||||||||||||||||||||||||||||||||||||||
|
![]() |
注意:本条目可能有部分无法显示,若遇此情况请参阅Wikipedia:Unicode扩展汉字。 |
汉字是迄今为止连续使用时间最长的主要文本,也是唯一使用至今的原生文本。相较而言,古埃及、巴比伦、古印度文本都早已消亡。中国历代皆以汉字为主要官方文本,现时在中华人民共和国为实务上的官方文本。汉字在古代已发展至高度完备的水准,不单中国使用,在很长时期内还充当东亚地区唯一的国际通用文本,在20世纪前都是朝鲜半岛、越南、琉球和日本等国家的书面规范文本。除了汉语之外,古代东亚诸国均有自行创制汉字。
现代汉语汉字大体分为传统汉字与简化字两大标准,前者主要用于台湾以及香港、澳门,后者则由中国大陆制定并使用,且为新加坡、马来西亚等华侨众多的国家采用。非汉语体系中,日本将部分汉字自行作简后,成为现在的日本新字体,大韩民国也制定了官方的朝鲜汉字使用规范,而史上曾使用过汉字的朝鲜民主主义人民共和国、越南、蒙古等国,汉字现今已不再具有官方规范地位。
此外,汉语也是多数国际组织(例如联合国、上海合作组织等)的工作语言,加上这些国际组织均采用简体字为工作语言,以及中国崛起等原因,所以现今多数国家的外国人如果学习汉字,均以简体字为主。少数情况下才会学习繁体字(如研究中国历史、研究古代汉语、派驻港澳台地区等)。
「汉字」语源
「汉字」一词最早出自元朝《金史》卷九本纪第九,「章宗一」:「十八年,封金源郡王。始习本朝语言小字,及汉字经书,以进士完颜匡、司经徐孝美等侍读」。《金史》也出现多次,如:「女真初无文本,及破辽,获契丹、汉人,始通契丹、汉字,于是诸子皆学之」、「长子布辉,识女真、契丹、汉字,善骑射」,将汉族文本、女真族文本、契丹族文本之间互相区别。
在清朝前期,政府官方文本是满文,当时已用「汉字」一词称呼中国汉族的传统文本。另外,日本人也称呼为「」,以别于由汉字衍生的假名。在李氏朝鲜,「」则与训民正音(谚文)相区别。在越南,「」则与由汉字衍生的喃字相区别。在琉球国,「」则与琉球国字头相区别。
汉字的历史

传说汉字起源于仓颉造字。根据《淮南子》的记载,黄帝的右史官仓颉根据日月形状、鸟兽足印创造了文本,使而「天雨粟,鬼夜哭」。但从历史的角度看,复杂的汉字系统不可能由一人发明,仓颉应该是在汉字的集、整理、统一上作出了突出贡献,所以后来荀子在其《荀子·解蔽》中对此评论认为「好书者众矣,而仓颉独传者,壹也」。
原始文本
文本发明前的口头知识在传播和积累中有明显缺点,原始人类使用了结绳、刻契、图画的方法辅助记事,后来用特征图形来简化、取代图画。当图形符号简化到一定程度,并形成与语言的特定对应时,原始文本就形成了。唐兰在《古文本学导论》中将古文本分成殷商系、西周系、六国系、秦系四系。
1994年,湖北杨家湾大溪文化遗址出土了大量陶器。在这些6000年前的陶器上发现了170多种符号,部分符号的特征与甲骨文很类似。此外,山东大汶口出土陶器上的象形符号、西安半坡彩陶上的半坡陶符以及河南贾湖遗址发现的距今8000年前的龟甲上的贾湖契刻符号等,都可能是原始文本形成中(或形成前)不同阶段的表现。但是,这些几何符号是否是文本、是否是汉字前身,这些仍是争议颇多的问题。
中华人民共和国考古学者王恩田与俞伟超等人认为,在龙山文化中发现的丁公陶文,是东夷系统的文本[16]。冯时认为,丁公陶文属于古彝文系统,殷商甲骨文中的人方以及西周所称的东夷,可能与彝族有关[17]。李象润、李浴洋等大多数学者认为,丁公陶文属于古汉字系统[18][19]。
象形指事时代

从甲骨文到小篆,汉字经历了从巨细靡遗描绘意象的方式,往简化成容易纪录刻画的方向变迁,字形逐步脱离事物的具体形象。这一时期的汉字也称为古文本。[lower-alpha 4]
商周时期的甲骨文已经是比较完整的文本体系。在已发现的4500多个甲骨文单字中,目前已能认出近2000字。[20]与甲骨文同期,青铜器上铸造的文本被称为金文或钟鼎文。西周时期的《散氏盘》、《毛公鼎》具备很高的史料和艺术价值。
春秋时代开始,各地诸侯相争,而原本周文化独尊的局面逐渐破坏,各地区文化开始有“在地化”的改变趋势。到了战国时代以后,这种情况更明显,在文本使用方面可以粗略依照地域分为五大系统:东方齐系、东北燕系、南方楚系、北方晋系和西方秦系文本,各系统的文本大体上相近,只有小部份文本有所差异,因此彼此文书往来并没有太大问题。[21]
秦始皇统一六国后,李斯在大篆(秦系文本)和六国古文的基础上,进行规范和整理,制定出了小篆作为秦朝的标准书写字体,统一了中国的文本,影响深远。小篆呈长方形,笔画圆润流畅。小篆解决了各国文本间出现大量异体字的情况,「书同文」的历史从此开始。文本的统一有力促进了不同语族间的文化传播,对中国统一以及东亚各国的文化交流发挥重要作用,为世界文本史所罕见。
汉字的发展经历了诸多演变。初期汉字系统的字数很少,以象形与指事的独体字为主,大量事物以通假字来表示,使文本表述存在较大歧义。例如先秦的「文」,兼有后世的新字「纹」的功能,表示一组成各种事务的规律、型式,不单指文本的「文」,也包含野兽身上的花「纹」、布上面的织「纹」、手指的指「纹」等数种含意。
除了「凹」、「凸」等特例直到唐朝才发明[22],大部分的象形指事字很早就已经定型,成为下个时代形声会意组字法的基础。
形声会意时代
为了能更精准的表述,最早从小篆的时代开始一直到现代,因应随文明发展不断增加的新事物,以基本的象形指事字为基础,发展了形声、会意的组字法,以组合方式,来细化大量的字出来,使得文书上记载越来越精密,一直为造字主力。
例如:
- 最早海上的交通工具就只有:「舟」一种;但演化到现在,细分成「舨、舟、艇、船、舰」等不同小大规模与形制的「舟」。
- 起初,金属只有「金」一种,但随着冶金技术的发展,对于金属的知识更加丰富,「金」被细化成「金」、「银」、「铜」、「铁」等等。
- 隋文帝杨坚原为国公,但因「」字的「辶」有不稳定之意,故去掉「辶」,而造「隋」字作为国号。
- 唐朝和武周时,武则天根据「日月当空」之意而造字「曌」(同「照」字)作为她的名字。同时发明的文本还包括圀、瞾、囝等。人称则天文本。
- 五代刘䶮取「飞龙在天」之意创了自己名字内的「」字。
- 在近代,由于大量西方事物的涌入,也造了许多字。例如随着「Beer」传入中国,如何用汉字表达是大哉问,最初译为皮酒,后觉不妥,于1910年左右创造了「啤」字——译为「啤酒」。(而在同一时期,朝鲜半岛与日本采用了「麦酒」这个名字作为「啤酒」的译名。)
- 近现代科学名词用字多有新造汉字,以形声字为多,亦有形声兼会意字和反切字。还有一部份是古字赋予新义(如“烷”在古书中也有,意为“火”)。
- 化学元素中,常温下为固体的金属元素、非金属元素一般分别用“金”、“石”为形旁,并以相应英文名称中的音节发音近似的汉字为声旁,如“镁”、“铝”、“硒”、“碲”等字;常温下为气体的元素从“”,如“氦”、“氟”等;“汞”、“溴”常温下呈液态,从“水”。
- 一些化学元素用字则与其性质和功能有关,如“氢”言其重量“轻”,“氧”有“滋养生命”之意,“氯”有“绿色”意。
- 一些非金属元素加氢生成的基团常按其性质将形旁改为“金”、“⺼”(氮用“氨”字改),如“铵”、“胺”、“𬭸”、“膦”、“𬬹”、“胂”等,分别表示其相应的质子化的氢化物以及氢化物分子中的氢被烃基取代的化合物,其音从原字改变音调而来。
- 热力学中,相关的形声字则从“火”为形旁,如“焓”、“熵”等。
- 有机化学中,命名原则如下,包括新造字和古字赋予新义:
- 工程中部份字属于新造或选用已有古字赋予新义:“泵”、“砼”等。
- 生物学中部份字属于新造或选用已有古字赋予新义:㺢㹢狓、猛犸的“犸”、𪄳鷎、鸸鹋、鵎鵼、鶆䴈、鿕属的“鿕”等。
- 为了表示英制的单位,还造了一些多音节的字,如浬(海)、嗧(加仑)、瓩(千瓦)、呎(英尺)、哩(英里)等度量衡用字。目前在台湾仍然使用,但多为单多音节混用,香港已经没有用嗧、瓩等,而浬、呎、哩等就已经是单音节。不过这些多音节的字在1977年7月20日大陆的中国文本改革委员会和国家标准计量局所发的《关于部分计量单位名称统一用字的通知》中被淘汰,在大陆地区不使用。
有了造好的象形、指事的独体字为基础,使用形声、会意组字法随着文明的发展,组出表示新事物的合体字,这使得记载为文时,以前述的各种不同的船来说,只要看一单位的字形,我们就知道指的是哪一种「舟」,这样辨识理解的效率非常高;反过来,以组词的方式就要看过前后文(或短或长)有其他哪些字才能判断正确的意义,较缺乏辨识效率,但方便口语沟通(汉字同音字太多,听觉不易辨识,解法一为组词,二为如韩日语数音为一字:「浬」发音为海)。
繁化
汉字非为一时、一地、一人所造,是古人共同使用流传后的结果,受到多数人使用的字形则可流传至今,不受流通的字形则收藏在金石古典,或消失在历史洪流之中。因此,有的字会为了书写简便,省笔或速写渐渐成为另一个笔画少的字体,称为「汉字简化」;但是亦有为了使汉字能清晰辨识或加强表音、表意,而将字形增加笔画或部件,使得该字能精准表达或是不易更动,称为「汉字繁化」。
「汉字繁化」的首要目的是加强汉字的辨识度,避免混淆。如国字数字的大小写中,因「一、二、三」等数字笔画少,在书写后容易遭到篡改而影响金额、数量等利益,除若干数字是借用笔画较多的他字来代表数字,如以「壹」代「一」、「贰」代「二」、「伍」代「五」、「陆」代「六」、「玖」代「九」等外,另外则采增加笔画或部件而造出的汉字数字,如「一」有「弌」、「二」有「弍」、「三」有「弎、(亦为参之代字后变体)」、「四」有「䦉」等,在原来的汉字上再加上其他笔画部件,而音义并未改变,是汉字繁化情形。「上」和「下」也是由古文「丄」(或「𠄞」)和「丅」(或「𠄟」)增笔繁化而成。
有些繁化现象,则为加强字理。例如为加强汉字标音功能而增加识音的声符。例如「」字,古字作「𠚕」,是口中有牙齿的象形。可能因不易识别字音而增加声符「止」作为标音,「𠚕」与「」的音和义是一样的。又如「」字形是二个散发动手打斗之人,可能因不易识别字音而增加声符「」、「豆」作为标音,繁化为「」、「」[23],而「」与「」、「」的音和义是一样的。如此字义并无改变,繁化是为了能增加该字的标音功能。又例如替汉字增加义符,像「」的古字并无上方的「艹」,本身是花朵的象形,后来增添义符「艹」表示类属。又如「舂」、「」等字所含有的「臼」字,甲骨文只作「凵」,像凹陷下去的形状,然而这形状也很容易被理解作地面凹陷下去;因此金文就在「凵」内加像米粒、谷粒的小点,增强它的象形成份,使「臼」义明显。
另外,亦有汉字造字的繁化现象。汉字作为古人识别万事万物的工具,然而人事物众多,汉字却有限,若将万事万物都造一字表示,则汉字数量过于庞大,如古时以马作为生活交通工具,为不同类型的马造出许多汉字,如「骧(xiāng、ㄒㄧㄤ):后右蹄白色的马」、「馵(zhù、ㄓㄨˋ):后左脚白色的马」、「𩨊(qián、ㄑㄧㄢˊ):四蹄全白的马」等字,大量增加马部专属的汉字,虽能特定、精准地专指某种马匹的意思,至今却鲜少使用。因此,一般仍是以一个汉字具备多项意义来运用,再由一个汉字沿伸出多个汉字,称为「汉字繁化」。而相同字义的汉字繁化,为汉字同源词中的「累增字」,繁化后产生不同意义者为汉字同源词中的「后起字」及「孳乳字」。
此处与「简体字」(「相同字义而笔画减省」的汉字)相对,故仅论述「相同字义而笔画增繁」的汉字,即「累增字」,指原字虽已造,然而该字借给他用后对于表达原事物的意义渐渐不清,故再增加表意部件来表达原字意义,如「止」本意为脚趾,后世多借用此字表示「停留」义,于是加「足」繁化为「趾」以示本义;「然」本意为燃烧,后多将其用作虚词,原义加「火」繁化为「燃」;「它」本意为蛇,但逐渐用作代词,本义则加「」部繁化为「蛇」。
简化
汉字结构复杂,异体字非常多。自古以来已经有许多的俗字,其中有一些是为了书写简便,较之正字笔画减少的简俗字,但俗字多半是人民私下使用,正式的文书仍然是用正体字。
近代,处于强势地位的西方文明开始进入东亚,整个汉字文化圈的各个国家中纷纷掀起了学习西方的思潮。当中有人坚持汉字的传统,亦有鼓吹放弃使用汉字。这些鼓吹放弃汉字运动的立论「汉字落后论」,内容为:跟西方拼音文本相比,汉字是繁琐笨拙的。尤其在近代个人电脑还没有普遍化以前,因为汉字不能通过打字机书写,而必须使用巨型的排版房的铅字,也就是说汉字已成为教育及信息化上的瓶颈。但是近代个人电脑普遍化以后,汉字能通过个人电脑输入,此种论述已经不具说服性。许多使用汉字国家以政治推行的方式,进行了不同程度的汉字简化,甚至还有完全拼音化的尝试。日本的使用假名方案以及汉语多种拼音方案的出现都是基于这种考量。
对于「汉字简化」,运行的有民间及官方二种。在民间百姓写字只为纪录或交流,不需要严格遵守笔画规范,因为汉字笔画多,在书写时会有连笔、省笔以求快速书写是古今皆有的现象,如将「」、「」、「且」、「直」等有框中二横、三横的笔画直接以一直笔代替,这是民间汉字简化的情形,加上普遍在社会中流通,成为民间「手头字」、「俗字」;而官方的「汉字简化」则是由政府以公权力进行并颁布实施。
1935年8月21日,中华民国国民政府教育部颁布《第一批简体字表》,1936年2月被通令“暂缓推行”。
中华人民共和国政府1956年1月28日发布《汉字简化方案》,1964年5月审定通过《简化字总表》,客观上配合了不久之后的文化大革命「破四旧」政策。1986年经少量修订后重新发表,一直在中国大陆地区使用至今。1977年,曾公布《第二批汉字简化方案(草案)》,发布「二简字」,试用一段时间(约八年)后因为字形过于简陋且混乱而停用,并于1986年正式宣布废除。新加坡和马来西亚政府分别发布了同中国大陆《简化字总表》相同的简化字表。
日本政府在二战结束后也进行了汉字简化。1946年日本内阁公布了《当用汉字表》,收字1850个,其中对部分汉字进行了简化,有些简化后的汉字与中国大陆简化后的汉字一致,有些则有一定差异,部分为日本自创。
书体史
小篆笔画以曲线为主,后来逐步变得直线特征较多、更容易书写。到汉代,隶书取代小篆成为主要书体。汉代以后,汉字的书写方式逐步从木简和竹简,发展到在帛、纸上的毛笔书写。隶书的出现,奠定了现代汉字字形结构的基础,成为古今文本的分水岭。隶书进一步发展为楷书,到唐代,楷体完全定形。除端正的楷书外,亦同时衍生出适于手写的行楷,并进一步衍生出笔画更加简省而飞动的草书。楷书、行书、草书等书体都发展为艺术。古代印刷术发明后,明朝出现了用于印刷的宋体、民初出现仿宋体,宋体亦传入日本、韩国等使用汉字的国家,同样成为当地通行的汉字印刷体。现代手写体仍以楷体为标准(钢笔字),除了传统的宋体外,现代又陆续出现了笔画大小粗细均衡的黑体等字形。
书写方向
在纸张被发明之前,汉字通常写在竹简上。因此,传统汉字书写方向为从上往下,从右往左的竖排格式。自二十世纪中叶,越来越多的汉语出版社开始使用横排发行刊物,尤其是有关科学技术的期刊(横排便于书写数学公式和化学表达式,并且便于穿插同为横排书写的西方字符)。
汉字的特点
汉字的特点如下:
- 字根组字:每个汉字可由物体及抽象事物构成。一个汉字偶尔只由一个构成字组成,通常是由两个以上构成部分合体而成。汉字本身即有意义的869个声母及265个形母的象形、指事字为最基本字根部件,称为「字源」,通常为独体字,例如「日」、「月」,可组成各种复合部件(如「明」,可再堆栈组合成汉字盟、萌、曌等字)、以及一般认知的字(「明」本身就是一个字)。《参考汉字的字形与编码第三页 (页面存档备份,存于)》
- 表意:承上,字根本身表义,多个字根合成新义,且空间的配置对字义有影响。(朱邦复先生的字易即是探讨此)
- 兼容并蓄:各语言、各领域应用可以六书基本规则,可贴近自身领域、地域所需组出所需要之字。最明显的例子当属化学元素的中文命名法。
- 书同文:汉字本身不完全表音,不同方言、语言之间,仍可书同文,以文意、字义来互相了解。
- 独有的文化如对联、书法艺术等。
- 任意排列:汉字可由上而下、由右而左、由左而右排列,不像多数文本只能固定一个方向读。
- 方格字:一般汉字不论笔画多少,一个汉字都可以一个方格呈现,故能创作文句大小等距、对称的门联、春联。
- 拼义文本:与拼音文本地位相当,为不同的发展道路,反映了不同类型的文明[24]。
汉字的语文知识




象形
这种造字法是依照物体的外貌特征来描绘出来,所谓「画成其物,随体诘诎」是也。如日、月、山、水等四个字,最早就是描绘日、月、山、水之图案,后来逐渐演化变成现在的造型。
指事
这是指表现抽象事情的方法,所谓「各指其事以为之」是也。如人在其上写作「上」,人在其下写作「下」,有人称为抽象的象形。
会意
这个造字法,是将两个字根组合起来,使衍生出新的含意。如「日」和「月」组起来,就是日光加月光变成「明」。「人」字和「言」字合成「信」字,意思就是人过去所言;有信,就是这个人都很遵守自己说过的话。
形声
此乃文本内以特定形状(字根)表特有的音。例如:胡,这个字也可为一个声符,结合不同的属性部件,表不同意义如蝴、湖、葫、瑚、醐等,而以同样的发音元素(也有的是完全同音),表达不同的事物。但形声字,也因古今语言音韵变迁,不少古代同类形声字在今天的官话已无共同音素了,如过、蜗。
转注
六书中转注争议最大。汉代许慎《说文解字》中对转注的定义是:「建类一首,同意相受,考、老是也。」有人解释这句话的意思是:转注是用于两个字互为注释,彼此同义而不同形,如「老」、「考」二字。古时「考」可作「长寿」讲,「老」、「考」相通,意义一致,即所谓「老者考也,考者老也」。诗经的《大雅·棫朴》亦云:「周王寿考。」。苏轼的《屈原塔诗》也有「古人谁不死,何必较考折。」一语。其中的「考」皆「老」意。由于许慎对转注定义模糊,《说文解字》一书中除此例以外再无其他字被记载为转注字,因此,后代的文本学家针对许慎的前述的定义有许多解释和争议。其中包括「形转说、声转说、义转说」三类,只是这三种说法有人认为不够全面。当代古文本家林沄认为「转注」就是一个形体(字根)记录两个读音和意义完全不同的两个词,例如「帚和」与甲骨文中的「母和女」等等。亦有观点认为转注不是解释汉字字源必须的概念,中国著名文本学家、北京大学教授裘锡圭先生认为:「在今天研究汉字,根本不用去管转注这个术语。不讲转注,完全能够把汉字的构造讲清楚。……总之,我们完全没有必要卷入到无休无止的关于转注定义的争论中去。」[25]
假借
这法简言之,借用一字去表达别的事物。一般来说,是有一个无法描述的新事物,就借用一个发音接近或是属性近似的字根,来表达这个新事物。例如:「又」,本来是指右手(最早可见于甲骨文)[26],但后来被假借当作别的意思。闻,本意是用耳朵听东西的意思。例如《大学‧第七章》中有「视而不见,听而不闻,食而不知其味」,但后来被假借成嗅觉的动词(不过也有人认为这是错用)。 (其中「转注」「假借」两项的意义,至今争讼不休,尚无令人满意的说法。)
总结以上古代六书,前两项,「造字法」也;中两项,「组字法」也;后两项,「用字法」也。这六个原理,是古代文本学学者归纳出来的字学理论。其所含汉字构成法则,是长期演化而成的,不是任何一个人独创的。
字形

汉字有各种不同的书写方式,即有不同的字体;不同的字体,汉字的字体形状不一样。就算是同样的字体,也会因使用地区或用户的不同而有字形上的差异。由于各地对字形的使用并没有统一,加之大陆地区使用“新字形”(与“旧字形”或“传承字形”相对)、日本使用“新字体”,便产生了许多差异。例如“刃”及“角”,在各地写法都不尽相同。又如“口”字,中华民国官方规定最后一横要写得超过上面的横折露出来一点,其他地区的写法却是不出头的。
规整的字体(如:楷书、宋体、隶书、篆书等)书写下的汉字是一种方块字,每个字占据同样的空间。汉字包括独体字和合体字,独体字不能分割,如「文」、「中」等;合体字由基础部件组合构成,占了汉字的90%以上。合体字的常见组合方式有:上下结构,如:「笑」、「尖」;左右结构,如:「词」、「科」;半包围结构,如:「同」、「趋」;全包围结构,如:「团」、「回」;复合结构,如:「赢」、「斑」等。汉字的基末级部件(或称基础部件)包括独体字、偏旁部首和其他非字部件。
所谓的「文本」,古代是两个东西,东汉许慎《说文解字》叙:「仓颉之初作书,盖依类象形,故为之文,其后形声相益,即谓之字。」;宋郑樵《象类书》云:「独体为文,合体为字」。这个文,现代的术语叫作字根部件,汉字是以意念的表达需要组合所需部件于一方块,合成千千万万的字。
郑樵的搜集,以形为主的文有三百三十个,称为形母,以声为主的文共有八百七十个,称为声母,合计一千二百文。
但郑樵的声母形母已经失传,近代周何教授依据中文信息交换码(CCCII)第二集的22394字的字集刷新的结果,得出汉字有869个声母及265个形母,共计1134个。形母:郑樵的搜集,有三百三十个。现代的研究整理,是265个。声母:郑樵的搜集,有八百七十个。现代的研究整理,是869个。
末级部件,再行拆解,即为汉字的最小构成单位:笔画。汉字的笔画离不开「点」、「横」、「竖」、「撇」、「捺」、「折」这六种基本笔画,另外还有「提」。以书法为例,对各种笔画都有多种不同写法,尤其以折的变化最多。
书写汉字时,笔画的走向和出现的先后次序,即「笔顺」,是比较固定的。基本规则是,从上到下,从左到右,先横后竖,先撇后捺,先外后内,先外后内再封口,先中间后两边。不同书写体汉字的笔顺可能有所差异。
- 各地字差异
以下举出几个各地字差异:
中国大陆 | 台湾 | 日本 | 南北韩 | 香港 |
---|---|---|---|---|
读音
汉字是多种语言的共同书写体系,每个字代表一个音节或数个音节(视语言而定)。此外念法上在日语以及各汉语中,读音有「音读」和「训读」之分。
- 上古汉语,有人认为曾存在一个汉字多个音节的情况,但目前主流看法仍是以一字一音为主。中古汉语(以切韵及广韵音系为代表)已经确知为一字一音节。现代标准汉语中,皆由一个声母、一个韵母及声调确定,实际用到1300多个音节。
- 从字源来看,由于汉语用户习惯用不同字形书写同音异义的语素,且同一汉字常常存在许多书写变体,因此存在较多同音字现象(与之对比的是,西方语言习惯用同一词形书写同音异义的语素,因此存在较多多义词现象,如“蝙蝠”和“球拍”在英语中都用bat书写)。由于各种原因,汉字还有一字多音的情形,称为多音字或破音字,此外,许多地方的汉语具有文白异读的情况。中国其他少数民族借汉字表音时,也有存在一字多音节的情况。
- 汉字大致为一字一种发音,存在训读,但现今已不常用。
- 在汉字的发音上,有着多音节,如()、(),也有单音节如(空气)的,此外有许多字因训读、音读,在不同状况,发不同音的情形。
除了日本以外,其他汉字使用地区仍有少数字使用多音节字,如「浬」()、「嗧」()、「瓩」(千瓦)、吋(英寸)、哩(英里)等。中华民国官方机构或民间均普遍使用,在大陆地区由于官方废除已不使用,但一般人也理解其意思。
注音
最早的注音方法是读若法和直注法。读若法就是用音近的字来注音,许慎的说文解字就采用这种注音方法,如「埻,射臬也,读若准」。 直注法就是用另一个汉字来表明这个汉字的读音,如「女为说己者容」中,使用「说者曰悦」来进行注音。
以上两种方法都有先天上不完善的地方,有些字没有同音字或是同音字过于冷僻,这就难以发挥注音的作用,例如「音」等。
魏晋时期发展出了反切法,据传是受使用拼音文本的梵文影响。汉字的发音可以通过反切法进行标注,即用第一个字的声母和第二个字的韵母和声调合并来注音,使得所有汉字发音都有可能组合出来。如「练,朗甸切」,即「练」的发音是「朗」的声母与「甸」的韵母及声调所拼成。
近代以来,又发展出了仿汉字形式的注音符号及众多拉丁化拼音方式。注音符号一直都是中华民国官方教学的一部分,学生在学习汉字前先要求必需掌握。而目前大陆最为广泛使用的是汉语拼音。
由于汉字以本身表义为主,注音方面较为薄弱。这个特性使得上下千年的文献,不至于产生如同使用拼音文本的西方世界一样,用字措辞太悬殊的差距,但也造成推断古代声韵的难度,必须进行专门的汉语音韵学才能推测它们在上古汉语和中古汉语的发音。例如「庞」从「龙」而得声,但今日北京话前者读「páng・ㄆㄤˊ」,后者为「lóng・ㄌㄨㄥˊ」。
汉字与词语
汉字是汉文组成的最小单位,大半可作单字词独立表义。随着语言发展,也出现了不少两字或多字词语,近代白话尤多,大致可分为三类:
- 同义复词:「遭遇」、「学习」(两字同义)
- 反义复词:「胜败」乃兵家常事(两字反义,两个意思都保留)
- 偏义复词:毫无「动静」(两字反义,只保留「动」义)
不过,准确掌握其复杂的形式和用法也成为了学习汉语的一种负担。汉语中的常用词汇约几万条,总词汇量更有上百万条,数量的庞大可能使人却步。
在古文而言,使用单字比使用词语来得精确且有效率,例如朱邦复先生就提倡精确使用「字」的复古作为。
汉字的数量
汉字由于是开放集合,数量并没有准确数字,日常所使用的汉字约为几千字。汉字数量的首次统计,见于汉朝许慎之《说文解字》中,共收录9353字。其后,南朝时顾野王所撰的《玉篇》据记载共收16917字,在此基础上修订的《大广益会玉篇》则据说有22726字。此后收字较多的是宋朝官修的《类篇》,收字31319个;另一部宋朝官修的《集韵》中收字53525个,曾经是收字最多的一部书。
近代编集的字典收字量更高,如清朝的《康熙字典》收字47035个;台湾的《中文大字典》收字49905个;中国的《汉语大字典》(第一版)收字54678个,(第二版)收字60370个;最新的《中华字海》收字85568个,包含了《汉语大字典》、《中文大字典》、《康熙字典》和《说文解字》的所有收字;日本的《大汉和字典》收字48902个,另有附录1062个。21世纪已出版的字数最多者,为日本《今昔文本镜》,收字17万个(含汉字以外的文本)。
20世纪所新创的,还有第一批简化字后跟第二批的「二简字」,其中也包括社会上不少人造文本,不过二简字已被大陆官方废除,只有少数字在社会上流行,但现时并没有于计算机编码中被收录。
在汉字计算机编码标准中,目前最大的汉字编码是台湾的国家标准CNS11643,目前(4.0)共收录可考证之正简、日、韩语汉字共76,067个,在户政系统等官方机构普遍使用。台湾及港澳地区民间通用的大五码收录正体汉字13053个。GB 18030是中华人民共和国现时最新的内码字集,总共收录70244个汉字;GBK收录简体、繁体及日语、韩语汉字20912个,而早期的GB 2312收录简体汉字6763个。而Unicode的中日韩统一表意文本基本字集则收录汉字20989个,另有七个扩展区、兼容补充、笔画和部首,总数亦高达94236个字。
初期的汉字系统字数不足,很多事物以通假字表示,使文本的表述存在较大歧义。为完善表述的明确性,汉字经历了逐步复杂、字数大量增加的阶段。过去在汉字组成基本因子(前述字根部件)研究与教学上落后,造成学习上必须逐字学习难以举一反三,汉字数量越多学习越困难,组建新字的风气日趋保守,也没有相应的信息处理技术,于是有许多单一的汉语意义是以词表示,例如常见的双字词,所以近代书写的发展多朝向造新词而非造新字。
汉字字位数量
汉字字位(或者叫“字素”、“字种”)是指将同一个字的不同写法(正体字、简体字、二简字、异体字、新字形、旧字形、讹字、缺笔字等)计算为同一个字,而不是分别计算为不同的字。例如:“”和“”被视为同一个汉字的不同字位变体,而不是两个汉字。
依据中华民国教育部《异体字字典(正式六版)》,汉字正字为29,921字,异体字为74,407字,另有待考附录字2,002字,[27]但以上不含85字的和制汉字、255字的朝鲜汉字[28],若加计则正字为30,261字。近代编纂的字典所收的字越来越多,实际上增加的绝大多数是字位变体而不是字位。例如,收字42,174个的《康熙字典》仅仅比收字85,568个的《中华字海》少1,000个左右的字位。[29]
中华人民共和国

国家语言文本工作委员会于1988年颁布的《现代汉语常用字表》收录3,500字(2,500个常用字,1,000个次常用字),适用于中国大陆。
2007年中国语言生活状况报告里,在10.07亿汉字的语料上,进行汉字使用情况数据调查,结果为:595字数的覆盖率达到80%,964字数的覆盖率达到90%,2394字数的覆盖率达到99%。[30]
山西大学计机学系受国家语言文本工作委员会委托,抽样统计200万字的材料,检测《现代汉语常用字表》收字的使用频率。结果是:2,500常用字覆盖率达97.97%,1,000次常用字覆盖率达98.49%,合计共3,500字覆盖率达99.48%。
日本

日本内阁于1946年颁布《当用汉字》,收录1,850汉字;文部省国语审议会(今文部科学省文化审议会)于1981年颁布《常用汉字》,收录1,945汉字,取代《当用汉字》。依《常用汉字》,1006个汉字在小学教授,939个在中学中教授,共计1,945个。2010年11月30日追加196个新的常用汉字,并削除5个汉字,合计共2,136字。
自1975年,日本汉字能力检定协会推出日本汉字能力检定,测试日本人对汉字的掌握。直至2007年,共2,716,711人考核。成绩分为12级,由最高至最低排列分别为:1级、准1级、2级、准2级、3级、4级、5级、6级、7级、8级、9级、10级。
笔画最少与最多的汉字
最简单的汉字只有一笔画,但却不止一个字:除了「一」字以外,「乙」、「〇」、「丶」、「丨」、「亅」、「丿」、「乀」、「乁」、「𠄌」、「𠃋」、「𠃉」、「𠃊」、「乚」等都是汉字,而且都有各自的读音。
中文汉字中,笔画最多的汉字可能是“”,是一种面食的名称,此字至今习用,其不同写法的笔画数在54至71画之间不等。被传统辞典收录的笔画最多的汉字为《字汇补》、《汉语大字典》中由四个“”字组成的「」字,共64画;同样属于64划的字由四个“”字组成的“𠔻”字,收入自《中文大辞典》;之后的是由四个「雷」字组成的“䨻”字,有52划,收录于《说文解字》。
另外,日本汉字「」收录于日本的TRON计划中,但此字无法提供有效证据表明其确有使用,因此状况存疑。该字由3个「」字和3个「」个组合而成,共有84划[31]。该字曾提交到当时的统一码扩展C区,编号为JMK66147,后因扩展C区的时间原因被安排到了扩展D区,之后因找不到合适证据被撤销[32]。最后提交到扩展G区并被接受。
汉字文化
汉字所记录的语言
现在,纯汉字仅仅被用于记录汉语。在日本,汉字和假名一起被用于记录日语。在韩国,除了纯汉字和纯谚文记录的朝鲜语,也有韩汉混用记录的朝鲜语。
其他一些民族在早期会将汉字单纯作为表音文本来记录他们的语言。如蒙古语最早的文献蒙古秘史即用纯汉字当做表音文本进行记录;日语最早的文献也是把汉字当做表音文本来记录日语,后来演变出万叶假名;朝鲜语最早的文献也是使用纯汉字当做表音文本来记录朝鲜语[33]。直到1443年,当时朝鲜王朝的世宗大王李祹发明了谚文,并在1446年颁布《训民正音》,使得整个朝鲜半岛从此开始使用谚文记录韩语。
衍生文本
汉字是世界上最主要的基础文本之一。在汉字的影响下,产生了许多文本。
契丹文、女真文、西夏文的创制受到了汉字的影响,它们跟汉字一样都是方块型文本,笔画形状也极其类似,其中契丹文、女真文也采用类似六书的造字法,西夏文则不采用六书造字法。但这些文本除个别字与汉字外形相同外,绝大部分字形都跟汉字不同,因此在Unicode中它们都是独立区块编码的。
古壮字(方块壮字)、古白字(方块白字)、古布依字(方块布依字)、字喃等文本可以说是汉字在其他语言中的扩充,因为它们很大一部分本身就是汉字(赋予新义),另一些则是用已有汉字偏旁组合构成新字,因此,这些文本的外观上与汉字很相似,在Unicode中与汉字一道编入汉字区。
女书是用于记录汉语的另一种文本,它们的造字法与六书有部分相似之处,但字的外观与汉字差异较大,Unicode中作为独立区块编码。
以上文本有些因各种原因而消亡,如今除专家学者外无几人能识。
日语的假名()是由汉字的草体、简笔演变而成的。朝鲜半岛使用的谚文在创制时深受汉字影响[34]。谚文和日语假名一样可以和汉字一同混写。
此外如蒙古文、满文、锡伯文等也是在汉字书写方式和书写工具的影响下,将从右向左书写的源自察合台文的书写方式改为从上到下书写,文本的结构也随之有所变化。
汉字文化圈
汉字是承载文化的重要工具,目前留有大量用汉字书写的典籍。不同的方言、甚至语言都使用汉字作为共同书写体系。在古代日本、朝鲜半岛、越南、琉球群岛,以及位于婆罗洲的兰芳共和国,汉字都曾是该国正式文书的唯一系统,因而汉字在历史上对文明的传播分享有着重要作用。
由于汉字和发声的联系不是非常密切,比较容易被其他民族所借用,如日本、朝鲜半岛和越南都曾经有过不会说汉语,单纯用汉字书写的历史阶段。汉字的这个特点对于维系一个文化圈—一个充满各种互相不能交流的方言群体的民族——发挥了主要的作用。
汉字对周边国家的文化产生过巨大的影响,形成了一个共同使用汉字的汉字文化圈,在日本、越南和朝鲜半岛、琉球群岛,汉字被融合成它们语言的文本「」、「」、「」。直到现在,日语中仍然把汉字认为是书写体系的一部分。在朝鲜民主主义人民共和国和越南,已经完全不再使用汉字;在大韩民国,汉字的使用在近几十年来越来越少;但是由于朝鲜语/韩语中使用了大量的汉字词汇,并且重音现象严重,所以在需要严谨表达的场合(如法律条文)时仍然会使用汉字。虽然在通常情况下人名、公司机构名称等均使用韩文书写,不过大多数的人名、公司机构均有其对应的汉字名称。
日本
汉字于公元3世纪经朝鲜半岛辗转传入日本。二战后日本开始限制汉字的数量和使用,颁布了《当用汉字表》及《人名用字表》等,其中简化了部分汉字(日本新字体),不过文学创作使用的汉字,并不在限制之列。日本除从中文中传入的汉字外,还创造和简化了一些汉字,如「」(十字路口)、「」、「」(山道)和「」(广)、「」(转)、「」(劳动)等。
朝鲜半岛
公元3世纪左右,汉字传入了朝鲜半岛,朝鲜语/韩语曾经完全使用汉字来书写。相传薛聪在当时发明了吏读,把朝鲜语用同音或同义的汉字来表示。例如:「乙」字被用来表示韩语中的后缀「-l()」。由于有不少发音都没有对应的汉字,所以朝鲜半岛的人民又运用组字法,把两个或多个汉字合组成为一个新的吏读字。相传后来的契丹文就是受到吏读字的影响。此外尚有乡札、口诀等以汉字表记朝鲜语的方法。
1443年,朝鲜世宗大王颁布《训民正音》,发明了谚文与汉字一起使用,但当中有不少部件仍然有昔日吏读字的痕迹。现在的大韩民国虽禁止在正式场合下使用汉字,并停止了在中小学中教授汉字(但是从2011年开始,大韩民国的李明博政府已经决定将汉字重新纳入中小学的课程里),不过汉字在民间仍在继续使用,且可以按照个人习惯书写,但是现在能写一笔漂亮汉字的韩国人越来越少。朝鲜民主主义人民共和国于1948年废除了汉字,仅保留了十几个汉字(参见废除汉字)。
汉字民俗
汉人许多日常生活、民俗文化都与汉字有关,例如:


- 射虎:就是猜灯谜,也叫打灯虎,与汉字有着密切关系。旧时的射虎大致可以分成两类,一类是文人射虎,谜面深奥、谜格复杂多样、谜底多为四书五经中的原句;一类是市井灯谜,谜面谜底均很通俗。射虎是元宵节的一项重要活动。
- 字谜:猜字谜是一种汉字游戏,借由谜底来猜出一个或多个汉字,如「一点一横长,一撇到南洋,十字对十字,日头对月亮。(猜一字)」是猜「」字、「目字加两点,莫作字猜;字减两点,莫作目字猜。(猜二字)」是猜「、」二字。
- 合文:中国民间常将一些带有吉祥含义的短语合写为一个字,以祈求吉祥,常见的合文如「」、「囍」(双喜)、「」等。
- 谐音字:汉人喜欢利用汉字的同音特点用谐音字取吉祥之意,比如蝙蝠的「蝠」谐音为幸福的「福」,于是庙宇中常见石柱刻有蝙辐。而走兽的「兽」亦谐音为「寿」。
- 增减笔:在书法中为呈现不同结构会有「增笔」与「减笔」的情形[35],而有的书写者更因不同想法将汉字作增减笔,如写「䖝二」代表「风月无边」、「(爿圡)观」表示「壮观多一点」等。
- 九九消寒图:中国北方地区的一项民俗在每年数九的季节写下「」九个双钩字,这九个字每字九划,从冬至开始每天根据天气为一个笔画填充颜色,到数九结束完成全图。
- 花鸟字:一些民间艺人用一些花卉和禽鸟的图案拼写成汉字,近看细节是一些花鸟画,远看整体却是一幅字,这种字画结合的艺术形式被称作花鸟字,是一种多彩花鸟虫鱼组合书法。在中国,只有在春节庙会中,和一些节日集会中才可以看到。花鸟字在英美等西方国家也成为一种街头艺术。早期的鸟字画大多写的是一些吉祥话语,以祈求吉利,现在在庙会见到的鸟字画则以书写顾客的姓名为主,购买者的目的也由祈求吉祥逐渐转变为猎奇。
- 门联、春联:在纸张上书写文句贴在门楣、门柱构成「冂」,通常表达主人身分、文学心境。在过旧历新年时,则会在红色纸上书写门联,或是吉祥字如「春」、「福」、「满」、「山珍海味」等字贴在门、墙、米缸、冰箱等处。
- 题字、墨宝:在纸张、木石、器物上写字(书法)。一些匾额、招牌、建筑物题字的字体是向当代知名书法家邀字,或是从古今书法作品中选字制成。
- 测字:一种以求测者抽出汉字或写下汉字,再由相命者利用汉字的形、音、义、部件、增笔、减笔、拆合等,甚至凭据书写时的笔势、墨的浓淡、当时环境等因素作出命相的解释或论断吉凶。
- 拆字:汉人社会在说「姓氏」时常以拆字法说明,如「双木林」、「弓长张」等。说明一个单字时,也可用拆字法,如「ㄏㄨㄥˊ/hóng」有「江鸟鸿」、「宝盖宏」、「水共洪」等。
- 隐语:将欲指称人事物的字以隐讳的方式说出,通常是以拆开汉字的原则,如「丘八」是「兵」的隐语。因为隐讳,通常也是为了不脏话,如「贝戈戈」(贱)、「竹本口木子」(笨呆子」)等。
- 印章:汉人社会以印章签署公文书、契约之情形相当普遍,私章可代表个人签名,故极重视其防伪功能,常以汉字之特殊字体来增加仿冒难度。另外个人藏书章、词句章,也以不同汉字字体作出个人风格。
- 符咒:道教法术的一种,用黄纸或其他色纸,并通过一定的方法,书写画一些字或图案,常被认为具有驱邪的效果。其中多个汉字可以连字、合字,也可以将汉字拆开书写,不一而足。
- 正字计数:采用汉字「正」字表示计数符号,例如用在学校学生干部或公职候选人的选举计票。因为「正」字笔划为5划,易于算数统计;而且该字结构只有横线与直线,易于辨识,此计数方法普遍见于汉字文化圈。
汉字变化
造字
汉字历史上是不断在组新字的,目前的各种汉字并非同时定型于某一年代,而是应时代需要逐渐发展而来的。例如:“人”字在商朝就已出现,“凹”字和“凸”字则是在唐朝才出现的。
拉丁化
自十九世纪中叶后,亚洲和西方都发布了很多汉字拉丁化方案,如:
- 威妥玛拼音(1867年)
- 法国远东学院拼音(1902年)
- 邮政式拼音(1906年)
- 德式拼音(1911年)
- 国语罗马字(1928年)
- 拉丁化新文本(1931年)
- 耶鲁拼音(1943年)
- 捷克拼音(1951年)
- 汉语拼音方案(1958年)
- 国语注音符号第二式(1984年)
- 粤语拼音(1993年)
- 通用拼音(1998年)
现在,汉语拼音方案是使用最广且被国际上广泛接受的汉字拉丁化方案,同时也是被联合国接受的汉字拉丁化方案。而威妥玛拼音历史悠久,至今仍用于中华民国(台湾)的人名、地名拼写。不过随着汉语拼音在国际上的普及,现在使用频率正在大幅度的减少。2008年9月16日,中华民国行政院跨部会议通过提案,放弃此前使用通用拼音的政策,改采汉语拼音为译音标准,并从2009年1月1日起实施[36][37][38],但旧护照姓名和部分地名、道路名称仍采用威妥玛拼音、邮政式拼音、国语罗马字、国音二式抑或通用拼音[39]。
异体字整理
汉字中存在许多异体字,它们的意义和读音完全相同,只是写法不同。异体字的产生部分是由于历史原因,有的则是人为造字,如「和、、」、「秋、、龝、𥤛」等。
台湾也有使用所谓的异体字,例如“”与“”、“”与“”以及“”与“”等等。
中国大陆于1956年公布整理异体字表,废除了大量异体字,但后来因为各种原因恢复了部分异体字。如“”曾被当作“”的异体字废除掉,但因为姓氏中「」和「」同时存在,不宜混为一谈,所以在1988年发表的《现代汉语通用字表》中又恢复成为规范字。另外,不同地区对异体字的取舍有所不同,例如韩国就以汉字各种异体字中最早出现的样式为标准写法。所以,在韩语汉字的标准中,取“甛”而不取“甜”、取“”而不取“”、取“”而不取“”。
计算机处理
由于英文文本是由26个字母排列组合而成的文本,因此可以简化输入步骤;相比较之下汉字则不能如此,从字形上汉字虽然可以拆解成不同的部分,但是被分成的部首或偏旁数量过多,这样不但不能达到简化输入的目的,反而显得更为繁琐。于是从汉字字音上去考虑,汉字输入被分成少量的语音元素组合排列,反而可以达到简化输入的步骤。因为是语音输入对汉字的读音必须清楚,某些生僻字或不知道汉字发音的则会很困难,这在一定程度上限制了汉字的输入。
由于打字机键盘是为欧美文本设计的,在设计时本身没有考虑汉字输入的问题,输入汉字往往比输入拼音文本困难。汉字没有经过中文打字机的普及,直接进入了电脑中文信息处理阶段。在电脑发明初期曾引起汉字能否适应电脑时代的问题,支持汉字拉丁化的学者甚至以此为理据。
随着各种中文输入法的出现,汉字的计算机输入、存储、输出技术得到了基本解决,大大提高了中文写作、出版、信息检索等的效率。目前中文输入法有上千种之多,主要包括表音输入和表形输入两类,也有两者兼之的。汉字的语音输入、手写识别和光学字符识别(OCR)技术也已得到广泛应用。
如收录数千字的GB 2312(中国大陆)、Big5及CNS 11643(台湾)、HKSCS(香港)、JIS(日本)、KS X 1001(韩国)、KPS 9566(朝鲜),以及收录两万多字的GBK(中国大陆)、国际标准Unicode、ISO 10646等等。在这个过程中,因为技术及其他种种因素,在收录字数,及收录字体等方面或做不同层次的调整。
中国政府为了解决邮政户籍整理等的用字需要,于2000年实行了一个新的汉字编码的国家标准《汉字编码字符集-基本集的扩充》GB 18030-2000,共收汉字27484个。后又发布了GB 18030-2005再次进行扩充,添加了42760个汉字。
汉字编码

为进行信息交换,各汉字使用地区都制订了一系列汉字字符集标准。
- 国标码在中国大陆使用。GB 2312收录6763个汉字,GBK收录20912个汉字,最新的GB 18030-2005收录70244字(其中包括大量的东亚文本)。中国大陆官方要求在中国大陆出售的软件必须支持GB 18030编码。
- Big5码。收录13053个汉字。在台湾、港澳地区使用的一字节或两字节编码。
- Unicode:在国际通信化和软件设计领域,中日韩统一表意文本编码收集了汉语、日语、朝鲜语/韩语中的汉字集。
- 宋体-方正超大字符集。2002年由微软开发,包含GB18030-2000字符集、CJK Ext-B中的36862个汉字,共计64395个汉字[40]。并提供了增强型区位码输入法[41]。宋体-方正超大字符集支持这个字符集的显示。
动态造字
随着计算机技术的不断发展,汉字的输入方式越来越多样化、速度越来越快,并且这项技术仍在不断提高。
经过数十年的研究,很多人研究出动态造字这新兴技术,即借由信息技术重新解放汉字原有的生命力:任何汉字都可以由基本的百来个字根(也就是汉字的字母)以二维编码的方式即时合成为汉字。
随着新的科学技术的爆炸性进步与发展,在一个语言正常发展的情况下,描绘新发现的情状的词汇也会不断发展。比如英文,其词汇数量即不断地发展、增长,但英文词汇也越来越多,很多词汇也越来越难记,甚至某些词汇已成为专业人士的专利,普通人难以触及;而反观中文,任何一个抽象的英文词汇都可以借助常用汉字轻松的转换为中文词,大部份民众只要晓得常用汉字,基本可以阅读科普书籍。由于汉字是表意文本,因此很多科学术语通过形象的汉字,可以让外行人一眼就能看出其所表达的意思。
汉字词汇更新的实例
在化学领域,尤其需要大量描绘微世界的新词,因此化学学科汉字更新的情况最为显著。 化学名词曾用了“形声、会意造字法”,造了一系列的新字,很多是将两个字的字根组合,以表示新的意义的字,其发音也是原来两字发音之组合(反切法)。例如:
- 「烃」(tīng):碳(t-)、氢(-īng)
- 「羰」(tāng):碳(t-)、氧(-ang)
- 「巯」(qiú):氢(q-)、硫(-iú)
- 「羟」(qiǎng):氢(q-)、氧(-ǎng)
- “烷”、“烯”、“炔”:则为“形声兼会意”字,声旁分别取自「完」、「稀」、「缺」,并且用来表示其不同程度的饱和状态。
繁简体汉字的比较
- 繁体字:由中国自古承袭演变的文本,优点是单一字内含意深远,缺点则是笔画较多,标准写法的书体书写速度较慢。
- 简化字:相对于传统汉字,是简化程度比较大的,废除且合并了很多字,也简并了很多的部件,优点是书写容易、快速,缺点是有时难以精密用字,辨识困难,导致同义词增多,例如:「」,一般理解成「」,另一种则为「」,且比起繁体字较失美观,因此在写书法时通常仍使用繁体字。
除了中国使用的简化字外,日本与韩国也分别对汉字进行了简化。在台湾,官方用字或正式文书必须使用正体字;在手写的非正式文书中,有些人会使用行书、草书或民间的俗写,例如:「」()、「」()、「」();但是,不会使用简化字中较难辨识字意的合并字,例如:「」()、「」()、「」()、「」()、「」()、「」()、「」()、「」(),皆不简化。
注释
参考文献
引用
- (PDF). [2009-11-19]. (原始内容存档 (PDF)于2007-01-08).
- (PDF). [2009-11-19]. (原始内容存档 (PDF)于2007-01-08).
- (PDF). [2009-11-19]. (原始内容 (PDF)存档于2015-06-25).
- (PDF). [2009-11-19]. (原始内容存档 (PDF)于2010-03-26).
- (PDF). [2012-03-19]. (原始内容存档 (PDF)于2012-02-27).
- (PDF). [2015-07-13]. (原始内容存档 (PDF)于2015-06-25).
- (PDF). [2009-11-19]. (原始内容存档 (PDF)于2007-01-13).
- (PDF). [2009-11-19]. (原始内容存档 (PDF)于2007-03-15).
- (PDF). [2009-11-19]. (原始内容存档 (PDF)于2014-09-25).
- (PDF). [2009-11-19]. (原始内容存档 (PDF)于2014-09-25).
- (PDF). [2009-11-19]. (原始内容存档 (PDF)于2021-01-31).
- Sawndip Sawdenj (古壮字字典; [Dictionary of Ancient Zhuang Characters]), Guangxi Ethnicities Publishing (广西民族出版社), 1989. ISBN 978-7-5363-0614-1.
- World Health Organization. . Manila: WHO Regional Office for the Western Pacific. 2007 [29 January 2020]. hdl:10665/206952. (原始内容存档于2022-01-19) (英语).
- Potowski, Kim.
. Cambridge: Cambridge University Press. 2010: 82. ISBN 978-0-521-74533-8 (英语).
- Defrancis (1990); 蒋为文 (2005), (2007)
- 俞伟超〈丁公陶文是已亡佚的东夷文本〉,收录于俞伟超《古史的考古学探索》,中国和平出版社,2002年。
- 冯时《古文本与古史新论》,台湾书房,2007年。
- 李象润、李浴洋《东夷契刻:中国书法的原生态——直插中华汉字根底基因的哲理对话》
- 陈望衡《迈入文明的大门:龙山文化的审美解读》
- . [2009-07-14]. (原始内容存档于2021-03-20).
- 春秋战国纷争和民族融合普通高中标准实验教科书《历史》必修一、必修三,人民教育出版社。
- 林西莉 着,李之义 译:《汉字的故事》,猫头鹰出版社出版。ISBN 978-986-7415-89-9
- 亦有「」、「」、「」
- . [2022-07-18]. (原始内容存档于2022-11-07).
- 裘锡圭,《文本学概要》,1988年,商务印书馆
- 《汉字的故事》 林西莉着,李之义译,猫头鹰出版社出版。ISBN 978-986-7415-89-9
- . [2018-04-13]. (原始内容存档于2017-11-07).
- . [2020-06-13]. (原始内容存档于2021-04-09).
- . [2013-04-23]. (原始内容存档于2016-02-01).
- . [2009-09-15]. (原始内容存档于2021-04-03).
- . [2007-04-22]. (原始内容存档于2009-03-24).
- (PDF). [2015-06-06]. (原始内容 (PDF)存档于2016-03-05).
- 张均威. . [2021-07-01] (中文(繁体)).
- (PDF). [2023-11-05]. (原始内容存档 (PDF)于2024-01-20).
- . [2020-09-29]. (原始内容存档于2021-04-09).
- . 2016年8月23日 [2021年2月1日]. (原始内容存档于2019年10月29日) (英语).
- . [2021年2月1日]. (原始内容存档于2018年1月21日) (英语).
-
. 维基文库. 2008.
六、海外华语教学原则,除使用注音符号者外,涉及采用罗马拼音者,以采用汉语拼音为原则。七、其他中文译音,除国际通用或特定词、约定俗成者(如我国历史朝代、地名、传统习俗及文化名词)外,以汉语拼音为准。
- . 中央社. 2009-02-21 [2012-10-24]. (原始内容存档于2014-02-26) (中文(繁体)).
- . [2014-04-30]. (原始内容存档于2019-05-16).
- 尉迟治平,汤勤,论中文本符集、字库及输入法的研制. 语言研究 2006年9月第26卷 第3期
来源
- 《词语春秋》 李梵 着,中国档案出版社出版。“汉语文化畅谈丛书”之二。ISBN 978-7-80019-917-2
- 《汉字问题学术讨论会论文集》 语文出版社 1988年10月
- 《字里乾坤》 林成滔 着,中国档案出版社出版。“汉语文化畅谈丛书”之一。ISBN 978-7-80019-821-2
- 《汉字的故事》 林西莉 着,李之义 译,猫头鹰出版社出版。ISBN 978-986-7415-89-9
- 《中华印刷通史》
- 《河洛闽南语纵横谈》 吴在野 着,东大图书公司 出版。ISBN 978-957-19-2266-9
- 《谈人文与信息》谢清俊 着,中华民国数字典藏国家型科技计划 发行。ISBN 978-986-00-4856-8
- 《语言、认同与去殖民》 (页面存档备份,存于)蒋为文 着,国立成功大学2005年出版。ISBN 978-957-8845-85-5
- 《语言、文学kap台湾国家再想像》 (页面存档备份,存于) 蒋为文 着,国立成功大学2007年出版。ISBN 978-986-00-9746-7
- Defrancis, John 1990. The Chinese Language: Fact and Fantasy. (Taiwan edition). 台北:文鹤出版社。
- 付鼓. . . 美国: Smashwords. 2012-03-29 [2012-05-13]. ISBN 9781476058153. (原始内容存档于2022-11-08) (中文).
一,丨、丿、丶是基本的四个元音。
外部链接
![]() |
维基词典中的词条「」。 |
![]() |
维基共享资源中相关的多媒体资源:汉字 |
实用工具
- Chinese Etymology 字源 (页面存档备份,存于)
- 中华语文知识库 (页面存档备份,存于)
- 汉语多功能字库 (页面存档备份,存于)
- 汉典 (页面存档备份,存于)
- 汉字全息资源应用系统 (页面存档备份,存于)
- 中国哲学书电子化计划字典 (页面存档备份,存于)
- 古今文本 (页面存档备份,存于)
- 小学堂 (页面存档备份,存于)
- 教育部异体字字典 (页面存档备份,存于)
- 国际电脑汉字及异体字知识库 (页面存档备份,存于)
- 字形维基 (页面存档备份,存于)
- 字统网 (页面存档备份,存于)
- 缺字系统 (页面存档备份,存于)
- 汉字部件检索 (页面存档备份,存于)
- 国字标准字体笔顺学习网 (页面存档备份,存于)
- CJKV Dict 中日韩越辞典 (页面存档备份,存于)
常用字频率统计
- 港台及大陆现代汉语常用字频率统计 (页面存档备份,存于)
- 汉字单字频率列表 (页面存档备份,存于)
- 汉字分级标准检索系统 (页面存档备份,存于)
- 国小学童常用字词调查报告书 (页面存档备份,存于)
- 国语辞典简编本编辑数据字词频统计报告 (页面存档备份,存于)
- 常用国语词语调查报告 (页面存档备份,存于)
文章
- 汪德迈:〈中国表意文本的起源及其特征 (页面存档备份,存于)〉。
- 陈光宇:〈试论汉字起源定点与世界古文本溯源比较 (页面存档备份,存于)〉。
- 陈光宇:〈从甲骨文推测汉字起源与发展的模式 (页面存档备份,存于)〉。