导航:首页 > 源码编译 > 目前我国已经编译了多少汉字字符

目前我国已经编译了多少汉字字符

发布时间:2022-05-22 01:06:18

❶ 至今为止 中国的汉字一共有多少个

新华社近日公布了最新的统计信息,目前汉字的总数已经超过了8万,而常用的只有3500字。虽然常用字的数量没有多少变化,而字库总量却变大了,这是为什么呢? 中国汉字总量是多少,大家没有一个统一的说法。有“总汇汉字之大成”评价的《康熙字典》,在书后附有《补遗》,“尽收冷僻字,再附《备考》,又有音无义或音义全无之字”,收录的汉字是4万多个。1994年出版的《中华字海》收入了87019个汉字,而已经通过专家鉴定的北京国安咨询设备公司的汉字字库,收入有出处的汉字91251个,据称是目前全国最全的字库。与庞大的汉字库形成鲜明对照的是,历代日常书面语常用的不同的汉字数量一般都控制在三四千个。数量上并没有超过最初的文字甲骨文。国家在1988年公布的《现代汉语常用字表》选收了2500个常用字、1000个次常用字,总共只有3500字。 国家语言文字工作委员会语言文字应用研究所前副所长纪恒铨认为,一个国家的文字总量有增有减,但基本字的数量则比较固定。汉字有很多,可以分做很多层面。中国常用汉字有2500多个,只要掌握了它们,就可以熟练阅读现代汉语书面语了。《毛泽东选集》5卷本,使用的不同汉字也不超过2000多个。小学语文大纲规定学生应该认识3000个汉字,如果掌握了1800多个汉字,也就可以脱盲了。 纪恒铨说,文字是历史文化的载体,传达着一定的信息,不同社会阶段文字适用特点也不同。随着社会发展,一些文字就被逐渐淘汰了。从现代汉语角度,人们传情达意需要更简便的方式,“4万甚至9万多汉字,恐怕许多人一辈子也记不完。汉字中的生僻字很多,即使自己记住了,如果交流时对方不懂,还是没用”。许多生僻字就是这样逐渐被淘汰出常用字。 随着社会的发展,为了表现新的事物,语言也在发展,9万汉字的背后是社会生活的不断进步,由于中国文字积淀的历史长,这些字就构成了汉字库的主体,主要体现在包括国家编撰的《说文解字》、《康熙字典》、《汉语大字典》、《中华字海》的收字上。在语言文字本身的发展过程中,不可避免地还出现了大批的异体字和不规范字,就像孔乙己曾经坚持“茴”字有四种写法一样,汉字中的异体字是汉字家族日益壮大的一个重要原因。在50年代,国家曾经做过一个异体字整理表,然而工作还未结束,随着汉语拼音化方案的提出,这项工作没有进行到底。中国社会科学院研究生院语言系教授晁继周先生这样解释。 据中国社会科学院语言研究所研究员、参与了《新华字典》和《现代汉语词典》编纂工作的刘庆隆先生介绍,做这样一个大的字库收集整理工作,不但备查备用,还可供国内两岸四地及国外进行汉字文本印刷、古籍整理和研究适用,而且为人名名录及证件制作、中国地图地名标注提供了水平很高的字库工具。90年代初,国家制作过一个包含20902个字的国家标准字库表,但在使用过程中发现这个字表还远远不够使用,目前补充工作还在开展中。 整理汉字库的原因,刘庆隆认为一是适应国际上要求建立国际字标的需要,做成一个国际通用的字库以方便国际文字的交流,目前国际ISO国标委员会正在收集各国文字;二是适应计算机输入法的发展、扩大计算机字库的需要。目前信息产业部的计算机标准化研究所也正在进行汉字字库的统计整理工作,已经整理出来近7万字;第三,汉字发展过程中的字体变形使得一些字看起来已经不像汉字,需要整理以便统一。 http://www.kanhan.com/webpage/chi/news.php?news=35 参考资料:http://..com/question/6991915.html?si=10
采纳哦

❷ 中国汉字总共有多少个

汉字的数量并没有准确数字,大约将近十万个(北京国安咨询设备公司汉字字库收入有出处汉字91251个),日常所使用的汉字只有几千字。据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字时已到99%,简体与繁体的统计结果相差不大。历史上出现过的汉字总数有8万多(也有6万多的说法),其中多数为异体字和罕用字。绝大多数异体字和罕用字已自然消亡或被规范掉,除古文之外一般只在人名、地名中偶尔出现。此外,继第一批简化字后,还有一批“二简字”,已被废除,但仍有少数字在社会上流行。汉字数量的首次统计是汉朝许慎在《说文解字》中进行的,共收录9353字。其后,南朝时顾野王所撰的《玉篇》据记载共收16917字,在此基础上修订的《大广益会玉篇》则据说有22726字。此后收字较多的是宋朝官修的《类篇》,收字31319个;另一部宋朝官修的《集韵》中收字53525个,曾经是收字最多的一部书。另外有些字典收字也较多,如清朝的《康熙字典》收字47035个;日本的《大汉和字典》收字48902个,另有附录1062个;台湾的《中文大字典》收字49905个;《汉语大字典》收字54678个。20世纪已出版的字数最多的是《中华字海》,收字85000个。在汉字计算机编码标准中,目前最大的汉字编码是台湾的“国家标准”cns11643,目前(4.0)共收录可考证之繁简、日、韩语汉字共76,067个,但并不普及,只有在户政系统等少数环境使用。台港民间通用的大五码收录繁体汉字13053个。gb18030是中华人民共和国现时最新的内码字集,gbk收录简体、繁体及日语、韩语汉字20912个,而早期的gb2312收录简体汉字6763个。而unicode的中日韩统一表意文字基本字集则收录汉字20902个,另有两个扩展区,总数亦高达七万多字。初期的汉字系统字数不足,很多事物以通假字表示,使文字的表述存在较大歧义。为完善表述的明确性,汉字经历了逐步复杂、字数大量增加的阶段。汉字数量的过度增加又引发了汉字学习的困难,单一汉字能表示的意义有限,于是有许多单一的汉语意义是用汉语词语表示,例如常见的双字词。目前汉语书写的发展多朝向造新词而非造新字。

❸ 中国的汉字一共有多少个

汉字的数量并没有准确数字,大约将近十万个,日常所使用的汉字只有几千字。

据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字则已到99%,简体与繁体的统计结果相差不大。

汉字的数量在随着历史发展有着不同的变化:

秦代的《仓颉》、《博学》、《爰历》三篇共有3300字;

汉代扬雄作《训纂篇》有5340字,到许慎作《说文解字》就有9353字了。

(3)目前我国已经编译了多少汉字字符扩展阅读:

我国文字从古代的象形文字发展到今天的汉字,中间是经过多次变化和改革的;但是历代的改革几乎都是兼收并蓄的,以致使汉字越积越多。

当前我国文字之多是非常惊人的,比较常用的《新华字典》就有10000多个汉字;1990年出版的《辞海》有14872个汉字;

1716年编撰的《康熙字典》有47035个汉字;郭沫若生前曾根据日本朋友的估计,我国大约有60000多个汉字。

❹ 中国现在有多少个汉字

常用字有7000个左右,共有汉字90000多个。 <目前最全的汉字字库显示我国有出处汉字九万多个> 新华社 据日前通过专家鉴定的北京国安资讯设备公司汉字字库,收入有出处的汉字91251个。专家 说,这是目前收入汉字最全的字库。 据了解,在国安字库问世前,收入汉字最多的为1994年出版的《中华字海》,共收汉字8701 9个,其中重复字320个。国安字库除包括国家和国际标准的全部字符集汉字外,还涵盖了《 说文解字》全部楷定字及《康熙字典》、《汉语大字典》、《中华字海》的全部收字,并覆 盖80年代台湾教育部门整理的全部汉字。同时还专门收集了上述字集、字典、字书所不能包 括的古今姓氏、地名用字。专家们认为,国安字库不仅可供国内两岸四地及国外进行汉字文 本印刷、古籍整理、辞书编写、汉字整理和研究使用,而且为人名名录及证件制作、中国地 图地名标注提供了水平很高的字库工具。

❺ 中国的汉字有多少有没有个确切的数目汉字是哪个发明的现在还会有增加或减少吗

常用字有7000个左右,共有汉字90000多个。
<目前最全的汉字字库显示我国有出处汉字九万多个>
新华社

据日前通过专家鉴定的北京国安资讯设备公司汉字字库,收入有出处的汉字91251个。专家 说,这是目前收入汉字最全的字库。

据了解,在国安字库问世前,收入汉字最多的为1994年出版的《中华字海》,共收汉字8701 9个,其中重复字320个。国安字库除包括国家和国际标准的全部字符集汉字外,还涵盖了《 说文解字》全部楷定字及《康熙字典》、《汉语大字典》(收字54678个,这是目前收字最多的字典)、《中华字海》的全部收字,并覆 盖80年代台湾教育部门整理的全部汉字。同时还专门收集了上述字集、字典、字书所不能包 括的古今姓氏、地名用字。专家们认为,国安字库不仅可供国内两岸四地及国外进行汉字文 本印刷、古籍整理、辞书编写、汉字整理和研究使用,而且为人名名录及证件制作、中国地 图地名标注提供了水平很高的字库工具。

❻ GB2312-80国家标准字符集共有汉字多少个

GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个
GB2312或GB2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集--基本集》,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于大陆;新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB2312。GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄罗斯语西里尔字母在内的682个全角字符。

❼ 有多少字啊

从古老的象形文字到今天的中国文字,中间的文字是几个变化和改革的结果;古老的改革几乎都是兼收并蓄,导致汉字堆积。的文字是非常令人担忧的是许多更常见的“新华字典”,有超过10,000个中文字符;在1990年出版的“辞海”,14,872字符,“康熙字典”,编译于1716年,47,035个字符,郭据估计根据日本朋友约超过60,000个字符的字海“,发表在1994年,中国有87,019个字符(包括重复320字)近日宣布,根据北京国安队信息设备公司汉字库适用于中国21,303个字符,包括国家标准的中文字符,6699个字符,我们过去和现在的近1200个姓氏,村两级地名特殊的字;两个适用中国文字的起源91251中国文字的收入总额。 36,581个中文字符,包括古代和现代的权威词典多,充满了汉字和十三经,二十四史,古代字书的三个备用33,367中国字,包括孤儿字,异形字义,音,义字等不详细。还不是自制文件“词典”中,有个字符,包括非官方的,围绕当地的历史,名人笔记杂书,草,李香不同写法的异体字,同义字。 147个字符。据估计,约10万;中国实际的字符,估计也超过12万,中国到底有多少中国文字仍没有定论
阿尔法
Alpha

❽ 中国推出几个汉字编码字符集

推出了6个符集。

❾ 中国汉语里一共有多少个汉字

常用字有7000个左右,共有汉字90000多个。 <目前最全的汉字字库显示我国有出处汉字九万多个> 新华社 据日前通过专家鉴定的北京国安资讯设备公司汉字字库,收入有出处的汉字91251个。专家 说,这是目前收入汉字最全的字库。 据了解,在国安字库问世前,收入汉字最多的为1994年出版的《中华字海》,共收汉字8701 9个,其中重复字320个。国安字库除包括国家和国际标准的全部字符集汉字外,还涵盖了《 说文解字》全部楷定字及《康熙字典》、《汉语大字典》、《中华字海》的全部收字,并覆 盖80年代台湾教育部门整理的全部汉字。同时还专门收集了上述字集、字典、字书所不能包 括的古今姓氏、地名用字。专家们认为,国安字库不仅可供国内两岸四地及国外进行汉字文 本印刷、古籍整理、辞书编写、汉字整理和研究使用,而且为人名名录及证件制作、中国地 图地名标注提供了水平很高的字库工具。 发言时间: 12-6 12:38 2个 发言时间: 12-6 12:37 我国文字从古代的象形文字发展到今天的汉字,中间是经过多次变化和改革的;但是历代的改革几乎都是兼收并蓄的,以致使汉字越积越多。当前我国文字之多是非常惊人的,比较常用的《新华字典》就有10000多个汉字;1990年出版的《辞海》有14872个汉字;1716年编撰的《康熙字典》有47035个汉字;郭沫若生前曾根据日本朋友的估计,我国大约有60000多个汉字;1994年出版的《中华字海》有87019个汉字(其中重复字320个);近来,根据北京国安资讯设备公司汉字库公布,共收入有出处的汉字91251个汉字。其中一级适用汉字21303个,包括国家标准提出的汉字、我国古今近1200个姓氏6699个汉字和当前乡村一级的地名专用字;二级适用汉字36581个,包括古今权威字典中音、义具全的汉字和十三经、二十四史等的古籍用字;三级备用汉字33367个,包括罕用字、异形字、音义未详字等。尚不包括杂书野史和各地地方志、名人笔记等自造汉字;还有正、草、隶、篆不同写法的异体字、同义字等。单据《说文解字》中就有别体字147个。有人估计实际汉字约在10万个以上;也有人估计在120000个以上;我国究竟有多少汉字至今尚没有定论。 发言时间: 12-6 12:39 现代汉字总数八万多 专家指出常用仅为三千五 现代汉语常用字指在日常语体的现代汉语书面语中使用频率高的字。历代积累的汉字总数以万计。近年出版的汉字字典收字总数从五万多上升到八万多,但历代日常书面语常用的不同的汉字数量一般都控制在三四千个。选取当代的常用字作为学习和使用汉字的重点,是历代历朝整理和教学汉字的一个重要内容。历史上的《三字经》《千字文》都是用当时的常用字编成的识字课本。 现代汉语用字也符合这一规律。据统计,叶圣陶的小说《倪焕之》,全书138330字,只用了3039个不同的汉字;老舍的小说《骆驼祥子》,全书107360字,只用了2413个不同的汉字;《毛泽东选集》(1~4卷)全书659928字,只用了2981个不同的汉字。可见,使用频率高的常用字是客观存在的。它们是学习和使用汉字时应该关注的重点。 现代常用字的研究和选取工作,较有影响的有:1928年陈鹤琴编制的《语体文应用字汇》,收4261字;1952年中央人民政府教育部公布的《常用字表》,收2000字(分为1500个常用字和500个补充常用字)。考虑到《常用字表》公布已有30多年,社会用字的情况发生了许多变化,为了适应当前语文教学、词书编纂以及汉字机械处理和信息处理等各方面的需要,国家语言文字工作委员会组织力量从1986年起开始研制《现代汉语常用字表》,并于1988年1月26日由国家语言文字工作委员会和国家教育委员会联合发布。《现代汉语常用字表》选收了2500个常用字、1000个次常用字,共3500字 作为一种成熟的语言,它的文字应该是相对稳定的,不会发生特别明显的和频繁的变化,作为一种具有生机和活力的语言,它会不断适应社会发展的要求,进行相应的变化是正常的

❿ 现在有汉字多少个

汉字从商周时代的甲骨文演变到当代的方块形,已经历了数千年的漫长进程,是世界上使用历史最悠久、使用人口最多的文字。汉字的数量是随着时间的推移而不断增加的。西汉的《仓颉篇》仅有3300字;东汉的《说文解字》收录了9353字;清朝的《康煕字典》突破了47000字;现在的《汉语大字典》所收汉字高达54678个。各地小范围流通使用的地名、人名用字还有许多,如果全部收集起来,总数大约有9万。

尽管汉字的数量如此庞大,但常用汉字的数量是有限的。孙中山先生写《三民主义》,总字数约16万,仅用了2134个不同的字;《毛泽东选集》一至四卷,总字数超过66万,也只用了2981个不同的字;小说《骆驼祥子》,总字数达10万多,用到的汉字数为2413。郭沫若先生曾说过,汉字的数目大体上有五万多字的光景,这五万多字中绝大多数已经不使用了,目前一般知识分子日常所使用的大概有五、六千。也就是说绝大多数汉字仅在古籍资料中才能见到。

那么计算机能够输入多少汉字呢?这与它的系统软件和汉字库有关。汉字库通俗地说就是计算机软件系统中的汉字仓库,依据不同的标准,字库中汉字的数量是不同的。

近二十多年来,我国的中文信息交换和处理技术取得了突飞猛进的发展,从而使计算机的汉字库也变得越来越庞大。

一、1980年国标(GB)字库 6763字

从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,在数以亿计的浩瀚文献资料中,统计出不同的汉字数为6335个,其中3000多字的累计使用频度达到99.9%,而另外的3000多字累计频度不到0.1%,说明了常用汉字与次常用汉字的数量合起来不足7000个,这就为国家制定汉字库标准提供了依据。

1980年,国家标准总局颁布了国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,国家标准号为:GB2312-80,自1981年5月1日起实施,通行于大陆。新加坡等地也使用此编码。

GB2312收录7445个图形字符,其中汉字占6763个,还选入了682个非汉字字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。

GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,我们习惯上称第一个字节为“高字节”,第二个字节为“低字节”。

GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节。94个区中,01-09区为符号、数字区;16-87区为汉字区;10-15区、88-94区是有待进一步标准化的空白区。

GB2312将收录的汉字分成两级:第一级是常用汉字,计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字,计3008个,置于56-87区,按部首/笔画顺序排列。

GB-2312的实施,保证和满足了一般汉字处理技术的基本要求,从而奠定了中文信息处理的基础。它对于初创阶段电脑中文的应用和发展,功不可没。但经过实践,也暴露了不少问题:

1. 收字量过小。目前学术界认为汉字总数在六万左右,而它仅收了十分之一。该标准制定的主要依据是1956年公布的《汉字简化方案》和当时报刊的字频统计,它显然不符合21世纪今天的需要,也不能全面表达三千年文明史留下的大量文献,更不会为汉字文化圈其他国家和民族所认同。

2. 收字不合理。基本集中有不少稀见字,如“厍、茺、庹”等,在本已狭小的编码区间中白白占据了宝贵的位置。

3. 所收字形的标准也有失一律,如“仝、苎、雠”等。

4. 两级汉字库各收汉字3000有余,但其排列次序一级为拼音,二级为偏旁,并未采取一以贯之的排列方式,造成了人为的困难和混乱。

5. 在技术处理上,现已发现的差错有80处之多。当时,我国大陆各种中文DOS版本、Windows3.1/3.2版本,装入的字库都是国标一二级字库。正由于当时对汉字的实际需要量认识不足,在使用GB-2312的过程中常带来不少尴尬和混乱。如遇到“镕、啰、了、袆、祎、曌、赟、赟、鱻、骉、犇……”等汉字,既无法输入,又不能打印。特别是自从实行个人存款账户实名制后,便经常碰到打不出来的“失名户”。在高校招生实行计算机录取后,有相当一部分学生的名字在计算机里成了“黑三角”,影响了录取工作的进程。同样的现象也出现在户籍管理和测绘、古籍、辞书整理等方面。产生这些现象的根本原因是计算机中所装的6千多个汉字不够用。

二、1983年台湾BIG5字库13461字

1983年10月,台湾国家科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了《通用汉字标准交换码》,后经修订于1992年5月公布,更名为《中文标准交换码》,BIG5是台湾资讯工业策进会根据以上标准制定的编码方案,它通行于台湾、香港地区,是一个繁体字编码方案,虽存有一些瑕疵,但广泛应用于电脑行业,尤其是互联网中,从而成为一种事实上的行业标准。

BIG5码是双字节编码方案,共收录13461个汉字和符号,包括:

△符号408个。

△常用字5401个,包括台湾教育部颁布的《常用国字标准字体表》的全部汉字4808个,台湾教科书常用字587个,异体字6个。

△次常用字7652个,包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字6341个,《罕用国字标准字体表》中使用频率较高的字1311个。

三、1993年UCS统一的中日韩汉字20902字

随着汉字全面向信息化社会转型,随着计算机在各个领域的广泛应用,随着国际间的交流与合作的扩大,信息处理应用对字符集提出了多文种、大字量、多用途的要求。1993年,国际标准化组织ISO发布了一个编码标准,即Universal Multiple-Octet Coded Character Set(简称UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字符集》,它与Unicode编码完全兼容。ISO/IEC 10646.1-1993是该标准的第一部分《体系结构与基本多文种平面》。

嗣后,国家技术监督局发布了GB13000.1-93国家标准(1993年12月24日),对UCS以国家标准的形式予以认可,即GB13000.1等同于ISO 10646.1。该标准采用了全新的多文种编码体系,收录了20902个汉字,使编码空间扩大。同时还编制了《统一的中日韩汉字》,又称“CJK统一汉字”(C指中国,J指日本,K指韩国)。而其中的中国部分,包括了源自中国大陆的GB2312、GB12345、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的CNS11643标准中第1、2字面(基本等同于BIG-5编码)和第14字面的汉字和符号。

新的GB13000.1-93国家标准有以下几个特点:

1. 所收汉字数增加了近两倍,比较切实地反映了汉字应用的历史和现状,可以初步改善两岸书同文的要求。

2. 字符集一律采取了部首及部首外笔画的排列方式,比较妥善地绕开了大字符集注音的难题,并为汉字自然排序提供了一种比较可靠的科学方式。

3. 对汉字字形进行了一次跨国界、跨地区、跨历史的清理工作,采取客观和求同存异的原则,对汉字作了一次有意义的全面研究,并制定了一个两万多字的字表。

4. 释放了CO和CI两个平面,得到了大量的编码空间,可以允许中文及其他文种编码,编纂专业或专用的子字符集,扩充余地也大大增加。

新标准的诞生,是电脑中文取得突破性进展的里程碑。它不仅对我国计算机的发展产生深远的影响,也对汉字文化圈各国、各地区的文化交流和科技进步起到重大的作用,尤其在对汉字的视听识别和人工智能方面做出了贡献。它促进了汉字文化圈计算机信息的直接交换,也促进了软件的更新以及数据量的扩大,特别是沟通海峡两岸的计算机技术,有益于祖国的统一。

但是,新标准的建立,也使人们引起某些误解和疑虑,如:

1. 由于收入了许多《汉字简化方案》所规定的“废弃”字,产生了标准和方案相互矛盾的假象,往往被人们误以为是在变相地恢复繁体字。我们说,标准只是为了使用、交换和生产的便捷而约定的规则,它允许某些灵活性、宽容性、人为的约定性和使用的变通性,所以它不涉及对《汉字简化方案》的否定和对繁体字的肯定。

2. 近十年来,我国在编码输入法的开发上可以说是百花争艳、万“码”奔腾,但绝大多数都是建立在GB-2312基础上的。新标准字库建立后,自然需要新输入法的研究。众所周知,字库的增大,意味着编制输入码的难度要有平方和立方乘积的增长。

四、1995年GBK 1.0字库21886字

为了配合 UNICODE 的实施,全国信息技术标准化技术委员会于1995年12月1日制订了《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification。国家技术监督局标准化司、电子工业部科技与质量监督司于1995年12月15日联合以技监标函[1995]229号文件的形式,将它确定为技术规范指导性文件,并予以发布和实施。这一版的GBK规范为1.0版。GB即“国标”,K是“扩展”的汉语拼音第一个字母。GBK向下与GB2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡过程中的一个承上启下的标准。

GBK共收录了21886个汉字和图形符号,包括ISO 10646.1中的全部CJK汉字和符号,并有所补充。具体包括:

1. GB2312中的全部汉字、非汉字符号。

2. 与 ISO-10646 相应的国家标准GB13000.1中的其他CJK汉字。以上合计20902个国标化汉字。

3.《简化字总表》中未收入GB13000.1的52个汉字。

4.《康熙字典》及《辞海》中未收入GB13000.1的28个部首及重要构件。

5. 13个汉字结构符。

6. BIG-5中未被GB2312收入、但存在于GB13000.1中的139个图形符号。

7. GB12345增补的6个拼音符号。

8. 汉字“○”。

9. GB12345增补的19个竖排标点符号(GB12345较GB2312增补竖排标点符号29个,其中10个未被GB13000.1收入,故GBK亦不收)。

10. 从GB13000.1的CJK兼容区挑选出的21个汉字。

11. GB13000.1收入的31个IBMOS/2专用符号。

GBK亦采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间,剔除xx7F一条线。总计23940个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。

GBK 编码区分三部分,其中的汉字区包括:

△B0A1-F7FE, 收录 GB2312 汉字6763个,按原序排列;

△8140-A0FE,收录 GB13000.1中的CJK 汉字6080个;

△AA40-FEA0,收录 CJK 汉字和增补的汉字8160个。CJK汉字在前,按UCS代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。

微软公司自 Windows 95 简体中文版开始支持 GBK 代码,标准叫法是 Windows Codepage 936,也叫做 GBK(国标扩展),它是 8-bit 的变长编码。

GBK 从来没有成为正式的国家标准,只不过因为 Windows 的普及,它已经成为事实上的标准了。

GBK所收字数是GB2312的3倍,收集的汉字包含大部分的冷僻字、繁体字等,从而较好地解决了中文冷僻字问题,受到业界的广泛关注。

GBK的优点是与现行的GB2312内码体系兼容,保持系统兼容性,容易为用户所接受,而且是等长双字节代码,码长较短,通信、处理速度都比较快,占存储空间比较小,因此是GB2312-80的理想换代标准。

五、2000年GBK2.0字库27533字

2000年3月17日,信息产业部和国家质量技术监督局又发布了一项新的中文信息处理基础性国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,它是在原来的GB2312-80编码标准和GBK编码标准的基础上进行扩充,增加了四字节部分的编码。它可以完全映射ISO 10646的基本平面和所有辅助平面,共有150多万个码位。它在ISO 10646的基本平面内,在原来的2万多汉字的基础上,增加了7000多个汉字的码位和字形,从而使计算机可处理的汉字数量进一步从GB13000.1的20902个,再扩充到现在的27533个。GB18030与GB2312一脉相承,较好地解决了旧系统向新系统的转换问题,而且繁简字处于同一平台。

GB18030-2000是我国继GB2312-80和GB13000-1993之后的强制性汉字编码标准,是未来我国计算机系统必须遵循的基础性标准之一。它的主要目的是为了解决一些生、偏、难字的问题,以及适应出版、邮政、户政、金融、地理信息系统等迫切需要的人名、地名用字问题,也为汉字研究、古籍整理等领域提供了统一的信息平台基础,并且为中文信息在国际互联网上的传输与交换提供了保障。该标准还同时收录了藏、蒙、维吾尔等主要的少数民族文字,为推进少数民族的信息化奠定了坚实的基础。

文字标准是信息处理的基础,在大字符级的国际标准得到采用后,将解决两岸四地间GB码与BIG5码字码转换不便的状况,届时,大陆、香港、澳门和台湾将处于统一的文字平台,这将是我国电脑文字标准走向世界标准的重要步骤。

世界许多国家和地区从方便本国和本民族应用的角度出发,都制定了自己文字的编码标准并建立起相应的内码体系,如日本的JISX0208和JISX0212,韩国的KSC5601和KSC5657等,这是国际上的通行惯例。我国制定GB18030同样符合国际惯例,它可以充分利用已有资源,保证不同系统间的兼容,最大限度地共享资源,为我国软件产业留有巨大的发展空间。可以相信,GB18030的实施将有利于国产软件的发展并形成规模,使我国的中文信息技术再上一个台阶。

国家质量技术监督局宣布,GB18030(俗称GBK2.0)自2001年9月1日起替代原有的GB2312和GBK1.0,成为新的计算机汉字信息交换标准。所有信息技术产品的研制开发和生产,若不执行GB18030强制性标准,将依照国家有关规定进行惩处。

GB18030标准的建立,是二十年来电脑中文处理技术产生和发展的必然结果,也是电脑中文处理技术继续发展的新起点,它对中文电脑的完善和发展,影响至深至远。

GB18030标准的建立,为电脑中文的完善化,中文信息交换技术和中文软件的发展开辟了崭新的天地。

GB18030标准的建立,既表明了汉字有着光辉的历史、强大的生命力,是不容忽视的客观存在,也昭示着汉字还有极其美好的未来。汉字的生命力在于它的几千年一贯的稳定性,还在于它几千年来不间断的发展所表现的旺盛的生命力和凝聚力。我们通过一代人的努力,终于让汉字插上信息化的翅膀,使其飞得更高更远。电脑中文将促进和帮助中国的发展和统一,电脑中文必将走进现代世界。

目前,我国大部分计算机系统仍在采用GB2312编码。GB18030与GB2312一脉相承,较好地解决了旧系统向新系统的转换问题,并且改造成本较小。从我国信息技术和信息产业发展的角度出发,考虑到用户的需要及现有系统的兼容性和对多种操作系统的支持,采用GB18030是我国目前较好的选择,而GB13000.1更适用于未来国际间的信息交换。

阅读全文

与目前我国已经编译了多少汉字字符相关的资料

热点内容
汽车小压缩机拆解 浏览:825
云桌面卡是因为服务器的原因吗 浏览:377
qd123压缩机 浏览:969
pn532读取加密门禁卡 浏览:85
win10文件夹属性里无法加密 浏览:34
比特币加密的条件 浏览:848
求购现成影视app源码 浏览:572
wdsecurity加密版 浏览:813
云服务器和云丰云 浏览:188
服务器如何设置独立ip 浏览:857
tar命令打包文件夹 浏览:1000
删除linux用户和组 浏览:548
小米的程序员都用什么笔记本 浏览:703
字节三面算法题 浏览:971
服务器保护有什么好处 浏览:894
全部下载完后进行统一解压 浏览:393
远嫁的程序员妈妈 浏览:555
1024程序员节安全攻防挑战赛 浏览:786
怎么解除txt加密 浏览:772
javahttp流 浏览:656