導航:首頁 > 源碼編譯 > 目前我國已經編譯了多少漢字字元

目前我國已經編譯了多少漢字字元

發布時間:2022-05-22 01:06:18

❶ 至今為止 中國的漢字一共有多少個

新華社近日公布了最新的統計信息,目前漢字的總數已經超過了8萬,而常用的只有3500字。雖然常用字的數量沒有多少變化,而字型檔總量卻變大了,這是為什麼呢? 中國漢字總量是多少,大家沒有一個統一的說法。有「總匯漢字之大成」評價的《康熙字典》,在書後附有《補遺》,「盡收冷僻字,再附《備考》,又有音無義或音義全無之字」,收錄的漢字是4萬多個。1994年出版的《中華字海》收入了87019個漢字,而已經通過專家鑒定的北京國安咨詢設備公司的漢字字型檔,收入有出處的漢字91251個,據稱是目前全國最全的字型檔。與龐大的漢字型檔形成鮮明對照的是,歷代日常書面語常用的不同的漢字數量一般都控制在三四千個。數量上並沒有超過最初的文字甲骨文。國家在1988年公布的《現代漢語常用字表》選收了2500個常用字、1000個次常用字,總共只有3500字。 國家語言文字工作委員會語言文字應用研究所前副所長紀恆銓認為,一個國家的文字總量有增有減,但基本字的數量則比較固定。漢字有很多,可以分做很多層面。中國常用漢字有2500多個,只要掌握了它們,就可以熟練閱讀現代漢語書面語了。《毛澤東選集》5卷本,使用的不同漢字也不超過2000多個。小學語文大綱規定學生應該認識3000個漢字,如果掌握了1800多個漢字,也就可以脫盲了。 紀恆銓說,文字是歷史文化的載體,傳達著一定的信息,不同社會階段文字適用特點也不同。隨著社會發展,一些文字就被逐漸淘汰了。從現代漢語角度,人們傳情達意需要更簡便的方式,「4萬甚至9萬多漢字,恐怕許多人一輩子也記不完。漢字中的生僻字很多,即使自己記住了,如果交流時對方不懂,還是沒用」。許多生僻字就是這樣逐漸被淘汰出常用字。 隨著社會的發展,為了表現新的事物,語言也在發展,9萬漢字的背後是社會生活的不斷進步,由於中國文字積淀的歷史長,這些字就構成了漢字型檔的主體,主要體現在包括國家編撰的《說文解字》、《康熙字典》、《漢語大字典》、《中華字海》的收字上。在語言文字本身的發展過程中,不可避免地還出現了大批的異體字和不規範字,就像孔乙己曾經堅持「茴」字有四種寫法一樣,漢字中的異體字是漢字家族日益壯大的一個重要原因。在50年代,國家曾經做過一個異體字整理表,然而工作還未結束,隨著漢語拼音化方案的提出,這項工作沒有進行到底。中國社會科學院研究生院語言系教授晁繼周先生這樣解釋。 據中國社會科學院語言研究所研究員、參與了《新華字典》和《現代漢語詞典》編纂工作的劉慶隆先生介紹,做這樣一個大的字型檔收集整理工作,不但備查備用,還可供國內兩岸四地及國外進行漢字文本印刷、古籍整理和研究適用,而且為人名名錄及證件製作、中國地圖地名標注提供了水平很高的字型檔工具。90年代初,國家製作過一個包含20902個字的國家標准字型檔表,但在使用過程中發現這個字表還遠遠不夠使用,目前補充工作還在開展中。 整理漢字型檔的原因,劉慶隆認為一是適應國際上要求建立國際字標的需要,做成一個國際通用的字型檔以方便國際文字的交流,目前國際ISO國標委員會正在收集各國文字;二是適應計算機輸入法的發展、擴大計算機字型檔的需要。目前信息產業部的計算機標准化研究所也正在進行漢字字型檔的統計整理工作,已經整理出來近7萬字;第三,漢字發展過程中的字體變形使得一些字看起來已經不像漢字,需要整理以便統一。 http://www.kanhan.com/webpage/chi/news.php?news=35 參考資料:http://..com/question/6991915.html?si=10
採納哦

❷ 中國漢字總共有多少個

漢字的數量並沒有準確數字,大約將近十萬個(北京國安咨詢設備公司漢字字型檔收入有出處漢字91251個),日常所使用的漢字只有幾千字。據統計,1000個常用字能覆蓋約92%的書面資料,2000字可覆蓋98%以上,3000字時已到99%,簡體與繁體的統計結果相差不大。歷史上出現過的漢字總數有8萬多(也有6萬多的說法),其中多數為異體字和罕用字。絕大多數異體字和罕用字已自然消亡或被規范掉,除古文之外一般只在人名、地名中偶爾出現。此外,繼第一批簡化字後,還有一批「二簡字」,已被廢除,但仍有少數字在社會上流行。漢字數量的首次統計是漢朝許慎在《說文解字》中進行的,共收錄9353字。其後,南朝時顧野王所撰的《玉篇》據記載共收16917字,在此基礎上修訂的《大廣益會玉篇》則據說有22726字。此後收字較多的是宋朝官修的《類篇》,收字31319個;另一部宋朝官修的《集韻》中收字53525個,曾經是收字最多的一部書。另外有些字典收字也較多,如清朝的《康熙字典》收字47035個;日本的《大漢和字典》收字48902個,另有附錄1062個;台灣的《中文大字典》收字49905個;《漢語大字典》收字54678個。20世紀已出版的字數最多的是《中華字海》,收字85000個。在漢字計算機編碼標准中,目前最大的漢字編碼是台灣的「國家標准」cns11643,目前(4.0)共收錄可考證之繁簡、日、韓語漢字共76,067個,但並不普及,只有在戶政系統等少數環境使用。台港民間通用的大五碼收錄繁體漢字13053個。gb18030是中華人民共和國現時最新的內碼字集,gbk收錄簡體、繁體及日語、韓語漢字20912個,而早期的gb2312收錄簡體漢字6763個。而unicode的中日韓統一表意文字基本字集則收錄漢字20902個,另有兩個擴展區,總數亦高達七萬多字。初期的漢字系統字數不足,很多事物以通假字表示,使文字的表述存在較大歧義。為完善表述的明確性,漢字經歷了逐步復雜、字數大量增加的階段。漢字數量的過度增加又引發了漢字學習的困難,單一漢字能表示的意義有限,於是有許多單一的漢語意義是用漢語詞語表示,例如常見的雙字詞。目前漢語書寫的發展多朝向造新詞而非造新字。

❸ 中國的漢字一共有多少個

漢字的數量並沒有準確數字,大約將近十萬個,日常所使用的漢字只有幾千字。

據統計,1000個常用字能覆蓋約92%的書面資料,2000字可覆蓋98%以上,3000字則已到99%,簡體與繁體的統計結果相差不大。

漢字的數量在隨著歷史發展有著不同的變化:

秦代的《倉頡》、《博學》、《爰歷》三篇共有3300字;

漢代揚雄作《訓纂篇》有5340字,到許慎作《說文解字》就有9353字了。

(3)目前我國已經編譯了多少漢字字元擴展閱讀:

我國文字從古代的象形文字發展到今天的漢字,中間是經過多次變化和改革的;但是歷代的改革幾乎都是兼收並蓄的,以致使漢字越積越多。

當前我國文字之多是非常驚人的,比較常用的《新華字典》就有10000多個漢字;1990年出版的《辭海》有14872個漢字;

1716年編撰的《康熙字典》有47035個漢字;郭沫若生前曾根據日本朋友的估計,我國大約有60000多個漢字。

❹ 中國現在有多少個漢字

常用字有7000個左右,共有漢字90000多個。 <目前最全的漢字字型檔顯示我國有出處漢字九萬多個> 新華社 據日前通過專家鑒定的北京國安資訊設備公司漢字字型檔,收入有出處的漢字91251個。專家 說,這是目前收入漢字最全的字型檔。 據了解,在國安字型檔問世前,收入漢字最多的為1994年出版的《中華字海》,共收漢字8701 9個,其中重復字320個。國安字型檔除包括國家和國際標準的全部字元集漢字外,還涵蓋了《 說文解字》全部楷定字及《康熙字典》、《漢語大字典》、《中華字海》的全部收字,並覆 蓋80年代台灣教育部門整理的全部漢字。同時還專門收集了上述字集、字典、字書所不能包 括的古今姓氏、地名用字。專家們認為,國安字型檔不僅可供國內兩岸四地及國外進行漢字文 本印刷、古籍整理、辭書編寫、漢字整理和研究使用,而且為人名名錄及證件製作、中國地 圖地名標注提供了水平很高的字型檔工具。

❺ 中國的漢字有多少有沒有個確切的數目漢字是哪個發明的現在還會有增加或減少嗎

常用字有7000個左右,共有漢字90000多個。
<目前最全的漢字字型檔顯示我國有出處漢字九萬多個>
新華社

據日前通過專家鑒定的北京國安資訊設備公司漢字字型檔,收入有出處的漢字91251個。專家 說,這是目前收入漢字最全的字型檔。

據了解,在國安字型檔問世前,收入漢字最多的為1994年出版的《中華字海》,共收漢字8701 9個,其中重復字320個。國安字型檔除包括國家和國際標準的全部字元集漢字外,還涵蓋了《 說文解字》全部楷定字及《康熙字典》、《漢語大字典》(收字54678個,這是目前收字最多的字典)、《中華字海》的全部收字,並覆 蓋80年代台灣教育部門整理的全部漢字。同時還專門收集了上述字集、字典、字書所不能包 括的古今姓氏、地名用字。專家們認為,國安字型檔不僅可供國內兩岸四地及國外進行漢字文 本印刷、古籍整理、辭書編寫、漢字整理和研究使用,而且為人名名錄及證件製作、中國地 圖地名標注提供了水平很高的字型檔工具。

❻ GB2312-80國家標准字元集共有漢字多少個

GB2312標准共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個
GB2312或GB2312-80是一個簡體中文字元集的中國國家標准,全稱為《信息交換用漢字編碼字元集--基本集》,由中國國家標准總局發布,1981年5月1日實施。GB2312編碼通行於大陸;新加坡等地也採用此編碼。幾乎所有的中文系統和國際化的軟體都支持GB2312。GB2312標准共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時,GB2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄羅斯語西里爾字母在內的682個全形字元。

❼ 有多少字啊

從古老的象形文字到今天的中國文字,中間的文字是幾個變化和改革的結果;古老的改革幾乎都是兼收並蓄,導致漢字堆積。的文字是非常令人擔憂的是許多更常見的「新華字典」,有超過10,000個中文字元;在1990年出版的「辭海」,14,872字元,「康熙字典」,編譯於1716年,47,035個字元,郭據估計根據日本朋友約超過60,000個字元的字海「,發表在1994年,中國有87,019個字元(包括重復320字)近日宣布,根據北京國安隊信息設備公司漢字型檔適用於中國21,303個字元,包括國家標準的中文字元,6699個字元,我們過去和現在的近1200個姓氏,村兩級地名特殊的字;兩個適用中國文字的起源91251中國文字的收入總額。 36,581個中文字元,包括古代和現代的權威詞典多,充滿了漢字和十三經,二十四史,古代字書的三個備用33,367中國字,包括孤兒字,異形字義,音,義字等不詳細。還不是自製文件「詞典」中,有個字元,包括非官方的,圍繞當地的歷史,名人筆記雜書,草,李香不同寫法的異體字,同義字。 147個字元。據估計,約10萬;中國實際的字元,估計也超過12萬,中國到底有多少中國文字仍沒有定論
阿爾法
Alpha

❽ 中國推出幾個漢字編碼字元集

推出了6個符集。

❾ 中國漢語里一共有多少個漢字

常用字有7000個左右,共有漢字90000多個。 <目前最全的漢字字型檔顯示我國有出處漢字九萬多個> 新華社 據日前通過專家鑒定的北京國安資訊設備公司漢字字型檔,收入有出處的漢字91251個。專家 說,這是目前收入漢字最全的字型檔。 據了解,在國安字型檔問世前,收入漢字最多的為1994年出版的《中華字海》,共收漢字8701 9個,其中重復字320個。國安字型檔除包括國家和國際標準的全部字元集漢字外,還涵蓋了《 說文解字》全部楷定字及《康熙字典》、《漢語大字典》、《中華字海》的全部收字,並覆 蓋80年代台灣教育部門整理的全部漢字。同時還專門收集了上述字集、字典、字書所不能包 括的古今姓氏、地名用字。專家們認為,國安字型檔不僅可供國內兩岸四地及國外進行漢字文 本印刷、古籍整理、辭書編寫、漢字整理和研究使用,而且為人名名錄及證件製作、中國地 圖地名標注提供了水平很高的字型檔工具。 發言時間: 12-6 12:38 2個 發言時間: 12-6 12:37 我國文字從古代的象形文字發展到今天的漢字,中間是經過多次變化和改革的;但是歷代的改革幾乎都是兼收並蓄的,以致使漢字越積越多。當前我國文字之多是非常驚人的,比較常用的《新華字典》就有10000多個漢字;1990年出版的《辭海》有14872個漢字;1716年編撰的《康熙字典》有47035個漢字;郭沫若生前曾根據日本朋友的估計,我國大約有60000多個漢字;1994年出版的《中華字海》有87019個漢字(其中重復字320個);近來,根據北京國安資訊設備公司漢字型檔公布,共收入有出處的漢字91251個漢字。其中一級適用漢字21303個,包括國家標准提出的漢字、我國古今近1200個姓氏6699個漢字和當前鄉村一級的地名專用字;二級適用漢字36581個,包括古今權威字典中音、義具全的漢字和十三經、二十四史等的古籍用字;三級備用漢字33367個,包括罕用字、異形字、音義未詳字等。尚不包括雜書野史和各地地方誌、名人筆記等自造漢字;還有正、草、隸、篆不同寫法的異體字、同義字等。單據《說文解字》中就有別體字147個。有人估計實際漢字約在10萬個以上;也有人估計在120000個以上;我國究竟有多少漢字至今尚沒有定論。 發言時間: 12-6 12:39 現代漢字總數八萬多 專家指出常用僅為三千五 現代漢語常用字指在日常語體的現代漢語書面語中使用頻率高的字。歷代積累的漢字總數以萬計。近年出版的漢字字典收字總數從五萬多上升到八萬多,但歷代日常書面語常用的不同的漢字數量一般都控制在三四千個。選取當代的常用字作為學習和使用漢字的重點,是歷代歷朝整理和教學漢字的一個重要內容。歷史上的《三字經》《千字文》都是用當時的常用字編成的識字課本。 現代漢語用字也符合這一規律。據統計,葉聖陶的小說《倪煥之》,全書138330字,只用了3039個不同的漢字;老舍的小說《駱駝祥子》,全書107360字,只用了2413個不同的漢字;《毛澤東選集》(1~4卷)全書659928字,只用了2981個不同的漢字。可見,使用頻率高的常用字是客觀存在的。它們是學習和使用漢字時應該關注的重點。 現代常用字的研究和選取工作,較有影響的有:1928年陳鶴琴編制的《語體文應用字匯》,收4261字;1952年中央人民政府教育部公布的《常用字表》,收2000字(分為1500個常用字和500個補充常用字)。考慮到《常用字表》公布已有30多年,社會用字的情況發生了許多變化,為了適應當前語文教學、詞書編纂以及漢字機械處理和信息處理等各方面的需要,國家語言文字工作委員會組織力量從1986年起開始研製《現代漢語常用字表》,並於1988年1月26日由國家語言文字工作委員會和國家教育委員會聯合發布。《現代漢語常用字表》選收了2500個常用字、1000個次常用字,共3500字 作為一種成熟的語言,它的文字應該是相對穩定的,不會發生特別明顯的和頻繁的變化,作為一種具有生機和活力的語言,它會不斷適應社會發展的要求,進行相應的變化是正常的

❿ 現在有漢字多少個

漢字從商周時代的甲骨文演變到當代的方塊形,已經歷了數千年的漫長進程,是世界上使用歷史最悠久、使用人口最多的文字。漢字的數量是隨著時間的推移而不斷增加的。西漢的《倉頡篇》僅有3300字;東漢的《說文解字》收錄了9353字;清朝的《康煕字典》突破了47000字;現在的《漢語大字典》所收漢字高達54678個。各地小范圍流通使用的地名、人名用字還有許多,如果全部收集起來,總數大約有9萬。

盡管漢字的數量如此龐大,但常用漢字的數量是有限的。孫中山先生寫《三民主義》,總字數約16萬,僅用了2134個不同的字;《毛澤東選集》一至四卷,總字數超過66萬,也只用了2981個不同的字;小說《駱駝祥子》,總字數達10萬多,用到的漢字數為2413。郭沫若先生曾說過,漢字的數目大體上有五萬多字的光景,這五萬多字中絕大多數已經不使用了,目前一般知識分子日常所使用的大概有五、六千。也就是說絕大多數漢字僅在古籍資料中才能見到。

那麼計算機能夠輸入多少漢字呢?這與它的系統軟體和漢字型檔有關。漢字型檔通俗地說就是計算機軟體系統中的漢字倉庫,依據不同的標准,字型檔中漢字的數量是不同的。

近二十多年來,我國的中文信息交換和處理技術取得了突飛猛進的發展,從而使計算機的漢字型檔也變得越來越龐大。

一、1980年國標(GB)字型檔 6763字

從1975年開始,我國為了研究漢字的使用頻度,進行了大規模的字頻統計工作,在數以億計的浩瀚文獻資料中,統計出不同的漢字數為6335個,其中3000多字的累計使用頻度達到99.9%,而另外的3000多字累計頻度不到0.1%,說明了常用漢字與次常用漢字的數量合起來不足7000個,這就為國家制定漢字型檔標准提供了依據。

1980年,國家標准總局頒布了國家漢字信息交換用編碼,全稱《信息交換用漢字編碼字元集——基本集》,國家標准號為:GB2312-80,自1981年5月1日起實施,通行於大陸。新加坡等地也使用此編碼。

GB2312收錄7445個圖形字元,其中漢字佔6763個,還選入了682個非漢字字元,包含有數字、一般符號、拉丁字母、日本假名、希臘字母、俄文字母、拼音符號、注音字母等。

GB2312規定「對任意一個圖形字元都採用兩個位元組表示,每個位元組均採用七位編碼表示」,我們習慣上稱第一個位元組為「高位元組」,第二個位元組為「低位元組」。

GB2312將代碼表分為94個區,對應第一位元組;每個區94個位,對應第二位元組。94個區中,01-09區為符號、數字區;16-87區為漢字區;10-15區、88-94區是有待進一步標准化的空白區。

GB2312將收錄的漢字分成兩級:第一級是常用漢字,計3755個,置於16-55區,按漢語拼音字母/筆形順序排列;第二級漢字是次常用漢字,計3008個,置於56-87區,按部首/筆畫順序排列。

GB-2312的實施,保證和滿足了一般漢字處理技術的基本要求,從而奠定了中文信息處理的基礎。它對於初創階段電腦中文的應用和發展,功不可沒。但經過實踐,也暴露了不少問題:

1. 收字量過小。目前學術界認為漢字總數在六萬左右,而它僅收了十分之一。該標准制定的主要依據是1956年公布的《漢字簡化方案》和當時報刊的字頻統計,它顯然不符合21世紀今天的需要,也不能全面表達三千年文明史留下的大量文獻,更不會為漢字文化圈其他國家和民族所認同。

2. 收字不合理。基本集中有不少稀見字,如「厙、茺、庹」等,在本已狹小的編碼區間中白白占據了寶貴的位置。

3. 所收字形的標准也有失一律,如「仝、薴、讎」等。

4. 兩級漢字型檔各收漢字3000有餘,但其排列次序一級為拼音,二級為偏旁,並未採取一以貫之的排列方式,造成了人為的困難和混亂。

5. 在技術處理上,現已發現的差錯有80處之多。當時,我國大陸各種中文DOS版本、Windows3.1/3.2版本,裝入的字型檔都是國標一二級字型檔。正由於當時對漢字的實際需要量認識不足,在使用GB-2312的過程中常帶來不少尷尬和混亂。如遇到「鎔、啰、了、褘、禕、曌、贇、贇、鱻、驫、犇……」等漢字,既無法輸入,又不能列印。特別是自從實行個人存款賬戶實名制後,便經常碰到打不出來的「失名戶」。在高校招生實行計算機錄取後,有相當一部分學生的名字在計算機里成了「黑三角」,影響了錄取工作的進程。同樣的現象也出現在戶籍管理和測繪、古籍、辭書整理等方面。產生這些現象的根本原因是計算機中所裝的6千多個漢字不夠用。

二、1983年台灣BIG5字型檔13461字

1983年10月,台灣國家科學委員會、教育部國語推行委員會、中央標准局、行政院共同制定了《通用漢字標准交換碼》,後經修訂於1992年5月公布,更名為《中文標准交換碼》,BIG5是台灣資訊工業策進會根據以上標准制定的編碼方案,它通行於台灣、香港地區,是一個繁體字編碼方案,雖存有一些瑕疵,但廣泛應用於電腦行業,尤其是互聯網中,從而成為一種事實上的行業標准。

BIG5碼是雙位元組編碼方案,共收錄13461個漢字和符號,包括:

△符號408個。

△常用字5401個,包括台灣教育部頒布的《常用國字標准字體表》的全部漢字4808個,台灣教科書常用字587個,異體字6個。

△次常用字7652個,包括台灣教育部頒布的《次常用國字標准字體表》的全部漢字6341個,《罕用國字標准字體表》中使用頻率較高的字1311個。

三、1993年UCS統一的中日韓漢字20902字

隨著漢字全面向信息化社會轉型,隨著計算機在各個領域的廣泛應用,隨著國際間的交流與合作的擴大,信息處理應用對字元集提出了多文種、大字量、多用途的要求。1993年,國際標准化組織ISO發布了一個編碼標准,即Universal Multiple-Octet Coded Character Set(簡稱UCS),大陸譯為《通用多八位編碼字元集》,台灣譯為《廣用多八位元編碼字元集》,它與Unicode編碼完全兼容。ISO/IEC 10646.1-1993是該標準的第一部分《體系結構與基本多文種平面》。

嗣後,國家技術監督局發布了GB13000.1-93國家標准(1993年12月24日),對UCS以國家標準的形式予以認可,即GB13000.1等同於ISO 10646.1。該標准採用了全新的多文種編碼體系,收錄了20902個漢字,使編碼空間擴大。同時還編制了《統一的中日韓漢字》,又稱「CJK統一漢字」(C指中國,J指日本,K指韓國)。而其中的中國部分,包括了源自中國大陸的GB2312、GB12345、《現代漢語通用字表》等法定標準的漢字和符號,以及源自台灣的CNS11643標准中第1、2字面(基本等同於BIG-5編碼)和第14字面的漢字和符號。

新的GB13000.1-93國家標准有以下幾個特點:

1. 所收漢字數增加了近兩倍,比較切實地反映了漢字應用的歷史和現狀,可以初步改善兩岸書同文的要求。

2. 字元集一律採取了部首及部首外筆畫的排列方式,比較妥善地繞開了大字元集注音的難題,並為漢字自然排序提供了一種比較可靠的科學方式。

3. 對漢字字形進行了一次跨國界、跨地區、跨歷史的清理工作,採取客觀和求同存異的原則,對漢字作了一次有意義的全面研究,並制定了一個兩萬多字的字表。

4. 釋放了CO和CI兩個平面,得到了大量的編碼空間,可以允許中文及其他文種編碼,編纂專業或專用的子字元集,擴充餘地也大大增加。

新標準的誕生,是電腦中文取得突破性進展的里程碑。它不僅對我國計算機的發展產生深遠的影響,也對漢字文化圈各國、各地區的文化交流和科技進步起到重大的作用,尤其在對漢字的視聽識別和人工智慧方面做出了貢獻。它促進了漢字文化圈計算機信息的直接交換,也促進了軟體的更新以及數據量的擴大,特別是溝通海峽兩岸的計算機技術,有益於祖國的統一。

但是,新標準的建立,也使人們引起某些誤解和疑慮,如:

1. 由於收入了許多《漢字簡化方案》所規定的「廢棄」字,產生了標准和方案相互矛盾的假象,往往被人們誤以為是在變相地恢復繁體字。我們說,標准只是為了使用、交換和生產的便捷而約定的規則,它允許某些靈活性、寬容性、人為的約定性和使用的變通性,所以它不涉及對《漢字簡化方案》的否定和對繁體字的肯定。

2. 近十年來,我國在編碼輸入法的開發上可以說是百花爭艷、萬「碼」奔騰,但絕大多數都是建立在GB-2312基礎上的。新標准字型檔建立後,自然需要新輸入法的研究。眾所周知,字型檔的增大,意味著編制輸入碼的難度要有平方和立方乘積的增長。

四、1995年GBK 1.0字型檔21886字

為了配合 UNICODE 的實施,全國信息技術標准化技術委員會於1995年12月1日制訂了《漢字內碼擴展規范》(GBK),英文名稱Chinese Internal Code Specification。國家技術監督局標准化司、電子工業部科技與質量監督司於1995年12月15日聯合以技監標函[1995]229號文件的形式,將它確定為技術規范指導性文件,並予以發布和實施。這一版的GBK規范為1.0版。GB即「國標」,K是「擴展」的漢語拼音第一個字母。GBK向下與GB2312編碼兼容,向上支持ISO 10646.1國際標准,是前者向後者過渡過程中的一個承上啟下的標准。

GBK共收錄了21886個漢字和圖形符號,包括ISO 10646.1中的全部CJK漢字和符號,並有所補充。具體包括:

1. GB2312中的全部漢字、非漢字元號。

2. 與 ISO-10646 相應的國家標准GB13000.1中的其他CJK漢字。以上合計20902個國標化漢字。

3.《簡化字總表》中未收入GB13000.1的52個漢字。

4.《康熙字典》及《辭海》中未收入GB13000.1的28個部首及重要構件。

5. 13個漢字結構符。

6. BIG-5中未被GB2312收入、但存在於GB13000.1中的139個圖形符號。

7. GB12345增補的6個拼音符號。

8. 漢字「○」。

9. GB12345增補的19個豎排標點符號(GB12345較GB2312增補豎排標點符號29個,其中10個未被GB13000.1收入,故GBK亦不收)。

10. 從GB13000.1的CJK兼容區挑選出的21個漢字。

11. GB13000.1收入的31個IBMOS/2專用符號。

GBK亦採用雙位元組表示,總體編碼范圍為8140-FEFE,首位元組在81-FE之間,尾位元組在40-FE之間,剔除xx7F一條線。總計23940個碼位,共收入21886個漢字和圖形符號,其中漢字(包括部首和構件)21003個,圖形符號883個。

GBK 編碼區分三部分,其中的漢字區包括:

△B0A1-F7FE, 收錄 GB2312 漢字6763個,按原序排列;

△8140-A0FE,收錄 GB13000.1中的CJK 漢字6080個;

△AA40-FEA0,收錄 CJK 漢字和增補的漢字8160個。CJK漢字在前,按UCS代碼大小排列;增補的漢字(包括部首和構件)在後,按《康熙字典》的頁碼/字位排列。

微軟公司自 Windows 95 簡體中文版開始支持 GBK 代碼,標准叫法是 Windows Codepage 936,也叫做 GBK(國標擴展),它是 8-bit 的變長編碼。

GBK 從來沒有成為正式的國家標准,只不過因為 Windows 的普及,它已經成為事實上的標准了。

GBK所收字數是GB2312的3倍,收集的漢字包含大部分的冷僻字、繁體字等,從而較好地解決了中文冷僻字問題,受到業界的廣泛關注。

GBK的優點是與現行的GB2312內碼體系兼容,保持系統兼容性,容易為用戶所接受,而且是等長雙位元組代碼,碼長較短,通信、處理速度都比較快,占存儲空間比較小,因此是GB2312-80的理想換代標准。

五、2000年GBK2.0字型檔27533字

2000年3月17日,信息產業部和國家質量技術監督局又發布了一項新的中文信息處理基礎性國家標准GB18030-2000《信息交換用漢字編碼字元集基本集的擴充》,它是在原來的GB2312-80編碼標准和GBK編碼標準的基礎上進行擴充,增加了四位元組部分的編碼。它可以完全映射ISO 10646的基本平面和所有輔助平面,共有150多萬個碼位。它在ISO 10646的基本平面內,在原來的2萬多漢字的基礎上,增加了7000多個漢字的碼位和字形,從而使計算機可處理的漢字數量進一步從GB13000.1的20902個,再擴充到現在的27533個。GB18030與GB2312一脈相承,較好地解決了舊系統向新系統的轉換問題,而且繁簡字處於同一平台。

GB18030-2000是我國繼GB2312-80和GB13000-1993之後的強制性漢字編碼標准,是未來我國計算機系統必須遵循的基礎性標准之一。它的主要目的是為了解決一些生、偏、難字的問題,以及適應出版、郵政、戶政、金融、地理信息系統等迫切需要的人名、地名用字問題,也為漢字研究、古籍整理等領域提供了統一的信息平台基礎,並且為中文信息在國際互聯網上的傳輸與交換提供了保障。該標准還同時收錄了藏、蒙、維吾爾等主要的少數民族文字,為推進少數民族的信息化奠定了堅實的基礎。

文字標準是信息處理的基礎,在大字元級的國際標准得到採用後,將解決兩岸四地間GB碼與BIG5碼字碼轉換不便的狀況,屆時,大陸、香港、澳門和台灣將處於統一的文字平台,這將是我國電腦文字標准走向世界標準的重要步驟。

世界許多國家和地區從方便本國和本民族應用的角度出發,都制定了自己文字的編碼標准並建立起相應的內碼體系,如日本的JISX0208和JISX0212,韓國的KSC5601和KSC5657等,這是國際上的通行慣例。我國制定GB18030同樣符合國際慣例,它可以充分利用已有資源,保證不同系統間的兼容,最大限度地共享資源,為我國軟體產業留有巨大的發展空間。可以相信,GB18030的實施將有利於國產軟體的發展並形成規模,使我國的中文信息技術再上一個台階。

國家質量技術監督局宣布,GB18030(俗稱GBK2.0)自2001年9月1日起替代原有的GB2312和GBK1.0,成為新的計算機漢字信息交換標准。所有信息技術產品的研製開發和生產,若不執行GB18030強制性標准,將依照國家有關規定進行懲處。

GB18030標準的建立,是二十年來電腦中文處理技術產生和發展的必然結果,也是電腦中文處理技術繼續發展的新起點,它對中文電腦的完善和發展,影響至深至遠。

GB18030標準的建立,為電腦中文的完善化,中文信息交換技術和中文軟體的發展開辟了嶄新的天地。

GB18030標準的建立,既表明了漢字有著光輝的歷史、強大的生命力,是不容忽視的客觀存在,也昭示著漢字還有極其美好的未來。漢字的生命力在於它的幾千年一貫的穩定性,還在於它幾千年來不間斷的發展所表現的旺盛的生命力和凝聚力。我們通過一代人的努力,終於讓漢字插上信息化的翅膀,使其飛得更高更遠。電腦中文將促進和幫助中國的發展和統一,電腦中文必將走進現代世界。

目前,我國大部分計算機系統仍在採用GB2312編碼。GB18030與GB2312一脈相承,較好地解決了舊系統向新系統的轉換問題,並且改造成本較小。從我國信息技術和信息產業發展的角度出發,考慮到用戶的需要及現有系統的兼容性和對多種操作系統的支持,採用GB18030是我國目前較好的選擇,而GB13000.1更適用於未來國際間的信息交換。

閱讀全文

與目前我國已經編譯了多少漢字字元相關的資料

熱點內容
ubuntu壓縮zip 瀏覽:2
vigenere演算法的方法是什麼 瀏覽:666
pdf保護破解 瀏覽:341
仿微信聊天系統源碼廣州公司 瀏覽:106
怎麼查看我的世界伺服器日誌 瀏覽:430
怎麼從程序員走到成功 瀏覽:824
把軟體放入文件夾中如何移出 瀏覽:209
紅包源碼企業即時聊天軟體 瀏覽:581
xp安裝python 瀏覽:10
西門子參數編程讀取半徑值 瀏覽:403
洗首飾解壓小視頻 瀏覽:966
01背包問題的演算法解決 瀏覽:373
sd卡放哪個文件夾 瀏覽:301
解釋器模式java 瀏覽:104
android垂直自動滾動條 瀏覽:153
計算器java小程序 瀏覽:27
java的簡稱 瀏覽:68
雲伺服器公網ip地址 瀏覽:581
php對資料庫操作 瀏覽:237
java爬圖片 瀏覽:866