gbk汉字编码拼音对照表_预习部分：汉字编码方案

汉字对比世界上任何一种文字中无疑都是比较复杂和困难的，不同于几十个字母组合就能得到的语言，汉字将近有十万个，日常使用有几千字，据统计，1000个常用字能覆盖约92%的书面资料，2000字可覆盖98%以上，3000字则已到99%。

汉字计算机编码标准

最大的汉字编码是台湾地区的CNS11643，5.0版全字库可供查询的字共87,047个汉字、10771个拼音文字及894个符号。台港民间通用的大五码收录繁体汉字13053个。GB18030是中华人民共和国现时最新的内码字集，GBK收录汉字简体、繁体及20912个，而早期的GB2312收录简体汉字6763个。Unicode的中日韩统一表意文字基本字集则收录汉字20902个，总数亦高达七万多字。

汉字编码存在困难：

①数量庞大：一般认为，汉字总数已超过6万个（包括简化字）。虽有研究者主张规定3000多或4000字作为当代通用汉字，但仍比处理由二三十个字母组成的拼音文字要困难得多。

②字形复杂：有古体今体，繁体简体，正体异体；而且笔画相差悬殊，少的一笔，多的达36笔，简化后平均为9.8笔。

③存在大量一音多字和一字多音的现象：汉语音节416个，分声调后为1295个（根据《现代汉语词典》统计，轻声39个未计）。以1万个汉字计算，每个不带调的音节平均超过24个汉字，每个带调音节平均超过7.7个汉字。有的同音同调字多达66个。一字多音现象也很普遍。

汉字的信息量大

研究表明：汉字作为一个复杂的文字符号系统，其信息熵很高。研究的基本方法是：逐渐扩大汉字容量，随着汉字容量增大，信息熵的增加趋缓；汉字增加到12370以后，不再使信息熵有明显的增加。我国科学家指出：汉字的容量极限是12366个汉字，汉字静态平均信息熵的值（平均信息量）是9．65比特。通过数理语言学中著名的齐普夫定律（ZIPF’SLAW）核算，这是当今世界上信息量最大的文字符号系统。联合国五种工作语言文字的信息熵的比较如下：

法文：3．98比特

西班牙文：4．01比特

英文：4．03比特

俄文：4．35比特

中文：9．65比特

可以看出，拼音文字的信息熵小，差别不大。汉字的信息量最大。

汉字编码方案分类

GB2312:简体中文编码，一个汉字占用2字节，在大陆是主要编码方式。当文章/网页中包含繁体中文、日文、韩文等等时，这些内容可能无法被正确编码。

BIG5:繁体中文编码。主要在台湾地区采用。

GBK:支持简体及繁体中文，但对他国非拉丁字母语言还是有问题。

UTF-8:Unicode编码的一种。Unicode用一些基本的保留字符制定了三套编码方式，它们分别UTF-8,UTF-16和UTF-32。在UTF－8中，字符是以8位序列来编码的，用一个或几个字节来表示一个字符。这种方式的最大好处，是UTF－8保留了ASCII字符的编码做为它的一部分。UTF-8俗称“万国码”，可以同屏显示多语种，一个汉字占用3字节。为了做到国际化，网页应尽可能采用UTF-8编码。当然，处理中文时http头也要改成UTF-8编码的-----加上<meta http-equiv="Content-Type" content="text/html; charset=utf-8">。

中国大陆最常用的就是GBK18030编码，除此之外还有GBK，GB2312，这几个编码的关系是这样的。

最早制定的汉字编码是GB2312，包括6763个汉字和682个其它符号。 95年重新修订了编码，命名GBK1.0，共收录了21886个符号。之后又推出了GBK18030编码，共收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字，现在WINDOWS平台必需要支持GBK18030编码。

按照GBK18030、GBK、GB2312的顺序，３种编码是向下兼容，同一个汉字在三个编码方案中是相同的编码。

gbk汉字编码拼音对照表_预习部分：汉字编码方案相关推荐

php gbk转拼音
/** * gbk转拼音 * @param $txt */ function gbk_to_pinyin($txt) { $l = strlen($txt); $i = 0; ...
GB2312汉字拼音对照表 1
GB2312 汉字拼音对照表(6727字) 来源:http://zh.transwiki.org/wiki/index.php/GB2312%E6%B1%89%E5%AD%97%E6%8B%BC%E9 ...
GB2312汉字编码字符集对照表
第01区 +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F A1A0 . . ・ ˉ ˇ ¨ " 々 ― - | - ' ' A1B0 &quo ...
海湾汉字编码表全部_汉字unicode码表范围和常用汉字unicode码
utf-8吗表中所有汉字的区间的正则表达式 [\u4e00-\u9fa5] 汉字常用字unicode吗表 String base ="\u7684\u4e00\u4e86\u662f\u62 ...
mysql按中文拼音排序_按拼音排序，mysql 按中文拼音顺序排序
1,简单方法如果字符集采用的是 gbk(汉字编码字符集),直接在查询语句后边添加 ORDER BY: SELECT * FROM table ORDER BY title; 如果字符集采用的是 ut ...
mysql根据中文拼音分组_【改进篇】使用MySql实现好友昵称按拼音排序或分组
昵称排序顺序要求大小写英文字母排序排在前面中文按拼音排序数字,符号以及emoji符号后来发现原来的思路是有问题的,参与拼音排序的就只有中文,英文是没有参与排序的,原来的效果: 昵称 Apple ...
java 汉字转拼音缩写_汉字转拼音 java 工具类
package qing.huang; import java.io.UnsupportedEncodingException; import java.util.ArrayList; import ...
莫尔斯电码对照表_使用莫尔斯电码编码纯文本
莫尔斯电码对照表 This began as a thought experiment while waiting for patches to install on my system. 这是在等待 ...
仓鼠体重年龄对照表_各年龄段血糖，血压，血脂，尿酸对照表，内容太值！
血压.血脂.血糖.尿酸是目前衡量我们身体状况的最基本的四个指标. 但是,很多人都不知道这些指标什么时候是合格的. 更重要的是,这些参考指标并不固定,随着年龄的增长会有变化. 因此,很多人在体检后发现自 ...

gbk汉字编码拼音对照表_预习部分：汉字编码方案

gbk汉字编码拼音对照表_预习部分：汉字编码方案相关推荐

最新文章

热门文章