汉字对比世界上任何一种文字中无疑都是比较复杂和困难的,不同于几十个字母组合就能得到的语言,汉字将近有十万个,日常使用有几千字,据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字则已到99%。

汉字计算机编码标准

最大的汉字编码是台湾地区的CNS11643,5.0版全字库可供查询的字共87,047个汉字、10771个拼音文字及894个符号。台港民间通用的大五码收录繁体汉字13053个。GB18030是中华人民共和国现时最新的内码字集,GBK收录汉字简体、繁体及20912个,而早期的GB2312收录简体汉字6763个。Unicode的中日韩统一表意文字基本字集则收录汉字20902个,总数亦高达七万多字。

汉字编码存在困难:

①数量庞大:一般认为,汉字总数已超过6万个(包括简化字)。虽有研究者主张规定3000多或4000字作为当代通用汉字,但仍比处理由二三十个字母组成的拼音文字要困难得多。

②字形复杂:有古体今体,繁体简体,正体异体;而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔。

③存在大量一音多字和一字多音的现象:汉语音节416个,分声调后为1295个(根据《现代汉语词典》统计,轻声39个未计)。以1万个汉字计算,每个不带调的音节平均超过24个汉字,每个带调音节平均超过7.7个汉字。有的同音同调字多达66个。一字多音现象也很普遍。

汉字的信息量大

研究表明:汉字作为一个复杂的文字符号系统,其信息熵很高。研究的基本方法是:逐渐扩大汉字容量,随着汉字容量增大,信息熵的增加趋缓;汉字增加到12370以后,不再使信息熵有明显的增加。我国科学家指出:汉字的容量极限是12366个汉字,汉字静态平均信息熵的值(平均信息量)是9.65比特。通过数理语言学中著名的齐普夫定律(ZIPF’SLAW)核算,这是当今世界上信息量最大的文字符号系统。联合国五种工作语言文字的信息熵的比较如下:

法文:3.98比特

西班牙文:4.01比特

英文:4.03比特

俄文:4.35比特

中文:9.65比特

可以看出,拼音文字的信息熵小,差别不大。汉字的信息量最大。

汉字编码方案分类

GB2312:简体中文编码,一个汉字占用2字节,在大陆是主要编码方式。当文章/网页中包含繁体中文、日文、韩文等等时,这些内容可能无法被正确编码。

BIG5:繁体中文编码。主要在台湾地区采用。

GBK:支持简体及繁体中文,但对他国非拉丁字母语言还是有问题。

UTF-8:Unicode编码的一种。Unicode用一些基本的保留字符制定了三套编码方式,它们分别UTF-8,UTF-16和UTF-32。在UTF-8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。这种方式的最大好处,是UTF-8保留了ASCII字符的编码做为它的一部分。UTF-8俗称“万国码”,可以同屏显示多语种,一个汉字占用3字节。为了做到国际化,网页应尽可能采用UTF-8编码。当然,处理中文时http头也要改成UTF-8编码的-----加上<meta http-equiv="Content-Type" content="text/html; charset=utf-8">。

中国大陆最常用的就是GBK18030编码,除此之外还有GBK,GB2312,这几个编码的关系是这样的。

最早制定的汉字编码是GB2312,包括6763个汉字和682个其它符号。 95年重新修订了编码,命名GBK1.0,共收录了21886个符号。 之后又推出了GBK18030编码,共收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字,现在WINDOWS平台必需要支持GBK18030编码。

按照GBK18030、GBK、GB2312的顺序,3种编码是向下兼容,同一个汉字在三个编码方案中是相同的编码。

gbk汉字编码拼音对照表_预习部分:汉字编码方案相关推荐

  1. php gbk转拼音

    /**  * gbk转拼音  * @param $txt  */ function gbk_to_pinyin($txt) {     $l = strlen($txt);     $i = 0;   ...

  2. GB2312汉字拼音对照表 1

    GB2312 汉字拼音对照表(6727字) 来源:http://zh.transwiki.org/wiki/index.php/GB2312%E6%B1%89%E5%AD%97%E6%8B%BC%E9 ...

  3. GB2312汉字编码字符集对照表

    第01区 +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F A1A0 . . ・ ˉ ˇ ¨ " 々 ― - | - ' ' A1B0 &quo ...

  4. 海湾汉字编码表全部_汉字unicode码表范围和常用汉字unicode码

    utf-8吗表中所有汉字的区间的正则表达式 [\u4e00-\u9fa5] 汉字常用字unicode吗表 String base ="\u7684\u4e00\u4e86\u662f\u62 ...

  5. mysql按中文拼音排序_按拼音排序,mysql 按中文拼音顺序排序

    1,简单方法 如果字符集采用的是 gbk(汉字编码字符集),直接在查询语句后边添加 ORDER BY: SELECT * FROM table ORDER BY title; 如果字符集采用的是 ut ...

  6. mysql根据中文拼音分组_【改进篇】使用MySql实现好友昵称按拼音排序或分组

    昵称排序顺序要求 大小写英文字母排序排在前面 中文按拼音排序 数字,符号以及emoji符号 后来发现原来的思路是有问题的,参与拼音排序的就只有中文,英文是没有参与排序的,原来的效果: 昵称 Apple ...

  7. java 汉字转拼音缩写_汉字转拼音 java 工具类

    package qing.huang; import java.io.UnsupportedEncodingException; import java.util.ArrayList; import ...

  8. 莫尔斯电码对照表_使用莫尔斯电码编码纯文本

    莫尔斯电码对照表 This began as a thought experiment while waiting for patches to install on my system. 这是在等待 ...

  9. 仓鼠体重年龄对照表_各年龄段血糖,血压,血脂,尿酸对照表,内容太值!

    血压.血脂.血糖.尿酸是目前衡量我们身体状况的最基本的四个指标. 但是,很多人都不知道这些指标什么时候是合格的. 更重要的是,这些参考指标并不固定,随着年龄的增长会有变化. 因此,很多人在体检后发现自 ...

最新文章

  1. 第十五届全国大学生智能汽车竞赛线上比赛流程规范
  2. python处理视频动漫化_用Python实现抖音上的“人像动漫化”特效,原来这么简单...
  3. 成功搞定了在Windows7中安装SAP了
  4. SqlServer性能监控和优化总结
  5. [ARM异常]-ARMV8的中断的routing和Mask表
  6. Apache Shiro 框架简介和下载导入
  7. java使用的页面静态化技术_java秒杀系列(2)- 页面静态化技术
  8. 【Python】Python库之游戏开发
  9. 04-Fibonacci
  10. 到底该不该跳槽?告诉你三条底层逻辑
  11. mysql 存在更新不存在写入_梅姨这个人,到底存在不存在?
  12. python新手入门基础操作谨记这5点_Python大牛指点新手之:掌握这5点,可以快速从入门到进阶!...
  13. shell批量文件编码转换
  14. Tomcat控制台乱码
  15. Linux查看端口占用进程
  16. 区块链是什么通俗解释_区块链是什么?1个例子通俗解释,小白秒懂!
  17. Linux字符设备驱动之LED驱动
  18. xamarin Android activity生命周期详解
  19. 人物-作家-马克·吐温:马克·吐温
  20. verilog代码风格——PN序列产生代码

热门文章

  1. 解决为什么已经设置了request.setCharacterEncoding(“utf-8“);POST请求仍然乱码的问题
  2. Mybatis异常There is no getter for property named ‘XXX‘ in ‘class java.lang.String‘
  3. 如何解决“本地编辑,更新时传入删除”消息
  4. 您如何性能测试JavaScript代码?
  5. 什么是mixin,为什么它们有用?
  6. log日志显示与写入文件—qt
  7. python在工作中怎么用_简洁优雅的Python教你如何在工作中“偷懒”
  8. ❤️《JUC并发编程从入门到高级》(建议收藏)❤️
  9. 天梯—谁先倒(C语言)
  10. TypeScript学习(五):数组的定义方式及常见数组操作方法使用