中文汉字编码知识

汉字的编码体系主要有以下几种:

⑴ 国标、区位、“准国标”

国标是将七千余个汉字以及标点符号、外文字母等,排成一个94行、94列的方阵。方阵中每一横行称为一个“区”,每个区有94个“位”。一个汉字在方阵中的坐标,称为该字的区位码。为了与美标(ASCII)的形象码的范围重合,出现了“国标码”,即将区位码的两个十进制数都加上32,得到该汉字的国标码。

当需要区分国标码和美标码时,出现了“准国标”,即将国标码的两个数字各加上128,而把原来的国标码称为“纯国标”。

GBK码是GB码的扩展字符编码,对多达两万多的简繁汉字进行了编码。

BIG5码是针对繁体汉字的汉字编码。

⑷ HZ码

HZ码是在Internet上广泛使用的一种汉字编码,它是以“纯国标”的中文与美标码混用为方案。

⑸ ISO 2022 CJK码

这是国际标准组织为各种语言字符制定的编码标准。CJK是中、日、韩语的合称。它主要在Internet中使用。

⑹ UCS和ISO 10646

UCS是由ISO 10646定义的,是其他字符集标准的一个超集,保证与其他字符集是双向兼容的,它包含了所有已知语言的字符。

Unicode提供一种统一的字符标识方法,它是16位编码的,具备世界各地计算机与出版行业所用字符的全部代码。而且它的产生是以各个国家或国标字符编码为基础的。目前,Unicode在网络、Windows系统和很多大型软件中得到应用。

各种中文编码对应的编码区间总结

一.ascii码编码区间(所有中文编码中的ascii码编码均一样)

1).单字节ASCII码:0x00-0x7F

2).扩展ASCII码:0x80-0xFF

二.GB2312双字节编码区间:

高字节            低字节

0xA1-0xF7         0xA1-0xFE

三.Big5双字节编码区间:

高字节            低字节

0xA1-0xF9         0x40-0x7E

0xA1-0xF9         0xA1-0xFE

四.GB18030(一.二.四字节)编码区间

1).单字节ASCII编码区间: 0x00-0x7F

2).双字节编码区间:

高字节            低字节

0x81-0xFE         0x40-0x7E

0x81-0xFE         0x80-0xFE

3).四字节编码区间:

0x81308130 - 0xFE39FE39

第1,3个字节均由0x81-0xFE构成

第2,4个字节均由0x30-0x39构成

五.utf-8编码,由1-6字节构成:0xxxxxxx

110xxxxx 10xxxxxx

1110xxxx 10xxxxxx 10xxxxxx

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

以下为中文编码区间(包括双字节和三字节)

1).单字节(ASCII码)编码区间: 0X00-0x7E

2).双字节汉字编码区间:

高字节            低字节

0xC0-0xDF         0x80-0xBF

3).三字节汉字编码区间:

一字节            二字节       三字节

0xE0-0xEF       0x80-0xBF      0x80-0xBF

4).四字节:无中文

5).五字节:无中文

6).六字节:无中文

UTF-8使用3字节为中文汉字编码.

对于Windows下的utf-8文本文件,会在文件头加上0xEF 0xBB 0xBF三个字节便于windows应用程序快速识别文本编码。

六.GBK编码完全兼容GB2312.

七.Unicode双字节编码:

中文编码区间:0x4E00-0x9FA5

对于Windows下快速判断文本文件是Unicode还是ANSI编码时,如果文件的前两个字节是0xFF和0xFE,则识别为Unicode文本。

八.中文编码兼容顺序为(从左向右兼容): GB18030-->GBK--->GB2312.

以上编码知识为个人(www.169it.com)总结,仅供参考。

java 汉字区位码表,中文汉字编码知识及各种中文编码对应的编码区间总结相关推荐

  1. Java 中文转拼音/汉字转拼音, 中文转五笔/汉字转五笔, 下载字典!

    Java 中文转拼音/汉字转拼音, 中文转五笔/汉字转五笔, 下载字典! 源码 CharacterElement.java 源码 Dict.java 输出拼音 输出五笔 输出全部 字典下载地址 源码 ...

  2. java二进制转为汉字_Java 实现中文与二进制代码互转

    //将二进制字符串转化为中文 import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; im ...

  3. java 实现中文排序,Java自定义比较器实现中文排序

    compareTo 方法 compareTo()是两个字符串对象比较大小,返回一个整数值,如果调用字符串对象大,返回正整数,反之,返回负整数.相等则返回0.compareTo()是两个字符串对象按AS ...

  4. 中文汉字编码技术的探索、突破与拓展

    希人人来支持.和关注汉语汉字!合力宏扬现今已经处于互联弱势,同全球某一些大语种一样,出现 了相当大的虚拟空间生存危机的,世界上最大语种的,中华民族拥有数千年历史的---汉语汉文汉字! 中文汉字编码技术 ...

  5. 作为一名Java开发者应该掌握的基础知识汇总!

    Java语言作为热门编程语言之一,受到了更多的欢迎.今天小千就为大家介绍一下作为一名Java开发者应该掌握的基础知识. 一.修饰符 java语言中提供了一些修饰符,这些修饰符可以修饰类,变量和方法. ...

  6. 关于JAVA中URL传递中文参数,取值是乱码的解决办法

    今天遇到一个问题就是在Action当中把一条中文信息绑定在URL的后面,ActionForward到别一个页面时,用reqeust.getParameter取出是出现乱码的问题. 现解决办法如下: 1 ...

  7. JAVA 代码交互率低的原因分析,深入剖析Java编程中的中文问题及建议最优解决方法...

    说明:本文为作者原创,作者联系地址为: josserchai@yahoo.com .由于 Java 编程中的中文 问题是一个老生常谈的问题,在阅读了许多关于 Java 中文问题解决方法之后,结合作者的 ...

  8. Java开发者需要掌握的基础知识

    Java语言作为热门编程语言之一,受到了更多的欢迎.今天小千就为大家介绍一下作为一名Java开发者应该掌握的基础知识. 一.修饰符 java语言中提供了一些修饰符,这些修饰符可以修饰类,变量和方法.以 ...

  9. Java汉字转拼音工具类(支持首字母和全拼)

    工具类产生是因为个人业务需求需要根据中文汉字排序,而博主又对网上回答不满意,所以才根据相关资料写了该工具类,写入博客 以备不时之需.直接上代码: Java汉字转成汉语拼音工具类,需要用到pinyin4 ...

  10. [转]java中文乱码解决之道(三)-----编码详情:伟大的创想---Unicode编码

    http://www.cnblogs.com/chenssy/ java中文乱码解决之道(三)-----编码详情:伟大的创想---Unicode编码 随着计算机的发展.普及,世界各国为了适应本国的语言 ...

最新文章

  1. 首位猪心移植患者去世!术后存活2个月,创造医学里程碑;官方讣告:哀悼并感谢所作巨大贡献...
  2. 用例子说明MVC 设计模式(以Objective-C 实现)
  3. Wannafly挑战赛29题解
  4. DOS攻击之详解--转载
  5. 初探swift语言的学习笔记三(闭包-匿名函数)
  6. tablewidget 行数自适应_控制|基于自适应遗传算法的增程式电动汽车能量管理策略优化...
  7. 360浏览器一打开就是瑞星安全网址怎么办
  8. 如何使用GitLab和Rancher构建CI/CD流水线–Part 1
  9. win7登录密码破解工具
  10. USB-CAN-TOOL CAN分析仪上位机使用说明
  11. AE新知识-10月30日
  12. 《互联网的那些事之时代》第三回:滟滟随波千万里,何处春江无月明
  13. eaxyx验证布丰投针试验,求解圆周率
  14. 计算机视觉领域的一些牛人博客,超有实力的研究机构等的网站链接
  15. XFTP中文目录乱码
  16. Mac用homebrew安装unrar
  17. 本星期在写的基于javaweb的仓库入库出库出入库毕业设计毕设使用
  18. 4键电子手表说明书_电子表通用说明书
  19. c语言程序设计账单,C语言课程设计——账单管理
  20. 网页编码与数据传递中的中文字符编码

热门文章

  1. 【C#进阶3-4】C#设计模式
  2. LaTeX符号语法总结
  3. C语言中字符串转数字的方法
  4. comsol频域模拟
  5. VC-MFC程序设计精讲
  6. 字字珠玑,证监会84问小米如何反击?
  7. 二阶无源低通滤波器幅频特性曲线_几种无源滤波器的电路及频响特性对比
  8. 多因子模型的业绩归因评价
  9. rdkitpython | 通过反应获得断键位点与类型
  10. rdkit 计算环、芳香环数