GB2312-80/国标码/区位码

用2字节来编码汉字和中文符号,并兼容ASCII标准字符集。一级汉字3,755个,二级汉字3,008个,共收录6763个汉字。但是在Unicode中并不连续分布,散落在CJK统一汉字字符区 0x4E00-0x9FA5 的20902个汉字中。

编码方式

编码逻辑定义高8位称为“区”,低8位称为“位”, 所以也称 GB2312 为区位码。使用区位输入法,例如输入1601,即16区第1个字,得到码表中第一个汉字“啊”。一级汉字按拼音排序,二级汉字按部首排序,此外,该标准还包括标点符号,数种西文字母、图形、数码等符号682个。
编码时为了兼容 ASCII,两个字节使用比 0xA0 值要大的数据来存储。即查询时字符编码要加上 0xA0A0 才得到真正的存储数据,因此,中文字“啊”实际在内存的值是 0xB0A1 而不是 0x1001。也因此区位码定义了94区,每区有94位字符,即区码存储时取值 0xA1~0xFE 刚好有94个区,位码也一样。

缺点

只有6千来个常用汉字,仅覆盖中国大陆99.75%的使用频率,对于人名、古汉语等方面出现的罕用字就不能处理了,这导致了后来汉字扩展规范GBK及GB 18030汉字字符集的出现,而是完全向后兼容的,即GB 18030可以直接替换GBK和GB2312编码,GBK可以直接替换GB2312编码。

GBK

汉字百科字符集,收录超过2万汉字,是对原有的 GB2312 的扩充。现有的汉字数量绝不止这个数,还有大量未编码的字符,对于这些未进行编码的字符就称为非编码字符集 Noncoded Character Sets。

GBK字符分为5个部分,各部分内容及数量如下:

  1. GBK/1 717 GB 2312-80 and GB/T 12345-90 non-hanzi
  2. GBK/2 6,763 GB 2312-80 hanzi
  3. GBK/3 6,080 Hanzi from ISO 10646-1:1993
  4. GBK/4 8,160 8,059 hanzi from ISO 10646-1:1993 plus 101 additional hanzi
  5. GBK/5 166 Non-hanzi from Big Five and other characters

GB18030-2000

GB 18030-2000 标准发布时,兼容收录GB2312的一级汉字3,755个,二级汉字3,008个,增添汉字20,770个,符号为894个。GB18030的更新版本在2005年发布,保持兼容部分,增添汉字数量为63,481个,其它符号6,184个。这是一个六区字符集,囊括韩,蒙,藏,维吾尔,彝,傣泐。

编码空间分布三大块,单字节和双字节部分兼容ASCII字符集、GB2312和GBK,四字节部分兼顾 Unicode BMP。

  1. Single-byte: 00-7f
  2. Two-byte: 81-fe | 40-7e, 80-fe
  3. Four-byte: 81-fe | 30-39 | 81-fe | 30-39

BIG5

港澳台地区则多用大五码 BIG5,对应Win32平台 Code Page 950,收录一级汉字5,401个,二级汉字7,652个,符号441个。后者进行了修订形成BIG5+,增添汉字7,619个,符号数量则为913个。高位字节使用了0x81-0xFE,低位字节使用 0x40-0x7E,0xA1-0xFE。在Big5的分区 0x8140-0xA0FE 保留给使用者自定义字符,称为造字区,这种设计也是算得上奇葩的。Big5还重复地收录两个字:“兀、兀”(0xA461及0xC94A)、“嗀、嗀”(0xDCD1及0xDDFC)。

中文编码方案是最混乱的编码方案,名目之多,让人有点恼火的程度,而Unicode就是最佳下火良药。

GBK编码/GBK内码/Big5相关推荐

  1. a律13折线pcm编码例题_a律13折线编码段内码怎么确定

    展开全部 回答如下: 首先,列表.然后根据你的抽样脉冲 值的正负,判断极性码,正值为1,负值为0,其次,e5a48de588b662616964757a686964616f31333365643662 ...

  2. ascii码,gbk编码,unicodo码,utf-8码

    本文简略讲解这几个编码的关系, 1.ASCII (American Standard Code for Information Interchange):美国信息交换标准代码, 主要应用于英文的编码, ...

  3. 汉字编码(【Unicode】 【UTF-8】 【Unicode与UTF-8之间的转换】 【汉字 Unicode 编码范围】【中文标点Unicode码】【GBK编码】【批量获取汉字UNICODE码】)

    参考博客: Unicode与UTF-8互转(C语言实现):http://blog.csdn.net/tge7618291/article/details/7599902 汉字 Unicode 编码范围 ...

  4. php文件utf8编码转gbk编码格式,把phpwind utf8 转成 gbk 编码

    mysqldump --default-character-set=gbk -x -u root -p hz500 > hz500.sql           以  gbk 为文件内码导出 sq ...

  5. Python 入门 26 —— ASCII 编码、Unicode 编码、 UTF-32、 UTF-16、 UTF-8、 GB2312 编码、 GBK 编码

    计算机存储和处理信息都是以一个8位的二进制字节为单位的,例如:0b 1111 0000.一个字母.汉字等如何用一个二进制的数(编码)来表示呢.在计算机发展初期,因为没有人能预料到计算机会有现在这么大的 ...

  6. 第一章 编程基础_ASCII 编码和GBK编码

    计算机是一种改变世界的发明,很快就从美国传到了全球各地,得到了所有国家的认可,成为了一种不可替代的工具.计算机在广泛流行的过程中遇到的一个棘手问题就是字符编码,计算机是美国人发明的,它使用的是 ASC ...

  7. 计算机汉字编码不能使用内码,汉字编码及区位码查询算法

    为了使每一个汉字有一个全国统一的代码,1980年,我国颁布了第一个汉字编码的国家标准:GB2312-80<信息交换用汉字编码字符集>基本集,这个字符集是我国中文信息处理技术的发展基础,也是 ...

  8. 信息编码--区位码,国标码,内码

    计算机内的信息编码 西文字符编码 西文就是英文,数字,英文标点等等,每个ASCII码以一个字节(Byte)储存,国际通用的7位码用7位二进制数表示一个字符的编码,其编码范围是00000000-0111 ...

  9. php文件在线编码转换,gbk编码在线转换_php汉字转码 GBK到Big5编码转换

    摘要 腾兴网为您分享:php汉字转码 GBK到Big5编码转换,月星家居,永辉生活,一点开,幸福钱庄等软件知识,以及酷我音乐车机,爱情电影网影音,杜比音效,微信制作宣传广告,dolbyadvanced ...

  10. VC中三种常见中文内码的转换方法(GB2312/GBK/BIG5)

    我们平时常见的三种中文内码是:GB2312(简体中文).GBK.BIG5(繁体中文).网上有很多中文内码的专用转换工具.我们碰到由于内码不一致而导致的乱麻问题,用这些工具可以进行相互转换.但论坛里经常 ...

最新文章

  1. 使用GraphQL的subscription订阅服务器的通知
  2. html两个框架同时_两个框架的故事
  3. canvas绘制图像image
  4. 顺序存储结构和链式存储结构的优缺点
  5. css一个盒子里可以装3个图片并排吗_John: CSS浮动与清除浮动属性详解(CSS float clear)...
  6. 自定义控件(视图)2期笔记03:自定义控件之使用系统控件(优酷案例之广告条Viewpager)...
  7. gis 空间分析 鸟类栖息地选取_GIS空间分析专题一:鸟儿栖息地查找
  8. Android Realm(数据库)
  9. 如何清理苹果MAC电脑系统缓存数据?
  10. Unity 置顶点击的对象
  11. 2021年中国果汁产量、需求量及主要类型贸易情况分析[图]
  12. solr7.4.0入门,分词,实时增量同步
  13. 如何初始化阿里云服务器
  14. Python CSV 转 XLS、XLSX
  15. 【基础算法训练】—— 字符串
  16. PHP表单登记表,输出复选框的值
  17. 院校毕业论文答辩PPT模板
  18. 大屏幕和笔记本适应 html,大屏幕 才够劲!超大屏幕笔记本推荐
  19. 【IoT】13.Disruptive Innovation 开拓式创新
  20. 有没有日程安排提醒的app?

热门文章

  1. php环境缺失msv文件_电脑环境缺失运行库_电脑缺失运行库
  2. matlab空间复杂度测试,NSGA2算法matlab实现(多个测试函数)
  3. 李宏毅机器学习笔记——深度学习
  4. ubunbtu下基于c++实现MQTT客户端通信
  5. 网页版2048游戏html,HTML网页版2048小游戏
  6. python selenium 刷课_基于Python和selenium的内蒙古继续教育网---刷课
  7. matlab符号系统
  8. 自动阅读行业又出新招?离线阅读脚本套路满满
  9. xvidcore.dll not found 的解决办法
  10. 计算机基础知识测试试题及答案,计算机基础知识测试试题及答案