文章目录

  • 1. GB2312
  • 2. GBK
  • 3. Unicode
  • 4. UTF-8
  • 5. BIG5

小编一直对文字编码感到模糊,在学习、编程等过程中也经常会遇到与之相关的问题,无奈只能问百度。于是,为解决这一问题,小编花了一些时日了解和学习这些编码,整理出了这些编码的“性格特点”,“兴趣爱好”等等(文章中可能不全面,接受建议)。
有关文章参见: 趣谈unicode,ansi,utf-8,unicode big endian这些编码有什么区别。
在这之前,我得先提一下 ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今 最通用单字节编码系统,并等同于国际标准ISO/IEC 646(ISO是国际字符集编码标准)。
在早期,人们用 8 位二进制来编码英文字母(最前面的一位是 0),也就是说,将英文字母和一些常用的字符和这 128 中二进制 0、1 串一 一对应起来,比如说 大写字母“A”所对应的二进制位“01000001”,转换为十六进制为 41。在美国,这 128 是够了,但其他国家也需要计算机,也需要编码表示自己国家的文字,于是在此基础上或是重新编码生出了很多的编码版本,本文只介绍与汉字有关的编码。
了解了ASCII码以后,我们就可以容易的了解以下内容,其实其他一系列编码一般离不开它。下面开始进入正题,介绍他们各自特点。

1. GB2312

“GB"是汉语拼英"guobiao”/"国标"的缩写,中国汉字编码标准,是一种不等长编码。GB系列从发展历程来看有很多,有GB7859,GB13000等等有简体中文也有繁体汉字,不细说,数GB2312最为基本和常用,它是对ASCII的中文扩展。约6763个简体汉字。

2. GBK

GBK是GB2312向GB13000过渡的一个中间产物,向下兼容GB2312的EUC编码,字汇(字符集)和GB13000相同,是GB2312的3倍,即包含GB2312的同时,又增加了近20000个新的汉字(简体、繁体),同时还包含BIG5(后面有说明)、Shift-JIS、KSC的字汇。在具体应用中,可以同时显示以上文字,但是除了GB2312,其他的需要进行转换。
顺便提一下,也许我们会经常看见 ANSI 码,其实就是GBK(在简体中文Windows系统中代表GBK,在繁体中文Windows系统中代表BIG5、在日文Windows系统中代表Shift-JIS)。

3. Unicode

为了统一世界上的所有文字而产生的多字节等长编码, Unicode为世界上的所有文字分配了一个唯一的数字符号,范围:0x000000-0x10FFFF(十六进制),有110多万,每个字符都有一个唯一的 Unicode 编号,这个编号一般写成 16 进制,在前面加上 U+。例如:“马”的 Unicode 是U+9A6C。
缺点:在制定时没有考虑,与任何一种现有的编码兼容(当然这是很难做到的,那时每个国家已经派生出许多版本),使得GBK与Unicode在汉字的内码编排上完全不一样,没有一种简单的算法可以把文本内容从Unicode和另一种编码进行交换,这种转换必须通过查表进行。

4. UTF-8

UTF-8的全称:Unicode Transformation Format。来源于Unicode,因为Unicode只是规定如何编码,那么就需要一种保存文字的格式协议,即UTF。
UTF-8使用变长字节表示,顾名思义,就是使用的字节数可变,这个变化是根据 Unicode 编号的大小有关,编号小的使用的字节就少,编号大的使用的字节就多。使用的字节个数从 1 到 4 个不等。其中英文字母用一个字节表示,汉字用3个字节表示。
下面是UTF-8编码的范围和对应的格式

编码范围 编码格式
0x00-0x7F(0-127) 0XXXXXXX
0x80-0x7FF(128-2047) 110XXXXX 10XXXXXX
0x800-0xFFFF(2048-65535) 1110XXXX 10XXXXXX 10XXXXXX
0x10000-0x10FFFF(65536以上) 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

例如:

“杨”字的Unicode码是6768,6768在范围0x800-0xFFFF(2048-65535)内,所以用对应的编码格式:1110XXXX 10XXXXXX 10XXXXXX,把6768化为二进制表示为:0001101001110000,然后依次替换模板中的X,得:11100001 10101001 10110000,化为十六进制为:E1A9B0–>即“杨”字的UTF-8码。也就是“杨”字的Unicode码为\u6768,而UTF-8码为E1A9B0。
注意:

  • UTF包含全世界所有国家需要用到的字符(因为来自Unicode)
  • UTF的中文所占用字节比GBK占用字节多(UTF占3个,GBK占2个),所以如果中文出现比例高的文本,一般用GBK,而不是UTF-8,如中文操作系统,简体用的是GBK,繁体是BIG5。
  • UTF是针对Unicode编码的,如果GBK与UTF互转,需要用Unicode做中介。
  • Unicode、GB、BIG5等是对文字的编码规则,而UTF是对Unicode的存储(传输)规则,不是对文字的编码规则。
  • 并列、包含和兼容关系:
    BIG5、GB、Unicode是并列关系;
    GBK包括了GB2312的字集,编码也相同;(兼容)
    GBK包含BIG5的字集,但编码不一样;(包含)
    Unicode为世界650种语言进行统一编码,兼容ISO-8859-1
5. BIG5

BIG5是目前中国台湾和中国香港地区普遍使用的一种繁体汉字的编码标准,包括440个符号,一级汉字5401个,二级汉字7652个,共计13060个汉字,所谓一级汉字与二级汉字对应于常用汉字和不常用汉字
编码范围和区域描述如下表:

范围 区域描述
8140-A0FE 用户造字区
A140-A3BF 符号区
A3C0-A3FE 保留区
A440-C67E 常用字区
C6A1-C8FE 用户造字区
C940-F9D5 次常用字区
F9D6-FEFE 用户造字区

我所了解的GB2312、Unicode、GBK、UTF-8、BIG5等编码相关推荐

  1. ASCII Unicode GBK UTF的联系

    快下班时,爱问问题的小朋友Nico又问了一个问题: "sqlserver里面有char和nchar,那个n据说是指unicode的数据,这个是什么意思." 并不是所有简单的问题都很 ...

  2. 【字符编码详解】ASCII、GB2312、GBK、UTF-8、UTF-16编码与Unicode字符集

    目录 前言 一.什么是编码,数据类型和编码有什么关系? 二.英文字符编码 ASCII编码 三.中文编码 1. GB2312标准 2. GBK编码 3. 其他中文编码 四.Unicode字符集 1. U ...

  3. Unicode、UTF 和 ISO-8859-1等编码方式详解与浏览器URL编码

    将字符转换为二进制码的过程,我们称为编码,将二进制码转换为字符的过程,我们称为解码. 编码和解码时所采用的规则,我们称为字符集 常见的字符集: ASCII - 美国人编码,使用7位来对美国常用的字符进 ...

  4. Sublime Text 3技巧:支持GB2312和GBK编码

    Sublime Text 3与Sublime Text 2的不同 其实有不少人写过如何让Sublime Text 2支持GB2312和GBK编码,例如这篇.基本原理就是先装好Package Contr ...

  5. [转]各种编码ANSI、GB2312、GBK、GB18030、UNICODE以及UTF-8傻傻分不清!

    计算机编程中的编码一直是让新手非常头疼的问题,特别是 GBK.GB2312.UTF-8 这三个比较常见的网页编码的区别,更是让许多新手晕头转向,怎么解释也解释不清楚,看一遍貌似懂了,但实际使用的时候又 ...

  6. 字符集:ASCII、GB2312、GBK、GB18030、Unicode

    文章目录 1 字符集.代码点.编码的概念 2 字符集发展的脉络 2.1 最早是ASCII 2.2 各个国家后续推出的编码表 2.3 ANSI到底是什么编码 3 ASCII 3.1 ASCII字符集简介 ...

  7. 字符集编码详解【ASCII 、GB2312、GBK、GB18030、unicode、UTF-8】(转)

    ASCII字符集编码 ASCII码是7位编码,编码范围是0x00-0x7F.ASCII字符集包括英文字母.阿拉伯数字和标点符号等字符.其中0x00-0x20和0x7F共33个控制字符. 只支持ASCI ...

  8. 【JAVA编码专题】JAVA字符编码系列一:Unicode,GBK,GB2312,UTF-8概念基础

    这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考. 为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问 ...

  9. 转载 中文字符集编码Unicode ,gb2312 , cp936 ,GBK,GB18030

    转自: http://www.blog.edu.cn/user3/flyingcs/archives/2006/1418577.shtml 概要:UTF-8的一个特别的好处是它与ISO- 8859-1 ...

  10. Java编码ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式详解

    1 ASCII American Standard Code for Information Interchange.最早最通用的单字节编码系统,因为发明时间早,所以ASCII编码表的设计较为简单. ...

最新文章

  1. python操作mysql数据库实现增删改查
  2. 人工智能加“医真云”,每年让5700万人告别误诊
  3. AI综述专栏 | 基于深度学习的目标检测算法综述
  4. mysql的innodb数据库引擎详解
  5. 移动端总结和手机兼容问题
  6. 台湾大学林轩田机器学习技法课程学习笔记10 -- Random Forest
  7. Lua 脚本内部执行 Redis 命令
  8. wxWidgets:在带有 DC 的面板上绘图
  9. 判断远程图片是否存在,否则替换成默认图片
  10. 一步步编写操作系统 71 直接操作显卡,编写自己的打印函数71-74
  11. 写出漂亮代码的七种方法
  12. [转载] python学习笔记
  13. 忠告 | 小小对Java30岁程序猿的忠告,强烈推荐!
  14. 17. QTreeView 简单用法
  15. matlab描点写函数,matlab描点并标上点的序号
  16. java程序怎么混淆,使用混淆器,保护你的java程序,混淆java
  17. 传奇怎么修改服务器,如何修改传奇服务端路径
  18. PHP实现网页截图?还可以实现登录截图!
  19. Gluster集群管理小分析
  20. app测试——打印日志

热门文章

  1. aida32系统信息报告
  2. 小谈wagaa的下载速度
  3. python logging日志分割_Python3测井曲线切割,python3logging,日志
  4. Fedora9下编译内核
  5. eclipse开发webservice实例及问题解决
  6. matlab_多目标遗传算法
  7. 【源码分享】短信平台插件74cms_v4.1_骑士人才系统
  8. 全球知名企业高管预测2019人工智能趋势
  9. 中国城市网约车监管之政策走向与发展前景
  10. 2022年 hust OJ 最新搭建方式