ASCII、GB2312、GBK、Unicode、UTF-8介绍和转换
1、ASCII码
上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为 ASCII 码,一直沿用至今。ASCII 码一共规定了128个字符的编码,比如空格SPACE是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的一位统一规定为0。
2、GB2312
因为ASCII只用了前面128个位置。因此GB2312对其进行了扩展,两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。
3、GBK
GB2312只能表示大约7000多个汉字,但是中国的汉字太多了,我们很快就就发现有许多人的人名没有办法在这里打出来,不得不继续把 GB2312 没有用到的码位找出来用上。后来还是不够用,于是干脆不再要求低字节一定是127号之后的内码,只要第一个字节是大于127就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 “GBK” 标准,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。
4、Unicode
世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。
可以想象,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是 Unicode,就像它的名字都表示的,这是一种所有符号的编码。
Unicode 当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字严。具体的符号对应表,可以查询http://www.unicode.org/
5、Unicode存在的问题
Unicode 只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码的存储方式。
比如,汉字严的 Unicode 是十六进制数4E25,转换成二进制数足足有15位(100111000100101),也就是说,这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。
这里就有两个严重的问题,第一个问题是,如何才能区别 Unicode 和 ASCII ?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号呢?第二个问题是,我们已经知道,英文字母只用一个字节表示就够了,如果 Unicode 统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储来说是极大的浪费,文本文件的大小会因此大出二三倍,这是无法接受的。
它们造成的结果是:1)出现了 Unicode 的多种存储方式。 2)Unicode 在很长一段时间内无法推广,因为存储方式不统一。
6、UTF-8
随着互联网发展,出现了UTF-8,它是使用最广的Unicode存储方式,类似的还有UTF-16和UTF-32。UTF-8 最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
UTF-8 的编码规则很简单,只有二条:
1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的 Unicode 码。这和ASCII码编码规则一样,因此对于英语字母,UTF-8 编码和 ASCII 码是相同的。
2)对于n字节的符号(n > 1),第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。
下表总结了编码规则,字母x表示可用编码的位。
根据上表可知,如果第一个字节的第一位为0,那么这个字节单独就表示一个字符。如果第一位是1,则后面连续有几个1,就表示当前字符占用几个字节。
如“严”的Unicode是是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800 - 0000 FFFF),因此严的 UTF-8 编码需要三个字节,即格式是1110xxxx 10xxxxxx 10xxxxxx。然后,从严的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,严的 UTF-8 编码是11100100 10111000 10100101,转换成十六进制就是E4B8A5
7、(小端)Little endian和(大端)Big endian模式
文件的存储可以分为大端模式和小端模式,Unicode 规定,每一个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做"零宽度非换行空格"(zero width no-break space),用FEFF表示。这正好是两个字节,而且FF比FE大1。
如果一个文本文件的头两个字节是FE FF,就表示该文件采用大头方式;如果头两个字节是FF FE,就表示该文件采用小头方式。
8、实例
打开记事本,新建一个文本文件,内容就是一个严字,依次采用ANSI,Unicode,Unicode big endian和UTF-8编码方式保存。然后,用文本编辑软件UltraEdit 中的"十六进制功能",观察该文件的内部编码方式。
1)ANSI:文件的编码就是两个字节D1 CF,这正是严的 GB2312 编码,这也暗示 GB2312 是采用大端方式存储的。
2)Unicode:编码是四个字节FF FE 25 4E,其中FF FE表明是小端方式存储,真正的编码是4E25。
3)Unicode big endian:编码是四个字节FE FF 4E 25,其中FE FF表明是大端方式存储。
4)UTF-8:编码是六个字节EF BB BF E4 B8 A5,前三个字节EF BB BF表示这是UTF-8编码,后三个E4 B8 A5就是严的具体编码,它的存储顺序与编码顺序是一致的。
9、编码方式在计算机和互联网之间的转换
在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。
用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:
浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器:
所以你看到很多网页的源码上会有类似<meta charset="UTF-8" />
的信息,表示该网页正是用的UTF-8编码。
ASCII、GB2312、GBK、Unicode、UTF-8介绍和转换相关推荐
- 深入理解-字符编码ASCII,GB2312,GBK,Unicode,UTF-8
字符编码 简介 起初再考虑写不写这篇文章,感觉这篇文章比较枯燥乏味,而且自己感觉也没理解的太透彻,就把理解的记录下来,所以这是纪念版的 前方高能,非战斗人员请迅速撤离,我要开始装逼了. Go hard ...
- ASCII, GB2312, GBK, Unicode, UTF8之间的区别和联系
原文链接:https://zhuanlan.zhihu.com/p/258345888 感谢原作者的分享~本博客仅仅是为了做笔记 计算机是美国人发明的, 早期在处理文字方面, 美国人很自然地只考虑处理 ...
- 字符集、字符编码、国际化、本地化简要总结(UNICODE/UTF/ASCII/GB2312/GBK/GB18030)
PS:要转载请注明出处,本人版权所有. PS: 这个只是基于<我自己>的理解, 如果和你的原则及想法相冲突,请谅解,勿喷. 环境说明 普通的linux 和 普通的windows. ...
- 常用字符集(ASCII,ISO8859-1,GB2312,GBK,Unicode)和字符编码(UTF-8,UTF-16)
转自:https://blog.csdn.net/wn084/article/details/80363792 参考:https://blog.csdn.net/halchan/article/det ...
- QTextEdit显示中文乱码解决,中文GB2312转Unicode,QString、QByteArray 转换,16进制显示,toUtf8与toLocal8Bit区别
QString.QByteArray 的等效转换: QByteArray = QString.toUtf8();// 转换为Unicode字符集编码,多字节编码,单个中文占3~4个字节 QByteAr ...
- C#_汉字与GBK,Unicode,UTF-8编码之间的转换
IT发展至今,字符编码版本众多,目前流行的GBK,Unicode,UTF-8编码与汉字的转换可用如下代码: private void button1_Click(object sender, Even ...
- php iconv #039;cp936#039; 转gbk,php cp936转utf8编码转换乱码问题的解决方案
php cp936转utf8中文编码转换汉字乱码问题的解决方案 今天遇到个问题, 中文字符串 如 åç°ä»£è½»å¥¢å ¨éåç 需要转换为 UTF8,就调用了PHP的函数, mb_conve ...
- ASCII,unicode, utf8 ,big5 ,gb2312,gbk,gb18030等几种常用编码区别
ASCII,unicode, utf8 ,big5 ,gb2312,gbk,gb18030等几种常用编码区别 最近老为编码问题而烦燥,下定决心一定要将其弄明白!本文主要总 结网上一些朋友提供的 asc ...
- 大端小端,ascii,unicode,utf8,utf16,utf32,gb2312,gbk,gb18030等字符编码问题
字符编码的问题让我困惑了好久的一段时间,其实简单的想,字符编码没有什么东西的,可是想真弄明白还是花去了我一点时间,前端时间写了一个简单的log程序,主要的工作就是支持系统运行时输出日志信息,同时允许定 ...
最新文章
- 刚盈利的DeepMind收购MuJoCo:转手开源,所有人免费用
- air什么意思中文_Air译中文是什么意思,the air中文是什么意思
- Docker导入、导出、删除容器
- PHP新浪乐居面试题,一个朋友去新浪乐居面试时的面试题(PHP)
- 类似Tinder APP的配对逻辑
- Python到底是个什么东西
- Maven的构建配置文件(Build Profiles)
- 正则中除了空格还有什么标识间距
- spring的几个通知(前置、后置、环绕、异常、最终)
- .net core 装了没生效_王者荣耀:辅助装出现惊天bug?辅助光环对自己无效?
- oracle 数据树,ORACLE 树形数据
- mysql加锁6_MySQL优化(6):Mysql锁机制
- 【Elasticsearch】elasticsearch 段 segment 段合并
- [Python] np.ones_like(ndarray)和np.zeros_like(ndarray)
- 权威高清24色图(2种颜色叫不上名,青专业人士指点)-制作不易,对你有帮助麻烦点个赞
- 联想小新14风扇一直很响怎么办
- 触发onblur事件alert死循环问题
- Bug算法(Bug Algorithms)简介(Bug1 Bug2 Tangent Bug)
- python当前运行目录_Python获取运行目录与当前脚本目录的方法
- 阿里云新增三大高性能计算解决方案,助力生命科学行业快速发展
热门文章
- java fromstring_Java UUID fromString()方法与示例
- B站开源动漫画质修复模型,超分辨率无杂线无伪影,还是二次元最懂二次元
- 武装机器狗不会自主杀人,监管自主杀伤性武器是政府的事,机器狗公司CEO这样说...
- 只需3kbps就能清晰通话,这个谷歌音频工具开源了!
- 新生男婴自带新冠抗体,感染者母亲如今抗体消失,医生:抗体转移了
- UCLA教授遭到举报后被停课!原因竟是不同意学生主张的“考试放水”
- MLPerf发布首个AI芯片推理测试排行榜:阿里平头哥含光800获得多项第一
- 加拿大高等研究院宣布新的科研计划,Bengio、LeCun 任 AI 项目负责人...
- centos7.5 升级kernel内核版本
- py2与py3的区别