2019独角兽企业重金招聘Python工程师标准>>>

在计算机内部,所有的信息终于都是表示为0和1去展示,但是如何表达出那么多的字符呢?

一、二进制位(bit) 
在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态。

二、字节(byte) 
通过八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。 
也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。

三、ASCII码 
上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。ASCII码 
ASCII码一共规定了128个字符的编码,比如空格”SPACE”是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。

四、非ASCII编码 
英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如拉丁文中的α,它就无法用ASCII码表示。 
于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。

但是,这里又出现了新的问题。 
(1)、不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0–127表示的符号是一样的,不一样的只是128–255的这一段。 
(2)、至于亚洲国家的文字,使用的符号就更多了,比如我们的汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。

所以又有了一些新的编码方式。 
比如简体中文常见的编码方式是GBK和GB2312,GB2312使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536个符号。中文编码的问题需要专文讨论,这篇笔记不涉及。这里只指出,虽然都是用多个字节表示一个符号,但是GB类的汉字编码与后文的Unicode和UTF-8是毫无关系的。

但是问题来了,各种各样的编码方式,太多了,需要一种统一的方式来兼容各种文字和符号。

五、Unicode字符集 
世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。 
可以想象,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名字都表示的,这是一种所有符号的编码。 
Unicode当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字”严”。具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表。

Unicode的问题: 
需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,不像ASCII编码,GB2312编码,都是和每个字符集表一一对应的,Unicode没有规定这个二进制代码应该如何存储。 
比如,汉字”严”的unicode是十六进制数4E25,转换成二进制数足足有15位(100111000100101),也就是说这个符号的表示至少需要2个字节。表示其他更大的符号,可能需要3个字节或者4个字节,甚至更多。 
这里就有两个严重的问题,第一个问题是,如何才能区别Unicode和ASCII?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号呢?第二个问题是,我们已经知道,英文字母只用一个字节表示就够了,如果Unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储来说是极大的浪费,文本文件的大小会因此大出二三倍,这是无法接受的。

它们造成的结果是: 
(1)、出现了Unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示Unicode。 
(2)、Unicode在很长一段时间内无法推广,直到互联网的出现。

六、UTF-8编码 
互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。其他实现方式还包括UTF-16(字符用两个字节或四个字节表示)和UTF-32(字符用四个字节表示),不过在互联网上基本不用。 
重复一遍,这里的关系是,UTF-8是Unicode字符集编码实现方式之一。 
UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。 
UTF-8的编码规则很简单,只有二条: 
(1)、对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。 
(2)、对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

转载于:https://my.oschina.net/haoran100/blog/712456

计算机字符编码从0/1到UTF-8相关推荐

  1. 史诗级计算机字符编码知识分享,万字长文,一文即懂!

    本文由阿里技术团队詹向阳(骁飏)分享,原题"一文读懂字符编码",有修订和改动. 一.引言 说起计算机字符编码,让我想起了科幻巨作<三体-黑暗深林>人类遇到外星文明魔戒的 ...

  2. 计算机字符编码及Unicode简介(转)

    计算机,毫无疑问是一部机器,在最初我们接触计算机时或者接收计算机教育时,我们就知道:计算机能识别的只有0和1组成的二进制编码.人与计算机交互早期也是用二进制编码方式,当时人们或通过扳动计算机庞大的面板 ...

  3. 计算机字符编码基础知识

    计算机字符编码基础知识 由于计算机只能识别0和1,所以字符(文字.符号)需要编码,图像.音频.视频等也需要编码.本文主要介绍字符编码,特别是与机内码相关的内容. 字符的处理涉及到下列三类编码: 输入码 ...

  4. 计算机字符编码——ASCII码和常用编码

    计算机字符编码--ASCII码和常用编码 ASCII码 基本介绍 上个世纪60年代, 美国制定了一套字符编码, 对英语字符与二进制位之间的关系, 做了统一规定,这被称为ASCII码. ASCII码一共 ...

  5. 计算机字符编码详尽讲解

    文章来源:http://www.guokr.com/blog/763017/ 下载一个文档,一打开发现是乱码,不抓狂才怪--你们都知道,这都是字符编码闯的祸.ASCII.ANSI.GB18030.Un ...

  6. 【附章5计算机字符编码】多种字符编码集的说明

    ❤写在前面 ❤博客主页:努力的小鳴人 ❤系列专栏:JavaSE超详总结

  7. 【转】刨根究底字符编码【2.0版】(2):关键术语解释

    上一篇中讲道,字符编码所涉及的面非常广,向下的话,涉及到计算机的底层技术,甚至是硬件实现. 因此,这里就让我们从字符编码涉及到的最基本的术语讲起.大部分术语你可能都已经有了解了,但我们现在从字符编码的 ...

  8. Swift3.0语言教程删除字符与处理字符编码

    Swift3.0语言教程删除字符与处理字符编码 Swift3.0语言教程删除字符 Swift3.0语言教程删除字符与处理字符编码,在字符串中,如果开发者有不需要使用的字符,就可以将这些字符删除.在NS ...

  9. 字符集(Character Set)和字符编码(Character Encoding)

    计算机字符编码 字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符号,数字等. 字符集(Character Set.Charset):字符集是多个符号的集合,每个字符集包含的字符个数不 ...

  10. 字符集和字符编码以及相关

    目录 为什么写本文? 什么是编码? 什么是字符? 字符集和字符编码的概念 简述字符集和字符编码发展史 Unicode字符集以及相关字符编码 参考链接 为什么写本文? 其实在我心中是一直知道有字符编码这 ...

最新文章

  1. adg oracle 架构_云化双活的架构演进,宁夏银行新核心搭载Oracle 19c投产上线
  2. 花5分钟看这篇之前,你才发现你不懂RESTful
  3. Vsftpd 服务器 问题大全
  4. 清华大学 pip 源
  5. ibatis动态查询条件(转载待完善)
  6. Delphi7 (第一天:类的编写)续
  7. 了解员工工作的四种方法
  8. Outlook新邮件要双击打开后才显示为已读
  9. Zephir入门 —— 语法篇
  10. JS重新来过之------------[String对象]
  11. CALayer 简单的使用
  12. [翻译]用表单字段加亮的方式为用户提供友好的界面
  13. 亲测window+iis+letsencrypt+ssl 手动续期(通配符域名)
  14. 【图像去噪】基于matlab小波域双重局部维娜滤板图像去噪【含Matlab源码 1642期】
  15. b和kb的换算_b和kb的换算(b换算成kb)
  16. Python类和包的介绍
  17. 超可爱的宝藏网站,看看你在漫画中长什么样
  18. MIMO-OFDM系统原理及其关键技术
  19. Python 的 libpng warning: iCCP: cHRM chunk does not match sRGB 报错处理
  20. js中类似${xx,xxxy}的语句——${}占位符的使用 ``模板字符串的使用

热门文章

  1. lede虚拟服务器,在虚拟机中安装 LEDE 软路由
  2. 下载地址url中带有中文是url转换方法
  3. matlab中转置操作,如何转置MATLAB表?
  4. 基于STM32移植UCGUI图形界面框架(3.9.0源码版本)
  5. java处理Excel数据
  6. AOD实践,modis数据下载,modis数据处理,
  7. AForge.net获取摄像头
  8. 高级维修电工实训装置
  9. CMPP网关协议核心代码 java版本
  10. 一款 Java 开源的 Spring Boot 即时通讯 IM 聊天系统(源码自取)