内容仅用于个人学习,如有侵权请联系删除~

原文链接:https://www.zhihu.com/question/23374078

一、解释1

简单来说:

  • Unicode 是「字符集」
  • UTF-8 是「编码规则」

其中:

  • 字符集:为每一个「字符」分配一个唯一的 ID(学名为码位 / 码点 / Code Point)
  • 编码规则:将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程)

广义的 Unicode 是一个标准,定义了一个字符集以及一系列的编码规则,即 Unicode 字符集和 UTF-8、 UTF-16、UTF-32 等等编码……

Unicode 字符集为每一个字符分配一个码位,例如「知」的码位是 30693,记作 U+77E5(30693 的十 六进制为 0x77E5)。

UTF-8 顾名思义,是一套以 8 位为一个编码单位的可变长编码。会将一个码位编码为 1 到 4 个字节:

U+ 0000 ~ U+ 007F: 0XXXXXXX

U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX

U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX

U+10000 ~ U+10FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

根据上表中的编码规则,之前的「知」字的码位 U+77E5 属于第三行的范围:

这就是将 U+77E5 按照 UTF-8 编码为字节序列 E79FA5 的过程。反之亦然。

二、解释2

举一个例子:It's 知乎日报

你看到的unicode字符集是这样的编码表:

I 0049 t 0074 ' 0027 s 0073 0020 知 77e5 乎 4e4e 日 65e5 报 62a5

每一个字符对应一个十六进制数字。

计算机只懂二进制,因此,严格按照unicode的方式(UCS-2),应该这样存储:

I 00000000 01001001
t 00000000 01110100
' 00000000 00100111
s 00000000 0111001100000000 00100000
知 01110111 11100101
乎 01001110 01001110
日 01100101 11100101
报 01100010 10100101

这个字符串总共占用了18个字节,但是对比中英文的二进制码,可以发现,英文前9位都是0!浪费啊,浪 费硬盘,浪费流量。

怎么办? UTF。

UTF-8是这样做的:

1. 单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;

2. n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n 个字节的其余空位填充该字符unicode码,高位用0补足。 这样就形成了如下的UTF-8标记位:

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
... ...

于是,”It's 知乎日报“就变成了:

I 01001001
t 01110100
' 00100111
s 0111001100100000
知 11100111 10011111 10100101
乎 11100100 10111001 10001110
日 11100110 10010111 10100101
报 11100110 10001010 10100101

和上边的方案对比一下,英文短了,每个中文字符却多用了一个字节。但是整个字符串只用了17个字节, 比上边的18个短了一点点。

unicode编码和utf-8编码的区别相关推荐

  1. html转换编码格式,html编码转换 html编码设置utf gbk编码转换图文教程

    html编码转换 html编码设置utf gbk编码转换图文教程篇 常用HTML编码之urf-8编码转换为gb2312编码或者gb2312转换为utf-8编码快速转换设置,这里DIVCSS5介绍使用D ...

  2. Unity中获取字符串长度、Unicode字符数量和编码ASCII,UTF,GBK的区别

    1.String.Length,String.ToCharArray,StringInfo,Encoding.UTF8.GetByteCount的区别: String.Length:获取的是字符串中C ...

  3. 汉字编码(【Unicode】 【UTF-8】 【Unicode与UTF-8之间的转换】 【汉字 Unicode 编码范围】【中文标点Unicode码】【GBK编码】【批量获取汉字UNICODE码】)

    参考博客: Unicode与UTF-8互转(C语言实现):http://blog.csdn.net/tge7618291/article/details/7599902 汉字 Unicode 编码范围 ...

  4. 关于Unicode,字符集,字符编码

    基本概念 字符[character] 字符代表了字母表中的字符,标点符号和其他的一些符号.在计算机中,文本是由字符组成的. 字符集合[character set] 由一套用于特定用途的字符组成,例如支 ...

  5. Unicode中UTF-8与UTF-16编码详解

    概述 本文通过介绍Unicode编码以及对应的两种编码方式UTF-8和UTF-16,让读者能够了解关于字符串编码的相关知识,同时能够弄清楚Unicode和UTF-8和UTF-16之间的关系. 本文的主 ...

  6. unicode编码表_6-字符编码-文件处理

    1.字符编码 1.什么是字符编码人类在于计算机交互时,用的都是人类能读懂的字符,如:中文字符,英文字符,日文字符的等,而计算机只能识别二进制数,详解如下:(进制数即由0和1组成的数字,例如010010 ...

  7. java ascii 编码方式,Java 字符编码 ASCII、Unicode和UTF-8

    1 ASCII码 统一规定英语字符与二进制位之间的关系.ASCII码一共规定了128个字符的编码.例如,空格"SPACE"是32(二进制00100000),大写字母A是65(二进制 ...

  8. 字节码:ASCII编码:单字节编码,ANSI编码:多字节编码,UNICODE编码:宽字节编码

    字符字节与编码 字符是人们常用的一些记号,比如"1", "汉", "お","℃"等等,包括各种语系的语言和一些符号都可以 ...

  9. 关于Unicode,UTF-8,GB编码详解

    内容来自网络, 有部分修正 一.首先我们需要明白关于字符(character),字符集(character set),字符编码方式(character encoding)的概念. 字符 :字符是抽象的 ...

  10. 细说ASCII、GB2312/GBK/GB18030、Unicode、UTF-8/UTF-16/UTF-32编码

    参考: <编码标准-GB2312 GBK GB18030> <字符编码笔记:ASCII,Unicode 和 UTF-8> <字体编辑用中日韩汉字Unicode编码表> ...

最新文章

  1. 二维数组c语言矩阵加法,C 语言实例 – 两个矩阵相加 - C 语言基础教程
  2. Nature:麻省理工人造「巨型原子」问世,量子处理和量子通信合二为一
  3. WKWebView自适应大小
  4. OpenStack和Redis
  5. 二、安装Spark集群
  6. java 请求http get_java http get/post请求
  7. java 二分查找 排序_java 冒泡排序 二分查找
  8. 计算机专业应届生年薪30多万,制造焦虑,非广告,请看截图
  9. 一个 bootstrap 弹出框插件
  10. JAVASCRIPT加密解密终级指南
  11. piwik阅读(整体结构)
  12. android自定义大转盘,Android使用surfaceView自定义抽奖大转盘
  13. mysql latch和缓存关系_latch:cachebufferschains等待事件导致的latch争用的原理原因与...
  14. 立创商城中的元件应用到AD中的一些经验
  15. Scikit-learn学习系列 | 4. sklearn特征降维方法汇总(方差过滤,卡方,F过滤,互信息,嵌入法)
  16. 谷歌地球坐标_聊聊GIS中常见的地理坐标系统
  17. ESP8266/ESP32Wi-Fi无线网络介绍
  18. ftp 操作,支持断点续传或者继续下载。
  19. 29款英文SEO优化工具介绍
  20. SpringBoot 优雅停机

热门文章

  1. 考研最卷的专业,我们替你查到了!
  2. cs6制作拼图游戏 dreamweaver_Dreamweaver制作拼图步骤
  3. 应届大学生入职的时候首要问公司的主要两个问题是?
  4. 小程序开发之组件video(视频)
  5. 卸载程序时遇到“请等待当前程序完成卸载或更改”
  6. 七夕节来用python表白吧!爱情病毒浸染你的心!
  7. LPC1768生成bin文件夹问题
  8. linux module 目录,linux module工具安装与使用
  9. 【XSS跨站脚本】反射型xss(非持久型)
  10. php窗帘excel,各种办公室窗帘的用途及优缺点 办公窗帘安装讲