Unicode详解zz
- 基本知识
- 字节和字符的区别
- Big Endian和Little Endian
- UCS-2和UCS-4
- UTF-16和UTF-32
- UTF-16
- UTF-32
- UTF-8
基本知识
字节和字符的区别
Big Endian和Little Endian
地址 | 值 |
0x00000000 | AB |
0x00000001 | CD |
地址 | 值 |
0x00000000 | CD |
0x00000001 | AB |
UCS-2和UCS-4
UTF-16和UTF-32
UTF-16
UTF-16BE | 00 41 00 42 00 43 |
UTF-16LE | 41 00 42 00 43 00 |
UTF-16(Big Endian) | FE FF 00 41 00 42 00 43 |
UTF-16(Little Endian) | FF FE 41 00 42 00 43 00 |
UTF-16(不带BOM) | 00 41 00 42 00 43 |
- 从代码点U中减去0x10000,得到U'。这样U+10000~U+10FFFF就变成了 0x00000~0xFFFFF。
- 用20位二进制数表示U'。 U'=yyyyyyyyyyxxxxxxxxxx
- 将前10位和后10位用W1和W2表示,W1=110110yyyyyyyyyy,W2=110111xxxxxxxxxx,则 W1 = D800~DBFF,W2 = DC00~DFFF。
UTF-32
UTF-32BE | 00 00 00 41 00 00 00 42 00 00 00 43 |
UTF-32LE | 41 00 00 00 42 00 00 00 43 00 00 00 |
UTF-32(Big Endian) | 00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43 |
UTF-32(Little Endian) | FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00 |
UTF-32(不带BOM) | 00 00 00 41 00 00 00 42 00 00 00 43 |
UTF-8
UCS-2 (UCS-4) | 位序列 | 第一字节 | 第二字节 | 第三字节 | 第四字节 |
U+0000 .. U+007F | 00000000-0xxxxxxx | 0xxxxxxx | |||
U+0080 .. U+07FF | 00000xxx-xxyyyyyy | 110xxxxx | 10yyyyyy | ||
U+0800 .. U+FFFF | xxxxyyyy-yyzzzzzz | 1110xxxx | 10yyyyyy | 10zzzzzz | |
U+10000..U+10FFFF |
00000000-000wwwxx- xxxxyyyy-yyzzzzzzz |
11110www | 10xxxxxx | 10yyyyyy | 10zzzzzz |
转载于:https://blog.51cto.com/xieyu/210261
Unicode详解zz相关推荐
- SVN switch 用法详解 (ZZ)
SVN switch 用法详解 (ZZ) http://www.cnblogs.com/dabaopku/archive/2011/05/21/2052820.html 确实,以前不会用switch ...
- Unicode详解 真干货! 一文带你手撕Unicode
Unicode详解 真干货! 一文带你手撕Unicode 如果有错误也希望大佬指正! Unicode 字符集: https://home.unicode.org/ 可以使用编码工具根据下面的内容自己尝 ...
- python中unicode编码表_Python中的字符串操作和编码Unicode详解
本文主要给大家介绍了关于 Python中的字符串操作和编码Unicode的一些知识,下面话不多说,需要的朋友们下面来一起学习吧. 字符串类型 str:Unicode字符串.采用''或者r''构造的字符 ...
- ASP中利用OWC控件实现图表功能详解[zz]
ASP中利用OWC控件实现图表功能详解 在ASP中利用OWC(Office Web Components)控件可轻松实现各种图表功能,如饼图,簇状柱型图,折线图等. 在下面的代码中我详细的给出了饼图, ...
- python unicode函数_python 中的unicode详解
通过例子来看问题是比较容易懂的. 首先来看,下面这个是我新建的一个txt文件,名字叫做ivan_utf8.txt,然后里面随便编辑了一些东西. 然后来用控制台打开这个文件,同样也是截图: 这里就是简单 ...
- gbk和utf-8、unicode详解
gbk包含全部中文字符:utf-8则包含全世界所有国家需要用到的字符. gbk是是国家编码,通用性比utf-8差. utf-8通用性比较好,是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一 ...
- unicode 详解
一.Unicode是什么? Unicode源于一个很简单的想法:将全世界所有的字符包含在一个集合里,计算机只要支持这一个字符集,就能显示所有的字符,再也不会有乱码了. 点击打开链接
- WebRTC详解-zz
1.WebRTC目的 WebRTC(Web Real-Time Communication)项目的最终目的主要是让Web开发者能够基于浏览器(Chrome\FireFox\...) 轻易快捷开发出丰富 ...
- C/C++中extern关键字详解[zz]
1 基本解释:extern可以置于变量或者函数前,以标示变量或者函数的定义在别的文件中,提示编译器遇到此变量和函数时在其他模块中寻找其定义.此外extern也可用来进行链接指定. 也就是说extern ...
- Fedora的服务详解zz
En: http://www.mjmwired.net/resources/mjm-services-fc6.html Fedora10: http://www.mjmwired.net/resour ...
最新文章
- putchar函数的基本格式
- matlab如何截取图像的中间部分_利用matlab提取并分割RGB图像中的某一个已知像素值的图像...
- fatal: unable to access : The requested URL returned error: 403
- 科研实习 | 北京大学智能学院贺笛老师招收NLP/GNN方向科研实习生
- 【JavaScript】js数组与字符串的相互转换
- android 5.0 下载编译
- 数据太少怎么办?试试自监督学习,CV训练新利器,fast.ai新教程,LeCun点评
- python 怎么取对数_重新开始学习Python 第二十八天 Python 数学模块
- Sql Server之旅——第十三站 对锁的初步认识
- matlab差分进化算法解决TSP问题
- 华为盒子EC6108V9A-RK3128-1+4G 免拆机 卡刷固件及教程
- python3爬虫(2):使用Selenium爬取百度文库word文章
- win10系统迁移后系统重装_win10系统迁移【搞定手段】
- PyCharm插件安装
- det3d python setup.py build develop
- CCF真题 工资计算
- 怎样使用计算机操作,鼠标操作怎么用?电脑鼠标操作图文教程
- 电源设计中最常见的四种滤波电路原理及特点解析
- 树莓派系统剪裁、克隆
- Windows7SP1补丁包(Win7补丁汇总)截至2011年04月更新 32位64位
热门文章
- 如何使用Cisdem Video Converter在Mac上将MTS批量转换为MP4
- HoudahSpot 6 for Mac(支持内容高亮的搜索神器)支持m1
- 编译器预编译与变量提升
- 电脑里的视频被误删了可以用EasyRecovery恢复吗?
- MongoDB 3.2+ 安全授权登录访问控制
- .net实现调用本地exe等应用程序的办法总结
- centos 6.3+mysql+5.6+nginx 1.5.8
- 排土场、弃渣场和尾矿库的区别
- GRE tunnel ×××
- M1 Mac 档案的临时暂存区工具: Yoink