这篇博客介绍理论编码ucs4

编码范围

  • ucs4共有4个字节,理论允许的编码范围为
    00000000 00000000 00000000 00000000

    11111111 11111111 11111111 11111111
  • 但最高位没有用,始终是0,所以实际的编码范围为
    00000000 00000000 00000000 00000000

    01111111 11111111 11111111 11111111

组、平面、行、码位

概念

  • 第一个字节称为
  • 第二个字节称为平面
  • 第三个字节称为
  • 第四个字节称为码位

个数

  • 组从0000000001111111,共有27=1282^7=12827=128个组。
  • 平面、行、码位类推,像平面共有28=2562^8=25628=256个平面

范围

  • 组的范围就是除组之外后边几个bit的范围,所以每个组的范围都是0至2242^{24}224
  • 例如2组就是:00000010 00000000 00000000 0000000000000010 111111111 111111111 111111111
  • 平面、行、码位类推,码位就只有256个码位,没有范围之说了。

ucs4的0组17个平面

规定

  • 统一码联盟规定,ucs4中目前只使用0组的17个平面进行编码,也就是从0组的0号平面编码到0组的第16号平面.
  • 即所允许的编码范围为
    00000000 00000000 00000000 00000000

    00000000 00010000 11111111 11111111
  • 每个平面有65536个编码,共17个平面,也就是说允许的编码有17×65536=1,114,112‬个.

17个平面也没有用完

  • 目前实际编码的字符有238605个,这17个平面也没有用完.
  • 这些字符分布在平面0、平面1、平面2、平面14、平面15、平面16上,且每个平面也没有都用完,都有空闲的部分.
  • 其中平面15和平面16是专用区,如果以后再发明了某种字符且被世界认可,就在这两个平面编码.

BMP编码

  • BMP编码就是UCS4中0组0平面的范围
  • 也就是00000000 00000000 xxxxxxxx xxxxxxxx
  • 它其实就是UCS2理论编码,因为是理论编码,前边的0存在不存在都无所谓.

搞清楚字符编码06-万国码[2]相关推荐

  1. 搞清楚字符编码08-万国码[4](utf-8)

    这篇博客介绍万国码中的实际存储编码utf-8 utf-8是什么 utf-8是一种实际存储编码 它即可以存储理论编码ucs2又可以存储理论编码ucs4 变长存储,各个字符编码的长度可能不相同. 它是为了 ...

  2. 搞清楚字符编码07-万国码[3]

    这篇博客介绍万国码中的实际存储编码ucs-2 变长存储与不变长存储 ucs-2是我们介绍的第一种实际存储编码,对实际存储编码我们要先说两个概念:变长存储与不变长存储 变长存储:各个字符编码的长度可能不 ...

  3. 搞清楚字符编码10-万国码[6]

    这篇博客简要介绍一下万国码的BOM信息以及万国码的大小端 实际存储编码总结 在前边的几篇博客中介绍在主要的几种万国码的实际存储编码,在这里简单的总结一下. 实际存储编码 对应的理论编码 是否变长存储 ...

  4. 搞清楚字符编码09-万国码[5]

    这篇博客我们来介绍万国码实际存储编码中的utf-16与utf-32 utf-16是什么 utf-16是理论编码ucs4的一种实际存储编码 基本单元是2个字节 变长存储,存储BMP时长度是2个字节,存储 ...

  5. 搞清楚字符编码05-万国码[1]

    万国码的基本知识点 万国码是由国际标准组织和统一码联盟共同制定的. 万国码有两个版本,第一个版本的最大编码长度是2个字节,第二个版本的最大编码长度是4个字节. 万国码的实现 万国码的实现分为两个层次: ...

  6. python day2 python基础 列表、元组操作 字符串操作 字典操作 集合操作 文件操作 字符编码与转码...

    本节内容 列表.元组操作 字符串操作 字典操作 集合操作 文件操作 字符编码与转码 1. 列表.元组操作 列表是我们最以后最常用的数据类型之一,通过列表可以对数据实现最方便的存储.修改等操作 定义列表 ...

  7. php查看字符编码,PHP实现检测当前字符编码并转码的方法

    本文主要和大家分享PHP实现检测当前字符编码并转码的方法,结合文字和代码,希望能帮助到大家. 一.检测当前字符串编码并将编码改为utf-8 1 获取当前字符串的编码 $encode = mb_dete ...

  8. Python之令人心烦意乱的字符编码与转码

    ASC-II码:英文1个字节(8 byte),不支持中文: 高大上的中国,扩展出自己的gbk.gb2312.gb2318等字符编码. 由于各个国家都有自己的编码,于是就需要统一的编码形式用于国际流传, ...

  9. 彻底搞懂 字符 编码 GBK 和 UTF8

    转:彻底搞懂编码GBK和UTF8 彻底搞懂编码 GBK 和 UTF8 常用编码格式一览 首先来看一下常用的编码有哪些,截图自Notepad++.其中ANSI在中国大陆即为GBK(以前是GB2312), ...

最新文章

  1. 使用Hive UDF和GeoIP库为Hive加入IP识别功能
  2. Javaweb基础——Servlet
  3. 递归反转链表的一部分
  4. Linux中Shell的转义用法笔记
  5. dataframe转化为array_【Python专栏】12 种高效 Numpy 和 Pandas 函数为你加速分析
  6. 【Linux笔记】LED驱动程序
  7. gridview RowCommand 事件获取行索引
  8. 安卓开发 实现文字渐变效果_AI教程!用网格工具做渐变字效
  9. Seay源代码审计系统
  10. linux添加usb扫描枪,抓取扫描枪扫描数据的案例
  11. Sqlite3实现脏读
  12. python不能作为变量名的_在Python语言中,不能作为变量名的是
  13. OS福利部落iOS15绕过激活工具,支持最新iOS15.5绕过
  14. windows7最简单最快速解决“此windows副本不是正版”(“This copy of Windows is not genuine”)方法
  15. Android实现图片轮播
  16. div css实现进度条
  17. 苹果手机如何找回id密码_iPhone手机ID总是忘记密码,轻松一招帮你找回,原来这么简单...
  18. 笔记本光驱在计算机里不显示器,笔记本怎么解决识别不了光驱
  19. App can't be opened because it is from an unidentified developer
  20. Linux新手上路(六):文件打包和解压缩

热门文章

  1. ashx返回图片_ashx输出文字,执行JavaScript,输出图片等
  2. linux键盘关机方法,【Linux】正确的关机方法
  3. 计算机的数据逻辑结构包括,数据结构里的数据逻辑结构分为哪4种
  4. Flex性能优化常用手法总结
  5. c++匿名函数 原理 以及 注意点
  6. ssm毕设项目电脑售后服务管理系统cvh7i(java+VUE+Mybatis+Maven+Mysql+sprnig)
  7. sentinel整合feign
  8. 通达OA文件上传+文件包含导致远程代码执行漏洞复现
  9. android Inflater
  10. Rust学习教程02 - Rust语言简介