各种格式ANSI,UTF8,Unicode,Unicode BigEndian的解释
Unicode/UCS-4
|
bit数
|
UTF-8
|
byte数
|
备注
|
0000 ~
007F
|
0~7
|
0XXX XXXX
|
1
|
|
0080 ~
07FF
|
8~11
|
110X XXXX
10XX XXXX
|
2
|
|
0800 ~
FFFF
|
12~16
|
1110XXXX
10XX XXXX
10XX XXXX
|
3
|
基本定义范围:0~FFFF
|
1 0000 ~
1F FFFF
|
17~21
|
1111 0XXX
10XX XXXX
10XX XXXX
10XX XXXX
|
4
|
Unicode6.1定义范围:0~10 FFFF
|
20 0000 ~
3FF FFFF
|
22~26
|
1111 10XX
10XX XXXX
10XX XXXX
10XX XXXX
10XX XXXX
|
5
|
说明:此非unicode编码范围,属于UCS-4 编码
早期的规范UTF-8可以到达6字节序列,可以覆盖到31位元(通用字符集原来的极限)。尽管如此,2003年11月UTF-8 被 RFC 3629 重新规范,只能使用原来Unicode定义的区域, U+0000到U+10FFFF。根据规范,这些字节值将无法出现在合法 UTF-8序列中
|
400 0000 ~
7FFF FFFF
|
27~31
|
1111 110X
10XX XXXX
10XX XXXX
10XX XXXX
10XX XXXX
10XX XXXX
|
6
|
Unicode规范中有一个BOM的概念。BOM——Byte Order Mark,就是字节序标记。在这里找到一段关于BOM的说明:
在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little- Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。
UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。
Windows就是使用BOM来标记文本文件的编码方式的。
UTF-8编码的文件中,BOM占三个字节。如果用记事本把一个文本文件另存为UTF-8编码方式的话,用UE打开这个文件,切换到十六进制编辑状态就可以看到开头的ef bb bf了。这是个标识UTF-8编码文件的好办法,软件通过BOM来识别这个文件是否是UTF-8编码,很多软件还要求读入的文件必须带BOM。可是,还是有很多软件不能识别BOM。
如果想去掉bom,如果只包含英文字符(或者说ASCII编码内的字符),就把文件存成ASCII码方式吧。用UE等编辑器的话,点文件->转换 ->UTF-8转ASCII,或者在另存为里选择ASCII编码。如果是DOS格式的行尾符,可以用记事本打开,点另存为,选ASCII编码。如果包含中文字符的话,可以用UE的另存为功能,选择“UTF-8 无 BOM”即可。
根据Bo-Blog的wiki的说明:Editplus需要先另存为gb,再另存为UTF-8。不过这样做要小心,所有GBK编码中不包含的字符就会都丢了。如果有一些非中文的字符在文件里的话还是不要用这种办法了。(从这一个小方面来看,UE——UltraEdite-32确实比Editplus 好很多,Editplus太轻量级了)
另外我发现了一个办法,就是利用Wordpress提供的文件编辑器。这个办法不受限制,不需要去下载专门的编辑器,毕竟大家都在用 Wordpress嘛。先在ftp里把要编辑的文件的写入权限打开,然后进入Wordpress后台->管理->文件编辑器,输入要编辑文件的路径,点编辑文件。在显示出来的编辑界面中,你是看不到开头的那三个字符的,不过没关系,把光标定位在整个文件的第一个字符前,按一下 Backspace键。OK了,点更新文件吧,在ftp里刷新一下,可以看到文件小了3字节,大功告成。
Unicode 16进制
|
Unicode 2进制
|
bit数
|
UTF-8 2进制
|
UTF-8 16进制
|
CA
|
1100 1010
|
8
|
1100 00111000 1010
|
C3 8A
|
F0 3F
|
11110000 0011 1111
|
16
|
111011111000 00001011 1111
|
EF 80 BF
|
转载于:https://www.cnblogs.com/HuiLove/p/3904636.html
各种格式ANSI,UTF8,Unicode,Unicode BigEndian的解释相关推荐
- 在linux上ansi格式转换换utf-8格式会乱码吗?,c++对编码格式ANSI utf8 unicode 进行转换...
Windows下有不少种编码格式,在与别的系统环境中有文件传输或通讯时,这些编码就很重要.linux 好比在windows中换行是\r\n 在linux或mac下是\n,若是不对编码进行转换就会出现乱 ...
- 字符编码简介 ANSI Unicode Unicode big endian UTF-8
1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和 1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte) ...
- Ansi,UTF8,Unicode,ASCII编码的区别
近日需要不同的编码,关于上述编码,一直迷迷糊糊,查了些资料,总算大致了解了, 下面全是从网上搜来的: 1. ASCII和Ansi编码 字符内码(charcter code)指的是用来代表字符 ...
- ANSI, UTF-8, Unicode, GBK, GB2312 字符编码小结
这两天碰见一个Bug,涉及到字符编码,索性研究了下,整理出来,以便今后查阅. ASCII码,0~127,128个,这个就不用多说了,他是计算机文明的基石.但是这里面只有英文字母,其他国家如何把本国的文 ...
- 【字符编码】 简洁理解ANSI,UTF8,Unicode,ASCII编码的差别
目录 简略 说明 1. ASCII和ANSI编码 2. UNICODE 4. UTF-8 参考 简略 ASCII 1个字节=1个文字 ANSI ...
- Ansi,UTF8,Unicode编码
1.三种编码的回顾 Ansi字符串我们最熟悉,英文占一个字节,汉字2个字节,以一个/0结尾,常用于txt文本文件. Unicode字符串,每个字符(汉字.英文字母)都占2个字节:在VC++的世界里, ...
- 介绍一下unicode,ansi,utf-8,unicode big endian编码
介绍一下unicode,ansi,utf-8,unicode big endian编码 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状 ...
- VB 文件编码互换模块(支持 Ansi,UTF-8,Unicode(little endian),Unicode big endian)
'VB 文件编码互换模块,支持对Ansi,UTF-8,Unicode(little endian),Unicode big endian编码之间进行转换. Option Explicit Privat ...
- 字符编码之Ascll编码,ANSI编码,Unicode编码,UTF-8编码 ,BOM
从大一上C语言就开始认识了Ascll编码,ascll码也算是我们最早所接触的编码 [1]Ascll码 Ascll码由三部分组成: 第一部分从00H到1FH共32个,一般用来通信或作为开工至之用,有的可 ...
- 字符编码总结(UTF-8,UNICODE)
UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所 ...
最新文章
- python import 与from import主要区别,前者导入所有,后者导入指定方法 变量
- HTML DOM全解和案例
- mysql 导入主键冲突_MySQL 处理插入过程中的主键唯一键重复值的解决方法
- 解决oj哈夫曼树问题,学习了priority_queue
- 自定义异常最佳实践_播放,自定义和组织媒体的最佳文章
- java map 多个值_java 一个函数EnumMap返回多个值
- dataguard mysql,[dataguard同步数据库]Dataguard环境下数据库的备份与恢复
- 网易云音乐喊话酷狗称其“耍猴”:专利文件与“跟听”毫无关系
- EF分组后把查询的字段具体映射到指定类里面的写法
- 检查PHP扩展是否安装成功
- 大数据开发之路:hive篇,你看了吗?
- BLE蓝牙4.0串口调试助手
- android 移动国家代码,Android-imsi-MCC-MNC-国家码
- 唐平中讲座笔记 Reinforcement mechanism design 20171107
- android 异常 android Removing unused resources requires unused code shrinking to be turned on.
- notepad++打开bin文件
- mac 语音召唤siri_在Mac上使用Siri可以做的11件事
- python 数字运算及格式化_Python基础教程(3)Python数据类型、运算与格式化
- P语言: 为异步、容错和不确定性而生的编程语言
- MyBatis12-分页插件
热门文章
- SQLServer------基本操作
- EF Code First学习笔记 初识Code First
- [python] 字典和列表中的pop()函数
- 运行出现 Multiple dex files define Landroid/support/annotation/AnimRes 解决方法
- 思达报表工具Style Report基础教程—通过镜像,子表和联合将逗号分隔的字段内容处理成多行数据...
- Linux进程线程学习笔记
- 如何解决logcat TAG过长时Android studio提示错误的问题
- Android查看每个线程CPU占用情况,以及工作内容分析
- [2018.10.18 T1] 艾奇摘苹果
- python字符串常用方法_python字符串常用方法