关于Windows下记事本中保存编码的格式问题

Windows下记事本保存文本文件的时候，可以选择不同的编码格式来保存文件，各种编码保存的文件的二进制是不同的，举例说明：

我们在记事本中输入123，选择默认的编码格式，即ANSI，也就是系统默认的编码格式，简体中文版的默认编码格式为GBK，此时我们使用二进制工具打开时，其二进制形式为：

31 32 33

使用Unicode编码保存，实际上，这种称呼是不正确的，Unicode只是表示字符集方案，并不能表示编码方案，windows对Unicode实际上采用的编码方案是UTF-16LE，其会在文本的开头插入小段字节序标识BOM（FFFE），故其二进制为：

FF FE 31 00 32 00 33 00

使用Unicode big endian编码保存，这种称呼也是不正确的，windows实际上采用的编码方案是UTF-16BE，其会在文本的开头插入大端字节序标识BOM（FEFF），故其二进制为：

FE FF 00 31 00 32 00 33

使用UTF-8编码保存，这种称呼也是不正确的，正常UTF-8编码的二进制是没有BOM标识的，而windows上的UTF-8编码的文件时有UTF-8 BOM标识（EF BB BF），故其二进制为：

EF BB BF 31 32 33

下面请看由BOM头引起的问题的例子：

package test;import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.Arrays;public class Test1 {public static void main(String[] args) throws IOException {String myString = "";byte[] bytes = new byte[10];int readCount = 0;try (FileOutputStream outputStream = new FileOutputStream("D:\\test\\hello.txt")) {outputStream.write(new byte[] { -2, -1, 0, 0x31, 0, 0x32, 0, 0x33 });outputStream.flush();outputStream.close();} catch (Exception e) {}try (FileInputStream reader = new FileInputStream("D:\\test\\hello.txt")) {while ((readCount = reader.read(bytes, 0, 10)) != -1) {myString += new String(bytes, 0, readCount, "UTF-16BE");System.out.println(Arrays.toString(bytes));System.out.println(myString);System.out.println(Integer.parseInt(myString));}} catch (Exception e) {e.printStackTrace();}}
}

该例子我们通过程序写入二进制数据：

FE FF 00 31 00 32 00 33

以UTF-16BE的方式读入，当我们将读取的字符串转化为数字时，出现错误了，其上面的输出结果如下：

[-2, -1, 0, 49, 0, 50, 0, 51, 0, 0] 123
java.lang.NumberFormatException: For input string: ”123” at
java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)
at java.lang.Integer.parseInt(Integer.java:580) at
java.lang.Integer.parseInt(Integer.java:615) at
test.Test1.main(Test1.java:24)

其真正原因就是这个BOM字节序导致的，一般情况下很难发现这个错误，因为输出的字符串就是“123”，与正常的字符串结果看起来并没有什么不同，这时我们应该想到要查下其二进制表示，这样很快就能发现问题了。

最后，关于字节序BOM，上文提到各种不同的编码其字节序不同，实际上BOM是指一个Unicode character，其值为
U+FEFF，但是由于编码方式不同，其表示出来不同的值，但是都是映射到同一个Unicode字符集上了。

The byte order mark (BOM) is a Unicode character, U+FEFF Byte order mark (BOM), whose appearance as a magic number at the start of a text stream can signal several things to a program consuming the text。

代码为证：

package test;import java.util.Arrays;public class Main {public static void main(String[] args) throws Exception {byte[] a = new byte[] { 0xEF - 256, 0xBB - 256, 0xBF - 256 };byte[] b = new byte[] { 0xFE - 256, 0xFF - 256 };byte[] c = new byte[] { 0xFF - 256, 0xFE - 256 };String aString = new String(a, 0, 3, "UTF-8");String bString = new String(b, 0, 2, "UTF-16BE");String cString = new String(c, 0, 2, "UTF-16LE");System.out.println(Arrays.toString(aString.getBytes("UTF-8")));System.out.println(Arrays.toString(bString.getBytes("UTF-8")));System.out.println(Arrays.toString(cString.getBytes("UTF-8")));}
}

输出结果:

[-17, -69, -65]
[-17, -69, -65]
[-17, -69, -65]

关于Windows下记事本中保存编码的格式问题相关推荐

分析:windows下cmd默认的编码是ASCII编码 ,windows的中文环境下编码是GBK 方法一:在保存输出流保存的时候做一个对文字GBK编码,在输出到文件如下 [python] view
分析:windows下cmd默认的编码是ASCII编码 ,windows的中文环境下编码是GBK 方法一:在保存输出流保存的时候做一个对文字GBK编码,在输出到文件如下 [python] view ...
windows下cmd中命令操作
windows下cmd中命令: cls清空上下箭头进行命令历史命令切换 --------------------------------------------------------------- ...
windows下wsl2中的ubuntu和ubuntu系统下docker使用gpu的异同
windows下wsl2中的ubuntu和ubuntu系统下docker使用gpu的异同介绍ubuntu系统下配置docker下GPU使用环境的文章很多,本文算是一个比较性梳理. 主要比较一下wsl ...
基于Windows下处理Java错误:编码GBK的不可映射字符的解决方案
基于Windows下处理Java错误:编码GBK的不可映射字符的解决方案最近在研究Java,涉及命令行编译,使用notepad++编辑器,然后使用javac编译: 之前的几个文件没有中文的内容,都没 ...
windows下cmd中输入nvidia-smi显示不是内部或外部命令解决方法！
windows下cmd中输入nvidia-smi显示不是内部或外部命令解决方法! 我的cuda.cudnn等都是可以正常使用的,只是查看不了显存,在查看了很多博客后下面这个方法亲测有效: 在环境变量的 ...
Windows下打包文件为tar.gz格式
tar.gz 是linux和unix服务器使用的格式,在windows下的WinRAR.WinZip等主流压缩工具不能压缩成tar.gz格式.万能的"7-ZIP"可以在window ...
Windows下运行jekyll，编码已不再是问题
很久没更新jekyll了,所以好奇着去官网看了下更新记录,发现如下更新条目(版本1.3.0/2013-11-04发布): Add encoding configuration option (#144 ...
菜鸟在 windows 下 python 中安装 jupyter 踩坑要点、被神化的 VsCode
我平时用不到 python ,更没用过 jupyter ,因此我的 python知识仅限于知道有 python 这么个编程语言,会写个 print("Hello World!!!" ...
Windows下VC++显示UTF-8编码中文
笔者在Windows下使用C++编写程序接收UTF8字符串会发生中文无法正常在console上显示的问题,故特来解决UTF8字符串如何在VC++上正常显示. 1.问题重现,UTF-8编码下的字符串&q ...

关于Windows下记事本中保存编码的格式问题

关于Windows下记事本中保存编码的格式问题

关于Windows下记事本中保存编码的格式问题相关推荐

最新文章

热门文章