一直以为java中任意unicode字符串可以使用任意字符集转为byte[]再转回来只要不抛出异常就不会丢失数据事实证明这是错的。

经过这个实例也明白了为什么 getBytes()需要捕获异常虽然有时候它也没有捕获到异常。

言归正传先看一个实例。

用ISO-8859-1中转UTF-8数据

设想一个场景

用户A有一个UTF-8编码的字节流通过一个接口传递给用户B

用户B并不知道是什么字符集他用ISO-8859-1来接收保存

在一定的处理流程处理后把这个字节流交给用户C或者交还给用户A他们都知道这是UTF-8他们解码得到的数据不会丢失。

下面代码验证

public static void main(String[] args) throws Exception {//这是一个unicode字符串与字符集无关String str1 = "用户";System.out.println("unicode字符串"+str1);//将str转为UTF-8字节流byte[] byteArray1=str1.getBytes("UTF-8");//这个很安全UTF-8不会造成数据丢失System.out.println(byteArray1.length);//打印6没毛病//下面交给另外一个人他不知道这是UTF-8字节流因此他当做ISO-8859-1处理//将byteArray1当做一个普通的字节流按照ISO-8859-1解码为一个unicode字符串String str2=new String(byteArray1,"ISO-8859-1");System.out.println("转成ISO-8859-1会乱码"+str2);//将ISO-8859-1编码的unicode字符串转回为byte[]byte[] byteArray2=str2.getBytes("ISO-8859-1");//不会丢失数据//将字节流重新交回给用户A//重新用UTF-8解码String str3=new String(byteArray2,"UTF-8");System.out.println("数据没有丢失"+str3);
}

输出

unicode字符串用户
6
转成ISO-8859-1会乱码用户
数据没有丢失用户

用GBK中转UTF-8数据

重复前面的流程将ISO-8859-1 用GBK替换。

只把中间一段改掉

    //将byteArray1当做一个普通的字节流按照GBK解码为一个unicode字符串String str2=new String(byteArray1,"GBK");System.out.println("转成GBK会乱码"+str2);//将GBK编码的unicode字符串转回为byte[]byte[] byteArray2=str2.getBytes("GBK");//数据会不会丢失呢

运行结果

unicode字符串用户
6
转成GBK会乱码鐢ㄦ埛
数据没有丢失用户

好像没有问题这就是一个误区。

修改原文字符串重新测试

将两个汉字 “用户” 修改为三个汉字 “用户名” 重新测试。

ISO-8859-1测试结果

unicode字符串用户名
9
转成GBK会乱码用户å
数据没有丢失用户名

GBK 测试结果

unicode字符串用户名
9
转成GBK会乱码鐢ㄦ埛鍚
数据没有丢失用户?

结论出来了

ISO-8859-1 可以作为中间编码不会导致数据丢失

GBK 如果汉字数量为偶数不会丢失数据如果汉字数量为奇数必定会丢失数据。

why

为什么奇数个汉字GBK会出错

直接对比两种字符集和奇偶字数的情形

重新封装一下前面的逻辑写一段代码来分析

public static void demo(String str) throws Exception {System.out.println("原文" + str);byte[] utfByte = str.getBytes("UTF-8");System.out.print("utf Byte");printHex(utfByte);String gbk = new String(utfByte, "GBK");//这里实际上把数据破坏了System.out.println("to GBK" + gbk);byte[] gbkByte=gbk.getBytes("GBK");String utf = new String(gbkByte, "UTF-8");System.out.print("gbk Byte");printHex(gbkByte);System.out.println("revert UTF8" + utf);System.out.println("===");
//      如果gbk变成iso-8859-1就没问题
}public static void printHex(byte[] byteArray) {StringBuffer sb = new StringBuffer();for (byte b : byteArray) {sb.append(Integer.toHexString((b >> 4) & 0xF));sb.append(Integer.toHexString(b & 0xF));sb.append(" ");}System.out.println(sb.toString());
};public static void main(String[] args) throws Exception {String str1 = "姓名";String str2 = "用户名";demo(str1,"UTF-8","ISO-8859-1");demo(str2,"UTF-8","ISO-8859-1");demo(str1,"UTF-8","GBK");demo(str2,"UTF-8","GBK");
}

输出结果

原文姓名
UTF-8 Bytee5 a7 93 e5 90 8d
to ISO-8859-1:姓å
ISO-8859-1 Bytee5 a7 93 e5 90 8d
revert UTF-8姓名
===
原文用户名
UTF-8 Bytee7 94 a8 e6 88 b7 e5 90 8d
to ISO-8859-1:用户å
ISO-8859-1 Bytee7 94 a8 e6 88 b7 e5 90 8d
revert UTF-8用户名
===
原文姓名
UTF-8 Bytee5 a7 93 e5 90 8d
to GBK:濮撳悕
GBK Bytee5 a7 93 e5 90 8d
revert UTF-8姓名
===
原文用户名
UTF-8 Bytee7 94 a8 e6 88 b7 e5 90 8d
to GBK:鐢ㄦ埛鍚
GBK Bytee7 94 a8 e6 88 b7 e5 90 3f
revert UTF-8用户?
===

为什么GBK会出错

前三段都没问题最后一段奇数个汉字的utf-8字节流转成GBK字符串再转回来前面一切正常最后一个字节变成了 “0x3f”即”?”

我们使用”用户名” 三个字来分析它的UTF-8 的字节流为

[e7 94 a8] [e6 88 b7] [e5 90 8d]

我们按照三个字节一组分组他被用户A当做一个整体交给用户B。

用户B由于不知道是什么字符集他当做GBK处理因为GBK是双字节编码如下按照两两一组进行分组

[e7 94] [a8 e6] [88 b7] [e5 90] [8d ]

不够了怎么办它把 0x8d当做一个未知字符用一个半角Ascii字符的 “” 代替变成了

[e7 94] [a8 e6] [88 b7] [e5 90] 3f

数据被破坏了。

为什么 ISO-8859-1 没问题

因为 ISO-8859-1 是单字节编码因此它的分组方案是

[e7] [94] [a8] [e6] [88] [b7] [e5] [90] [8d]

因此中间不做任何操作交回个用户A的时候数据没有变化。

关于Unicode编码

因为UTF-16 区分大小端严格讲unicode==UTF16BE。

public static void main(String[] args) throws Exception {String str="测试";printHex(str.getBytes("UNICODE"));printHex(str.getBytes("UTF-16LE"));printHex(str.getBytes("UTF-16BE"));
}

运行结果

fe ff 6d 4b 8b d5
4b 6d d5 8b
6d 4b 8b d5

其中 “fe ff” 为大端消息头同理小端消息头为 “ff fe”。

小结

作为中间转存方案ISO-8859-1 是安全的。

UTF-8 字节流用GBK字符集中转是不安全的反过来也是同样的道理。

byte[] utfByte = str.getBytes("UTF-8");
String gbk = new String(utfByte, "GBK");
这是错误的用法虽然在ISO-8859-1时并没报错。首先byte[] utfByte = str.getBytes("UTF-8");
执行完成之后utfByte 已经很明确这是utf-8格式的字节流然后gbk = new String(utfByte, "GBK")
对utf-8的字节流使用gbk解码这是不合规矩的。就好比一个美国人说一段英语让一个不懂英文又不会学舌的日本人听然后传递消息给另一个美国人。为什么ISO-8859-1 没问题呢因为它只认识一个一个的字节就相当于是一个录音机。我管你说的什么鬼话连篇过去直接播放就可以了。

getBytes() 是会丢失数据的操作而且不一定会抛异常。

unicode是安全的因为他是java使用的标准类型跨平台无差异。

再谈java乱码:GBK和UTF-8互转尾部乱码问题分析相关推荐

  1. Java知多少(25)再谈Java包

    在Java中,为了组织代码的方便,可以将功能相似的类放到一个文件夹内,这个文件夹,就叫做包. 包不但可以包含类,还可以包含接口和其他的包. 目录以"\"来表示层级关系,例如 E:\ ...

  2. 记一次synchronized锁字符串引发的坑兼再谈Java字符串

    问题描述 业务有一个需求,我把问题描述一下: 通过代理IP访问国外某网站N,每个IP对应一个固定的网站N的COOKIE,COOKIE有失效时间. 并发下,取IP是有一定策略的,取到IP之后拿IP对应的 ...

  3. JVM系列之:再谈java中的safepoint

    文章目录 safepoint是什么 safepoint的例子 线程什么时候会进入safepoint safepoint是怎么工作的 总结 safepoint是什么 java程序里面有很多很多的java ...

  4. 再谈java内存模型

    不同的平台,内存模型是不一样的,但是jvm的内存模型规范是统一的.其实java的多线程并发问题最终都会反映在java的内存模型上,所谓线程安全无非是要控制多个线程对某个资源的有序访问或修改.总结jav ...

  5. java中的类的继承_再谈Java中类的继承

    上篇博客谈到了Java中类的继承,但是那些远远不能满足我们在实际操作中的需要,那么怎么才能让子类的功能更强大,并且具有父类的属性呢? 一: 父类 1 public classA {2 3 final ...

  6. java归还线程_再谈java线程

    什么是等待唤醒机制? 这是多个线程间的一种协作机制. 就是一个线程进行规定协作后,就进入到了等待状态'wait()',等待其他线程执行完他们的指定代码后,再将其唤醒'notify()'; 在有多个线程 ...

  7. 再谈 Java中Runnable和Thread的区别

    在面试中老有面试官问这个问题,个人觉得这个问题问的没有技术,一个死记硬背就能回答的很好.但是更深的回答是什么了,那就是直接回答源码吧. thread类实现了runnable 接口 ,Runnable就 ...

  8. java json clone_再谈java clone 以及 浅/深拷贝

    package design.creator.prototype; import java.util.ArrayList; import java.util.List;/** * 深度拷贝:*/ cl ...

  9. 再谈Java中的引用

    在JDK1.2之后,Java对引用进行了扩充,将引用分为强引用.软引用.弱引用和虚引用,这4中引用的强度依次减弱,这里说的引用强度是指引用关联的对象在发生垃圾回收之后是否还存在,具体如下: 强引用类似 ...

最新文章

  1. JAVA多线程机制之死锁
  2. 图书网上商城blog
  3. adas技术实现途径_未来实现100%清洁电力的途径,带来巨大的健康和工作
  4. flutter进度条
  5. 神策数据荣获“2017金融科技·大数据优秀案例之最佳实践案例奖”
  6. LINUX系统中动态链接库的创建与使用
  7. ORA-01180: can not create datafile 1 :解决一例
  8. 47 SD配置-销售凭证设置-激活项目类别的定价
  9. windows防火墙ntp服务器_NTP教学续集已发送,请你查收!
  10. 读写自旋锁,第1部分(来自IBM)
  11. 【UML】部署图Deployment diagram(实现图)(转)
  12. 金华资产封存页面问题
  13. c++检测固定usb端口有无设备接入_电脑USB技术白皮书
  14. 2016 CSU - 1803
  15. 基于javaweb+mysql的网上书店管理系统在线购书系统(前台、后台)
  16. CS224n(2019):Assignment 3 参考答案
  17. 程序员的自我修养之数学基础10:超定方程的求解
  18. 泛函分析 01.02 距离空间-基本概念
  19. 学习之Java(方法)
  20. paddleocr训练自己的数据最简单方式软件一键训练

热门文章

  1. jQuery 快速入门教程
  2. 如何完成从科研人员到初创企业 CEO 的转型?
  3. BoW模型用于图像检索的一般化流程
  4. Oracle编程入门经典 第4章 新9i示例模式
  5. 深度学习(二十二)Dropout浅层理解
  6. Java并发编程之美读书笔记-并发编程基础2
  7. RabbitMQ官方中文入门教程(PHP版) 第三部分:发布/订阅(Publish/Subscribe)
  8. Java Reflection(九):泛型
  9. ATT扩展随选网络至100城 SDN在美国落地开花
  10. Matlab/Simulink电力系统——无穷大功率电源供电系统三相短路仿真