--转自:http://riching.iteye.com/blog/579634
用java来打包文件生成压缩文件,有两个地方会出现乱码
1、内容的中文乱码问题,这个问题网上很多人给出了解决方法,两种:修改sun的源码;使用开源的类库org.apache.tools.zip.ZipOutputStream和org.apache.tools.zip.ZipEntry,这两个类ant.jar中有,可以下载使用即可,毫无疑问,选择后者更方便
2、压缩文件注释的中文乱码问题:zos.setComment("中文测试");这个问题在网上查了半天没看到有人解释,遂只能自己想办法解决。在自己机器上的工程创建的测试类,没有任何问题,但是在公司的项目中使用一直出现乱码,通过使用设置编码的方法(zos.setEncoding("gbk");)终于发现了问题,测试项目的编码方式为gbk,而公司项目的默认编码是utf-8,所以测试项目没问题而公司的项目中出现了问题。

org.apache.tools.zip.ZipOutputStream默认使用项目的编码方式,理论上讲utf-8也是支持中文的,是在想不通为啥还是乱码,通过setEncoding方法改成gbk即可解决

附上一段压缩文件的代码

Java代码  
  1. package com.compress;
  2. import java.io.BufferedInputStream;
  3. import java.io.BufferedOutputStream;
  4. import java.io.DataInputStream;
  5. import java.io.File;
  6. import java.io.FileInputStream;
  7. import java.io.FileOutputStream;
  8. import org.apache.tools.zip.ZipEntry;
  9. import org.apache.tools.zip.ZipOutputStream;
  10. public class CompressEncodingTest {
  11. /**
  12. * @param args
  13. * @throws Exception
  14. */
  15. public static void main(String[] args) throws Exception {
  16. File f = new File("中文测试.txt");
  17. ZipOutputStream zos = new ZipOutputStream(new BufferedOutputStream(
  18. new FileOutputStream("zipTest.zip"), 1024));
  19. zos.putNextEntry(new ZipEntry("中国人.txt"));
  20. DataInputStream dis = new DataInputStream(new BufferedInputStream(
  21. new FileInputStream(f)));
  22. zos.putNextEntry(new ZipEntry(f.getName()));
  23. int c;
  24. while ((c = dis.read()) != -1) {
  25. zos.write(c);
  26. }
  27. zos.setEncoding("gbk");
  28. zos.setComment("中文测试");
  29. zos.closeEntry();
  30. zos.close();
  31. }
  32. }
分享到:
window 修改ip脚本 | 转:java中四种操作xml方式的比较
  • 2010-01-25 21:27
  • 浏览 6461
  • 评论(6)
  • 论坛回复 / 浏览 (2 / 7976)
  • 收藏
  • 分类:编程语言
  • 相关推荐
评论
6 楼 dabing69221 2013-12-23   引用
riching 写道
大神你牛逼,受教了,我这种不求甚解的习惯要改,谢谢

dabing69221 写道
楼主说“测试项目的编码方式为gbk,而公司项目的默认编码是utf-8,所以测试项目没问题而公司的项目中出现了问题 ”楼主这么分析也对,但是不全面,下面我给楼主分析一下出错原因:
通过org.apache.tools.zip.ZipOutputStream类的源码,我们看到这么一个方法,没错下面这个方法就是幕后真凶:

protected byte[] getBytes(String name)
        throws ZipException
    {
        if(encoding == null)
            return name.getBytes();
        return name.getBytes(encoding);
        UnsupportedEncodingException uee;
        uee;
        throw new ZipException(uee.getMessage());
    }
以上这句代码,就是将我们的文件名的字符变为字节,(这里变为字节的目的就是为了通过字节流把字节写出去) 这里判断了一下encoding是否为空,楼主如果不写encoding的话,就会执行name.getByte()也就是使用平台的默认字符集将此 String 编码为 byte 序列,并将结果存储到一个新的 byte 数组中。(这里使用平台的默认字符集就是楼主所在项目的编码),假如说这里项目所在编码为UTF-8,那么这里就会自动将文件名的字符转换为UTF-8的字节,然后写入到底层输出流。

当我们双击打开那个压缩的zip文件时,程序就会使用ANSI编码(通常指的是平台的默认编码,例如英文操作系统中是ISO-8859-1,中文系统是GBK)。别忘了,我们写文件的时候使用UTF-8的编码来写文件名的,这个时候-- 奇迹出现了“乱码”,为什么呢? GBK每个汉字占2个字节,而UTF-8每个汉字占3个字节,它们所占字节数都不一样,乱码是必须的,这下楼主知道为什么你的程序老是乱码了吗? 呵呵呵

呵呵

5 楼 riching 2013-12-02   引用
大神你牛逼,受教了,我这种不求甚解的习惯要改,谢谢

dabing69221 写道
楼主说“测试项目的编码方式为gbk,而公司项目的默认编码是utf-8,所以测试项目没问题而公司的项目中出现了问题 ”楼主这么分析也对,但是不全面,下面我给楼主分析一下出错原因:
通过org.apache.tools.zip.ZipOutputStream类的源码,我们看到这么一个方法,没错下面这个方法就是幕后真凶:

protected byte[] getBytes(String name)
        throws ZipException
    {
        if(encoding == null)
            return name.getBytes();
        return name.getBytes(encoding);
        UnsupportedEncodingException uee;
        uee;
        throw new ZipException(uee.getMessage());
    }
以上这句代码,就是将我们的文件名的字符变为字节,(这里变为字节的目的就是为了通过字节流把字节写出去) 这里判断了一下encoding是否为空,楼主如果不写encoding的话,就会执行name.getByte()也就是使用平台的默认字符集将此 String 编码为 byte 序列,并将结果存储到一个新的 byte 数组中。(这里使用平台的默认字符集就是楼主所在项目的编码),假如说这里项目所在编码为UTF-8,那么这里就会自动将文件名的字符转换为UTF-8的字节,然后写入到底层输出流。

当我们双击打开那个压缩的zip文件时,程序就会使用ANSI编码(通常指的是平台的默认编码,例如英文操作系统中是ISO-8859-1,中文系统是GBK)。别忘了,我们写文件的时候使用UTF-8的编码来写文件名的,这个时候-- 奇迹出现了“乱码”,为什么呢? GBK每个汉字占2个字节,而UTF-8每个汉字占3个字节,它们所占字节数都不一样,乱码是必须的,这下楼主知道为什么你的程序老是乱码了吗? 呵呵呵

4 楼 dabing69221 2013-12-01   引用
楼主说“测试项目的编码方式为gbk,而公司项目的默认编码是utf-8,所以测试项目没问题而公司的项目中出现了问题 ”楼主这么分析也对,但是不全面,下面我给楼主分析一下出错原因:
通过org.apache.tools.zip.ZipOutputStream类的源码,我们看到这么一个方法,没错下面这个方法就是幕后真凶:

protected byte[] getBytes(String name)
        throws ZipException
    {
        if(encoding == null)
            return name.getBytes();
        return name.getBytes(encoding);
        UnsupportedEncodingException uee;
        uee;
        throw new ZipException(uee.getMessage());
    }
以上这句代码,就是将我们的文件名的字符变为字节,(这里变为字节的目的就是为了通过字节流把字节写出去) 这里判断了一下encoding是否为空,楼主如果不写encoding的话,就会执行name.getByte()也就是使用平台的默认字符集将此 String 编码为 byte 序列,并将结果存储到一个新的 byte 数组中。(这里使用平台的默认字符集就是楼主所在项目的编码),假如说这里项目所在编码为UTF-8,那么这里就会自动将文件名的字符转换为UTF-8的字节,然后写入到底层输出流。

当我们双击打开那个压缩的zip文件时,程序就会使用ANSI编码(通常指的是平台的默认编码,例如英文操作系统中是ISO-8859-1,中文系统是GBK)。别忘了,我们写文件的时候使用UTF-8的编码来写文件名的,这个时候-- 奇迹出现了“乱码”,为什么呢? GBK每个汉字占2个字节,而UTF-8每个汉字占3个字节,它们所占字节数都不一样,乱码是必须的,这下楼主知道为什么你的程序老是乱码了吗? 呵呵呵

3 楼 dabing69221 2013-12-01   引用
楼主,我给你分析一下,你的压缩zip包为什么会乱码?
分析原因:
  我们在使用JDK自带的ZipOutputStream压缩文件时,压缩文件没有采用英文命名时,没有问题。如果采用中文命令就会出现问题,为什么会这样呢?我们来看看ZipOutputStream源码,它到底是怎么把文件名转换为字节的?
  private static byte[] getUTF8Bytes(String s)
    {
        char ac[] = s.toCharArray();
        int i = ac.length;
        int j = 0;
        for(int k = 0; k < i; k++)
        {
            char c = ac[k];
            if(c <= '\177')
            {
                j++;
                continue;
            }
            if(c <= '\u07FF')
                j += 2;
            else
                j += 3;
        }

byte abyte0[] = new byte[j];
        int l = 0;
        for(int i1 = 0; i1 < i; i1++)
        {
            char c1 = ac[i1];
            if(c1 <= '\177')
            {
                abyte0[l++] = (byte)c1;
                continue;
            }
            if(c1 <= '\u07FF')
            {
                abyte0[l++] = (byte)(c1 >> 6 | 192);
                abyte0[l++] = (byte)(c1 & 63 | 128);
            } else
            {
                abyte0[l++] = (byte)(c1 >> 12 | 224);
                abyte0[l++] = (byte)(c1 >> 6 & 63 | 128);
                abyte0[l++] = (byte)(c1 & 63 | 128);
            }
        }

return abyte0;
    }
以上这个方法就是JDK自带的ZipOutputStream类中将文件名装换为字节的方法,通过源码我们不难看出,它是先将String变为char[]数组,然后通过遍历char[]数组,最后将char强转为byte,存放到byte数组中。
  如果这样做的话,就暴露了一个问题,就是楼主所说的“中文乱码”问题,为什么呢? 因为在Java中,一个char是2个字节(byte),而一个中文汉字是一个字符,也就是2个字节;英文字母是一个字节,所以,一个英文字母可以保存到 一个字节(byte)中,而一个中文汉字不能(道理很简单啊,一个汉字是2个字节) --- 所以说这就是为什么保存英文的文件名是不会乱码,但是保存中文的文件名时会乱码的原因。

2 楼 riching 2010-06-06   引用
xiaohahaa 写道
不使用外部包,只用jdk内部的类,能不能实现?

能实现,不过中文的文件名和中文的注释(comment)会乱码,内容没问题

1 楼 xiaohahaa 2010-06-05   引用
不使用外部包,只用jdk内部的类,能不能实现?

java压缩zip文件中文乱码问题相关推荐

  1. Zip文件中文乱码问题解决方法(MAC->Windows)

    Zip文件中文乱码问题解决方法(MAC->Windows) 参考文章: (1)Zip文件中文乱码问题解决方法(MAC->Windows) (2)https://www.cnblogs.co ...

  2. Java 读写txt文件 中文乱码问题

    问题:在用Java程序进行读写含中文的txt文件时,经常会出现读出或写入的内容会出现乱码.原因其实很简单,就是系统的编码和程序的编码采用了不同的编码格式.通常,假如自己不修改的话,windows自身采 ...

  3. java写入文件中文乱码问题_解决Java写入UTF-8文件中文乱码问题

    最近需要从Java中输出UTF-8编码的XML文件,遇到了两次中文乱码问题.一是奇数个汉字出现乱码,二是写入文件的实际编码与XML声明的编码不符.经过几番折腾,终于解决这两个问题,也对Java的字符编 ...

  4. java压缩zip文件夹错误_Java将文件或者文件夹压缩成zip(修复文件夹中存在多个文件报Stream Closed错误问题)...

    项目场景: Java将文件或者文件夹压缩成zip(修复文件夹中存在多个文件报Stream Closed错误问题) 问题描述: 最近的项目需要将多级文件夹压缩成zip,网上找了几个工具类,都会报错,所以 ...

  5. Android端解压ZIP文件中文乱码的问题

    吐槽 为解决这个问题,在网上徘徊了数小时,被那些盲目搬砖的博主坑死,明明不可行的方案为什么还要搬到自己的口袋呢?这些人真害人不浅,浪费彼此时间!!!吐槽到此为止.上代码: 正文 首先呢,实现此功能用到 ...

  6. Java BufferedReader读文件中文乱码

    public static void main(String[] args) throws Exception {//中文乱码问题复现FileReader fileReader = new FileR ...

  7. Java读tpkg文件中文乱码_jolt乱码问题

    jolt乱码问题 2013/7/23 18:40:25  heqinghua  程序员俱乐部  我要评论(0) 摘要:这个破问题困扰了我两天,今天终于搞定了,还是那句话,要坚信,bug的毅力永远比不过 ...

  8. java properties读取中文_Java读取properties文件中文乱码

    Java读取properties文件中文乱码 之前读取properties配置文件时候全都是英文或者数字之类的,最近项目有个需求要properties配置文件中有中文字符存在,那么读取java pro ...

  9. java zip解压 中文_java解压ZIP 解决中文乱码 (GBK和UTF-8)

    java解压ZIP 解决中文乱码 (GBK和UTF-8) 工具使用 : zip4j GitHub : zip4j 版本 : 2.2.8 Maven : net.lingala.zip4j zip4j ...

最新文章

  1. 2019最后一期—宏基因组分析技术研讨会
  2. 采集虚拟机_系列文章:Kubernetes日志采集最佳实践
  3. python os.walk如何还原所有路径名_python使用os.listdir和os.walk获得文件的路径
  4. SAP CRM Fiori应用里的note section
  5. 开发者的利器:Docker 理解与使用
  6. 数据增长率怎么算_20年老股民告诉你5个数据可轻松算出股价是否高估
  7. el-calendar 怎么设置上一年和下一年_为什么香港硕士一年的含金量那么高?
  8. OpenStack搭建glance
  9. mysql 动态创建事件_mysql 通过事件定时为数据库创建动态表名
  10. 9.思科交换路由基本命令操作
  11. Rust: codewars 的Duplicate Encoder
  12. c语言中常用数学符号,2016GRE数学常用数学符号大盘点
  13. 什么是引流软件你了解吗,引流软件效果如何?
  14. 跳跃游戏 改 dfs
  15. 异形图片自动排版之装箱算法
  16. 摄氏度符号英文计算机语言,英文摄氏度°C符号的正确输法
  17. 【论文笔记】(VLDB 2020) A Benchmarking Study of Embedding-based Entity Alignment for Knowledge
  18. csv文件打开波形,SPICE Explorer 2007.1 软件使用
  19. 【每日随笔】操控人性 ① ( 圣人的治理原则 | 控制人性的三大手段 - 引导 / 转移注意力 / 打击异己 | 作出正确的引导 | 不尚贤,使民不争 | 不追求权利 / 财富 )
  20. 下载并安装MS office 365

热门文章

  1. ie11浏览器可以下载java吗_解析:WindowsXP系统能否安装IE11浏览器
  2. 上海大学计算机组成原理实验13,上海大学计算机组成原理实验报告11.doc
  3. php打印矩阵,PHP实现顺时针打印矩阵(螺旋矩阵)的方法示例
  4. python连接influxdb_python 访问 InfluxDB 数据库
  5. c语言设计通讯录管理程序,C语言程序的设计学生通讯录管理系统方案.docx
  6. typecho和wordpress模板了解、开发流程介绍、前台后台前端后端区分
  7. PM早知道:电子身份证是个啥?
  8. python逐行读取数据时出现错误_Python利用逐行读取readline()打印出现空行的解决办法...
  9. 基于区块链的数据市场
  10. 作者:胡良霖(1973-),男,中国科学院计算机网络信息中心高级工程师