http://blog.csdn.net/bob007/article/details/27098875

使用此方法转换后,在列表中看到的正常,但是在详情页的文本框中查看到的就是 了,只好过滤掉所有的空格

html = html.replaceAll(UTFSpace, " ");改为html = html.replaceAll(UTFSpace, "");

--------------以下复制而来-------------

昨天发现,用 HtmlDecode() 去解码后,“ ”不是被解码为半角的空格(ASCII码0x20)而是变成半角问号“?”(ASCII码0x3F)。而且奇怪的是,只有每行前面的空格才会出问题,如果前面后面有汉字的话,空格就还是空格。但是更加奇怪的是,如果直接在HtmlDecode()的后面直接加上trim()的话,这个问号会被去掉。而正常的情况下,问号是不会被去掉的,只有空格才会被去掉。
      发生这个问题的时候,我是在把解码后的内容写入数据库,因此一直都以为是sql******与应用程序之间的字符集问题或者编码方式问题。搞了N久,最后才发现在送进Sql******之前,内容就已经是问号了。

查了很久,也找不到这个问题如何解决。因此,只能使用山寨解决方法了:
转自http://www.jiaonan.tv/html/blog/1/29483.htm
      1、在Decode之前替换   为 空格。

2、在Decode之后直接加 Trim()

显而易见的,这个不是一个好办法:在显示到浏览器的时候,空格就不见了

最近认真去查了一下这个问题,发现问题的关键,是编码方式:如果使用的Encoding是UTF-8的话,就会发生这种情况。

问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”,转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符,因此如果简单地进行编码转换,生成地GB2312/Unocode字符串中,这个字符就会被替换成为问号(ASCII ox3F)。此时如果进行写库、写文件之类,就会把问号直接写入了。当然此时会有一种山寨方式:直接替换问号为空格。可是这种方法,会把原本真正的问号也*毙掉。

使用UTF-8进行HTMLDecode的时候,对于语句开头的( ),就会被自动转换成为这个特殊的空格,可能是判断为放在开头的空格,一定是用来排版的。在转换为其他编码之前,这个特殊的空格受到的待遇与普通的半角空格是一致的,甚至也会被trim()去掉。

因此,碰到这个问题的原因有两种:一种是在UTF-8编码下进行了转换,产生了这个字符;还有一种就是网页中直接采用了这个字符进行排版。

知道了具体原因,就有正规的解决方法了。方法就是:在得到UTF-8字符串之后,先进行一个替换,把这个特殊的空格替换为普通的空格,如果是HTML串,建议替换为( )。C#代码如下:

byte[] space = new byte[]{0xc2,0xa0};      string UTFSpace = Encoding.GetEncoding("UTF-8").GetString(space);      HtmlStr = HtmlStr.Replace(UTFSpace," ");

java版:

byte bytes[] = {(byte) 0xC2,(byte) 0xA0};
            String UTFSpace = new String(bytes,"utf-8");
            html = html.replaceAll(UTFSpace, " ");

这样做,就不会把串里面本来应该有的问号错误的替换为空格。也不会看到讨厌的问号,能保存原来字符串的真面目了。
      需要强调的是,替换之前不能进行编码转换,一定要继续使用UTF-8编码。如果已经转换成其他编码,那么错误就已经不可逆转了。没有办法再区分这个错误的问号和正常的问号之间的差别了。

转载于:https://www.cnblogs.com/jcz1206/p/4344686.html

Java 解决采集UTF-8网页空格变成问号乱码相关推荐

  1. 转载:解决采集UTF-8网页空格变成问号乱码

    昨天发现,用 HtmlDecode() 去解码后," "不是被解码为半角的空格(ASCII码0x20)而是变成半角问号"?"(ASCII码0x3F).而且奇怪的 ...

  2. Java读取UTF-8格式txt文件第一行出现乱码及解决;Java读带有BOM的UTF-8文件乱码原因及解决方法(转载)...

    原文地址:http://blog.csdn.net/jackpk/article/details/5702964/ Java读取UTF-8的txt文件第一行出现乱码"?"及解决 t ...

  3. html网页在ie浏览器乱码怎么办,IE浏览器出现了乱码该怎么解决?

    网友在使用IE浏览器的时候碰了页面乱码的现象,为什么会出现这种情况呢? 分析:出现乱码的原因有以下几点: 一,IE字库没有安装完全,所以在浏览时如果没有相对应的语言字库会出现乱码. 二,编码-自动选择 ...

  4. java显示汉字乱码怎么办_java中的汉字显示问号乱码怎么解决

    java中的汉字显示问号乱码怎么解决 发布时间:2020-06-23 22:16:38 来源:亿速云 阅读:97 作者:元一 java中的汉字显示问号乱码怎么解决?针对这个问题,今天小编总结了这篇文章 ...

  5. java 打开指定文件,java解决指定应用程序打开指定文件

    java解决指定应用程序打开指定文件 //打开工具的路径及名字 String toolsPath = "D:/office/Office12/WINWORD.EXE"; //被打开 ...

  6. Linux(shell)遍历目录删除指定文件,解决文件夹名称带空格问题

    最近打算把一些学习资源解压上传到阿里网盘上,可是在解压的时候出现了问题,无故产生很多隐藏文件(猪哥mac电脑,用的keka解压软件). 且文件夹层级很多,不可能实现手动一个一个文件夹删除,所以就考虑写 ...

  7. oracle em 界面乱码,oracle em 按钮乱码解决办法及em网页变成英文

    oracle em 按钮乱码解决办法及em网页变成英文以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 一 oracle ...

  8. java解决错误经验_在Java错误进入生产之前的新处理方式

    java解决错误经验 我们如何认识到解决预生产错误的旧方法还不够,以及我们如何能够改变它 第一次尝试就没有完美的代码,我们所有人都可以证明我们已经通过艰苦的努力学习了. 不管我们使用多少测试周期,代码 ...

  9. 设计一个名为complex的类来表示复数_complex类java解决

    作者:wzu_cza123 出自:CSDN 原文:blog.csdn.net/wzu_cza123/article/details/108857953?utm_medium=distribute.pc ...

最新文章

  1. Ubuntu中给eclipse和android studio添加桌面快捷图标
  2. Python(1)-源起、设计目标、设计哲学、特点
  3. android 自动化 录制,android 自动化录制回放测试工具
  4. Python数据结构:插入排序
  5. shell中lsort,uniq,cut,wc,seq命令使用
  6. IntelliJ IDEA中使用git
  7. java textarea 自动滚动条_月光软件站 - 编程文档 - Java - 如何实现滚动条的自动滚动到textarea的末尾...
  8. 电路设计_元器件选型总结1
  9. Qt数据库应用3-数据打印到pdf
  10. 特征值、特征根、本征值
  11. 浅析SEO搜索引擎优化
  12. 20172303 2017-2018-2 《程序设计与数据结构》第10周学习总结
  13. Linux实战(20):Docker部署EKL入门环境记录文档
  14. CSDN20181217博客黑板报
  15. 微信刷脸支付开放政策启动,亿万级市场待你加入!
  16. 计算机视觉领域多任务学习相关论文、数据集、网络结构等资源整理分享
  17. html5 js获取鼠标坐标,js怎么获取鼠标在div中的相对位置
  18. ROS中map、odom、base_link坐标系的理解和这三个坐标系在AMCL中的关系
  19. GitHub小工具制hackbar2.1.3
  20. Windows环境下的RTX实时操作系统学习记录

热门文章

  1. java是值传递还是引用传递_Java 到底是值传递还是引用传递?
  2. html一个空格多少像素,一个空格占几个字符?
  3. emacs php 配置文件,如何配置emacs进行正确的PHP开发?
  4. 服务器文件夹同步到手机,本机文件夹同步到云服务器
  5. linux cpu频率软件,linux cpu频率控制
  6. oracle的al32utf8,oracle字符集修改(AL32UTF8-UTF8)
  7. C/C++课程设计 之学生管理系统(一)
  8. 揭示C语言函数调用的本质解析
  9. java中Object.equals()简单用法
  10. *++p和*p++的区别