转载地址:https://blog.csdn.net/u013243986/article/details/75287078

最近在写爬虫时遇到"&#"或者 "&#x"开头的 编码,在浏览器是可以正常打开的,但是爬取下来时却,显示  中国农业银行 在尝试了  utf-8 或者GBK,GB2312等等的编码都行不通的情况下, 在网上也找不到太多的资料,这让我很苦恼,而且百度搜索居然没法直接搜索符号,还是大谷歌好用,  通过http://tool.chinaz.com/tools/unicode.aspx  发现其实这个只是普通的unicode编码.但是却有不同的格式 比如\u开头的,"&#"或者"&#x"开头.  我们在 https://www.zhihu.com/question/21390312   找到了 问题的答案.

其实  \u 开头和  &#x 开头是一样的  都是16进制 unicode字符的不同写法,&# 则是 unicode字符的10进制的写法.知道这个之后我们写代码就容易多了.

public static String unicode2String(String unicode)
{StringBuffer string = new StringBuffer();if (unicode.startsWith("&#x")) {String[] hex = unicode.replace("&#x", "").split(";");for (int i=0; i<hex.length; i++) {int data = Integer.parseInt(hex[i], 16);string.append((char) data);}} else if (unicode.startsWith("&#")) {String[] hex = unicode.replace("&#", "").split(";");for (int i=0; i<hex.length; i++) {int data = Integer.parseInt(hex[i], 10);string.append((char) data);}}return string.toString();
}

#,#x,\u开头的unicode介绍相关推荐

  1. java自动转换需要的开头_【Java基础】Java把\u开头的Unicode编码转换成汉字

    最近工作中遇到需要调用第三方接口的需求.第三方接口返回的字符串中,会把中文转义成 \u + Unicode 的形式.因此,我需要再把 \u + Unicode 转换成汉字. 这里,我们需要认识到 Ja ...

  2. python遇到‘\u’开头的unicode编码

    web信息中常会遇到"\u4f60\u597d"类型的字符.首先'\u'开头就基本表明是跟unicode编码相关的,"\u"后的16进制字符串是相应汉字的utf ...

  3. Unicode介绍及Unicode编程

    目录 1.什么是Unicode? 2.为什么使用Unicode? 3.Unicode有什么缺点 4.Unicode编程 4.1 C运行时库对Unicode的支持 4.1.1 字符串类型 4.1.2 字 ...

  4. python语言的单行注释以井号开头_python001 -- 简要介绍

    之前对python仅是简单的了解,最近因为工作需要,系统学习一下python脚本,发现李振良的技术博客,深入浅出,转载一下,以备重复查看. 1.1 介绍 1.1.1 特点 Python是一种面向对象. ...

  5. python有几种打开方式_Python中几个以“__”开头的方法介绍总结

    本文我们来看谈 Python 中的特殊方法 __dir__, __slots__, __weakref____missing__, __contains__ 的简单介绍总结. __dir__ -> ...

  6. \u开头的unicode中的\u被转义\\u的问题处理

    如果对你有帮助,就点个赞吧~ 前言 从网站获取的数据, 会存在`\u`型的unicode被变成了`\\u`, 导致数据显示不是中文的情况, 仅对此种问题处理做个记录 一.单个字符串类型 通过先enco ...

  7. Nt**、Zw**和Rtl** 开头的函数介绍

    首先他们都是微软未公开的函数,之所以未公开主要是因为这些函数大部分功能太强大了,把他们公开会让一些别有用心的人利用.9x下的我不知道,NT(含2000/xp)下你可以参考<Windows NT ...

  8. \u开头的unicode编码变为可见字符

    PHP echo(json_decode('"\u672a\u77e5"')); 注意:外面是英文的单引号,里面是双引号 Java System.out.println(" ...

  9. Unicode详细介绍

    转贴自:http://blog.chinaunix.net/uid-10468429-id-2953054.html 1. 编码知识 1.1 文本和字符 在计算机程序中或者数据文件里,文本(text) ...

最新文章

  1. oc runtime
  2. Traceroute笔记
  3. 设计模式----2(简单工厂模式的概念,简单工厂模式的实现,简单工厂模式的优缺点)
  4. 判断IE中某个ActiveX控件是否已经安装
  5. AppStore新应用上传指南
  6. 休闲娱乐的计算机配置,入门APU主机配置 1199元双核APU家用娱乐电脑配置推荐
  7. 真题很重要,用科学的态度批判性地对待真题同等重要!
  8. 基本的WEB渗透测试
  9. lnmp 一键安装
  10. Java实验14 计算多个二维图形的面积之和
  11. uniapp平台使用vant组件按需引入,并兼容到微信、百度、抖音小程序
  12. c#谷歌 json转对象_利用Google Gson实现JSON字符串和对象之间相互转换
  13. java中怎么创建表格_Java中的表格怎么利用表格模型进行创建
  14. 服务器红帽操作系统安装,怎么安装red hat操作系统
  15. ◮OpenGL-混合
  16. WPS插件 - 保存Unicode编码的CSV文件
  17. 电脑百度打不开怎么办
  18. # 使用 DHCP 动态管理主机地址##
  19. 架构师修炼系列【SOA架构】
  20. 2017年由Unity员工打造的最爱

热门文章

  1. 容器源码解析之HashMap(七)
  2. 【解题报告】Leecode 372. 超级次方——Leecode每日一题系列
  3. Leecode07. 整数反转——Leecode大厂热题100道系列
  4. Python里面对于嵌套列表的查询
  5. js带开关的时钟_昌利JS系列混凝土搅拌机衬板配件
  6. notepad++ tcl_TCL科技前三季度净利20亿元,投资并购超200亿元
  7. linux 两个序列比对,如何用COBALT构建本地的多序列比对(Linux系统)
  8. java list 转 map_Java8 快速实现List转map 、分组、过滤等操作
  9. metinfov5.0.4漏洞复现
  10. linux密码暴力破解之SHA-512破解