• unicode码
  • 爬虫中的Unicode转中文
  • 输出结果

unicode码

在我写爬虫的过程中,经常遇到一些网站的中文是经过Unicode转码的。在对网页进行解析时,需要将其进行转码,转为中文字符。

例如,

\u5317\u4eac\u767e\u5ea6\u7f51\u8baf\u79d1\u6280\u6709\u9650\u516c\u53f8

对应的中文是

北京百度网讯科技有限公司

爬虫中的Unicode转中文

package navi.main;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsonTest2 {public static void main(String[] args) throws Exception {//该网页中文是经过处理的String url="http://bbs.paidai.com/api.php?act=ajax_get_more_olist&topicid=1132970&start=50&offset=50";//获取网页的htmlDocument document1 = Jsoup.connect(url).timeout(50000).userAgent("bbbb").get();//输入经过转码后的htmlSystem.out.println(convertUnicode(document1.toString()));}//转码类
public static String convertUnicode(String ori){char aChar;int len = ori.length();StringBuffer outBuffer = new StringBuffer(len);for (int x = 0; x < len;) {aChar = ori.charAt(x++);if (aChar == '\\') {aChar = ori.charAt(x++);if (aChar == 'u') {// Read the xxxxint value = 0;for (int i = 0; i < 4; i++) {aChar = ori.charAt(x++);switch (aChar) {case '0':case '1':case '2':case '3':case '4':case '5':case '6':case '7':case '8':case '9':value = (value << 4) + aChar - '0';break;case 'a':case 'b':case 'c':case 'd':case 'e':case 'f':value = (value << 4) + 10 + aChar - 'a';break;case 'A':case 'B':case 'C':case 'D':case 'E':case 'F':value = (value << 4) + 10 + aChar - 'A';break;default:throw new IllegalArgumentException("Malformed   \\uxxxx   encoding.");}}outBuffer.append((char) value);} else {if (aChar == 't')aChar = '\t';else if (aChar == 'r')aChar = '\r';else if (aChar == 'n')aChar = '\n';else if (aChar == 'f')aChar = '\f';outBuffer.append(aChar);}} elseoutBuffer.append(aChar);}return outBuffer.toString();}
}

输出结果

网络爬虫中的Unicode码解决[实例]相关推荐

  1. python返回unicode_Python 中通过 unicode 码返回单字符的函数是 ,返回单字符 unicode 码的函数是 。_学小易找答案...

    [单选题]哪一个命令能用来查找在文件TESTFILE中只包含四个字符的行?( ) [单选题]修改以太网卡mac地址的命令为( ). [单选题]Python 字符串支持切片操作,如有字符串 s &quo ...

  2. 盘点一个网络爬虫中常见的一个错误

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 圣朝无阙事,自觉谏书稀. 大家好, ...

  3. python爬虫股票指数变化_python爬虫中抓取指数的实例讲解

    有一些数据我们是没法直观的查看的,需要通过抓取去获得.听到指数这个词,有的小伙伴们觉得很复杂,似乎只在股票的时候才听说的,比如一些数据的涨跌分析都是比较棘手的问题.不过指数对于我们的数据分析还是很有帮 ...

  4. 浅谈网络爬虫中广度优先算法和代码实现

    前几天给大家分享了网络爬虫中深度优先算法的介绍及其代码实现过程,没来得及上车的小伙伴们可以戳这篇文章--浅谈网络爬虫中深度优先算法和简单代码实现.今天小编给大家分享网络爬虫中广度优先算法的介绍及其代码 ...

  5. python3多线程异步爬虫_python3爬虫中多线程进行解锁操作实例

    生活中我们为了保障房间里物品的安全,所以给门进行上锁,在我们需要进入房间的时候又会重新打开.同样的之间我们讲过多线程中的lock,作用是为了不让多个线程运行是出错所以进行锁住的指令.但是鉴于我们实际运 ...

  6. OpenCV在相机或图像中检测QR码的实例(附完整代码)

    OpenCV在相机或图像中检测QR码的实例 OpenCV在相机或图像中检测QR码的实例 OpenCV在相机或图像中检测QR码的实例 #include "opencv2/objdetect.h ...

  7. 浅谈网络爬虫中广度优先算法和深度优先算法

    前言 做爬虫的,最怕业务简单粗暴的来一句"爬一下XXXX网".比如,"爬一下央广网"(示例链接:http://www.cnr.cn),看着密密麻麻的各种子分类, ...

  8. Python开发实战案例之网络爬虫(附源码)-张子良-专题视频课程

    Python开发实战案例之网络爬虫(附源码)-35人已学习 课程介绍         课程特色: 特色1:案例驱动-围绕两大完整的Python网络爬虫实战开发案例:IT电子书下载网络爬虫和股票交易数据 ...

  9. python爬虫脚本ie=utf-8_Python网络爬虫出现乱码问题的解决方法

    关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因 源网页编码和爬取下来 ...

最新文章

  1. 架构师技术文档:Redis+Nginx+Spring全家桶+Dubbo精选
  2. 普通程序员如何转向AI方向(转)
  3. 大哥大——传呼机的年代
  4. 翻看雷军近10年演讲、采访,我们整理出70条干货
  5. 2.1.3 操作系统之原语实现对进程的控制
  6. ABAP学习-第二章[HELLO WORLD]
  7. python中scrapy是什么_python中Scrapy数据流是什么
  8. 文件操作命令(replace)
  9. Python ConfigParser
  10. 公交驾校自动约车脚本
  11. iphone 4s IOS9 越狱教程
  12. java操作Excel、PDF文件
  13. SAP常见问题与解决办法(转)
  14. 位运算 之(1) 按位与(AND) 操作【转载】
  15. 平安科技实习生面试经历
  16. TCP UDP IP
  17. 10.WebRTC实现网页录音功能
  18. FPGA - 7系列 FPGA内部结构之CLB -01- CLB资源概述
  19. 融云猿桌派:听说女生不适合搞 IT,哈?
  20. 人机交互——人机交互设备

热门文章

  1. 通过避免下列 10 个常见 ASP.NET 缺陷使网站平稳运行
  2. 国外开源的PACS服务器
  3. ZooKeeper动态重新配置
  4. ZooKeeper之Web管理工具Shepher介绍
  5. C语言输出字母小树,数字小树,**号小树
  6. 投屏时,客厅电视与客厅电视DMR的区别
  7. 【C#】CsvHelper 使用手册
  8. C#设计模式之8-组合模式
  9. 利用Gitee搭建个人图床(下)
  10. 万物皆可爬系列使用python爬阴阳师图片