网络爬虫中的Unicode码解决[实例]
- unicode码
- 爬虫中的Unicode转中文
- 输出结果
unicode码
在我写爬虫的过程中,经常遇到一些网站的中文是经过Unicode转码的。在对网页进行解析时,需要将其进行转码,转为中文字符。
例如,
\u5317\u4eac\u767e\u5ea6\u7f51\u8baf\u79d1\u6280\u6709\u9650\u516c\u53f8
对应的中文是
北京百度网讯科技有限公司
爬虫中的Unicode转中文
package navi.main;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsonTest2 {public static void main(String[] args) throws Exception {//该网页中文是经过处理的String url="http://bbs.paidai.com/api.php?act=ajax_get_more_olist&topicid=1132970&start=50&offset=50";//获取网页的htmlDocument document1 = Jsoup.connect(url).timeout(50000).userAgent("bbbb").get();//输入经过转码后的htmlSystem.out.println(convertUnicode(document1.toString()));}//转码类
public static String convertUnicode(String ori){char aChar;int len = ori.length();StringBuffer outBuffer = new StringBuffer(len);for (int x = 0; x < len;) {aChar = ori.charAt(x++);if (aChar == '\\') {aChar = ori.charAt(x++);if (aChar == 'u') {// Read the xxxxint value = 0;for (int i = 0; i < 4; i++) {aChar = ori.charAt(x++);switch (aChar) {case '0':case '1':case '2':case '3':case '4':case '5':case '6':case '7':case '8':case '9':value = (value << 4) + aChar - '0';break;case 'a':case 'b':case 'c':case 'd':case 'e':case 'f':value = (value << 4) + 10 + aChar - 'a';break;case 'A':case 'B':case 'C':case 'D':case 'E':case 'F':value = (value << 4) + 10 + aChar - 'A';break;default:throw new IllegalArgumentException("Malformed \\uxxxx encoding.");}}outBuffer.append((char) value);} else {if (aChar == 't')aChar = '\t';else if (aChar == 'r')aChar = '\r';else if (aChar == 'n')aChar = '\n';else if (aChar == 'f')aChar = '\f';outBuffer.append(aChar);}} elseoutBuffer.append(aChar);}return outBuffer.toString();}
}
输出结果
网络爬虫中的Unicode码解决[实例]相关推荐
- python返回unicode_Python 中通过 unicode 码返回单字符的函数是 ,返回单字符 unicode 码的函数是 。_学小易找答案...
[单选题]哪一个命令能用来查找在文件TESTFILE中只包含四个字符的行?( ) [单选题]修改以太网卡mac地址的命令为( ). [单选题]Python 字符串支持切片操作,如有字符串 s &quo ...
- 盘点一个网络爬虫中常见的一个错误
点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 圣朝无阙事,自觉谏书稀. 大家好, ...
- python爬虫股票指数变化_python爬虫中抓取指数的实例讲解
有一些数据我们是没法直观的查看的,需要通过抓取去获得.听到指数这个词,有的小伙伴们觉得很复杂,似乎只在股票的时候才听说的,比如一些数据的涨跌分析都是比较棘手的问题.不过指数对于我们的数据分析还是很有帮 ...
- 浅谈网络爬虫中广度优先算法和代码实现
前几天给大家分享了网络爬虫中深度优先算法的介绍及其代码实现过程,没来得及上车的小伙伴们可以戳这篇文章--浅谈网络爬虫中深度优先算法和简单代码实现.今天小编给大家分享网络爬虫中广度优先算法的介绍及其代码 ...
- python3多线程异步爬虫_python3爬虫中多线程进行解锁操作实例
生活中我们为了保障房间里物品的安全,所以给门进行上锁,在我们需要进入房间的时候又会重新打开.同样的之间我们讲过多线程中的lock,作用是为了不让多个线程运行是出错所以进行锁住的指令.但是鉴于我们实际运 ...
- OpenCV在相机或图像中检测QR码的实例(附完整代码)
OpenCV在相机或图像中检测QR码的实例 OpenCV在相机或图像中检测QR码的实例 OpenCV在相机或图像中检测QR码的实例 #include "opencv2/objdetect.h ...
- 浅谈网络爬虫中广度优先算法和深度优先算法
前言 做爬虫的,最怕业务简单粗暴的来一句"爬一下XXXX网".比如,"爬一下央广网"(示例链接:http://www.cnr.cn),看着密密麻麻的各种子分类, ...
- Python开发实战案例之网络爬虫(附源码)-张子良-专题视频课程
Python开发实战案例之网络爬虫(附源码)-35人已学习 课程介绍 课程特色: 特色1:案例驱动-围绕两大完整的Python网络爬虫实战开发案例:IT电子书下载网络爬虫和股票交易数据 ...
- python爬虫脚本ie=utf-8_Python网络爬虫出现乱码问题的解决方法
关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因 源网页编码和爬取下来 ...
最新文章
- 架构师技术文档:Redis+Nginx+Spring全家桶+Dubbo精选
- 普通程序员如何转向AI方向(转)
- 大哥大——传呼机的年代
- 翻看雷军近10年演讲、采访,我们整理出70条干货
- 2.1.3 操作系统之原语实现对进程的控制
- ABAP学习-第二章[HELLO WORLD]
- python中scrapy是什么_python中Scrapy数据流是什么
- 文件操作命令(replace)
- Python ConfigParser
- 公交驾校自动约车脚本
- iphone 4s IOS9 越狱教程
- java操作Excel、PDF文件
- SAP常见问题与解决办法(转)
- 位运算 之(1) 按位与(AND) 操作【转载】
- 平安科技实习生面试经历
- TCP UDP IP
- 10.WebRTC实现网页录音功能
- FPGA - 7系列 FPGA内部结构之CLB -01- CLB资源概述
- 融云猿桌派:听说女生不适合搞 IT,哈?
- 人机交互——人机交互设备