unicode码
爬虫中的Unicode转中文
输出结果

unicode码

在我写爬虫的过程中，经常遇到一些网站的中文是经过Unicode转码的。在对网页进行解析时，需要将其进行转码，转为中文字符。

例如，

\u5317\u4eac\u767e\u5ea6\u7f51\u8baf\u79d1\u6280\u6709\u9650\u516c\u53f8

对应的中文是

北京百度网讯科技有限公司

爬虫中的Unicode转中文

package navi.main;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class JsonTest2 {public static void main(String[] args) throws Exception {//该网页中文是经过处理的String url="http://bbs.paidai.com/api.php?act=ajax_get_more_olist&topicid=1132970&start=50&offset=50";//获取网页的htmlDocument document1 = Jsoup.connect(url).timeout(50000).userAgent("bbbb").get();//输入经过转码后的htmlSystem.out.println(convertUnicode(document1.toString()));}//转码类
public static String convertUnicode(String ori){char aChar;int len = ori.length();StringBuffer outBuffer = new StringBuffer(len);for (int x = 0; x < len;) {aChar = ori.charAt(x++);if (aChar == '\\') {aChar = ori.charAt(x++);if (aChar == 'u') {// Read the xxxxint value = 0;for (int i = 0; i < 4; i++) {aChar = ori.charAt(x++);switch (aChar) {case '0':case '1':case '2':case '3':case '4':case '5':case '6':case '7':case '8':case '9':value = (value << 4) + aChar - '0';break;case 'a':case 'b':case 'c':case 'd':case 'e':case 'f':value = (value << 4) + 10 + aChar - 'a';break;case 'A':case 'B':case 'C':case 'D':case 'E':case 'F':value = (value << 4) + 10 + aChar - 'A';break;default:throw new IllegalArgumentException("Malformed   \\uxxxx   encoding.");}}outBuffer.append((char) value);} else {if (aChar == 't')aChar = '\t';else if (aChar == 'r')aChar = '\r';else if (aChar == 'n')aChar = '\n';else if (aChar == 'f')aChar = '\f';outBuffer.append(aChar);}} elseoutBuffer.append(aChar);}return outBuffer.toString();}
}

输出结果

网络爬虫中的Unicode码解决[实例]相关推荐

python返回unicode_Python 中通过 unicode 码返回单字符的函数是 ,返回单字符 unicode 码的函数是。_学小易找答案...
[单选题]哪一个命令能用来查找在文件TESTFILE中只包含四个字符的行?( ) [单选题]修改以太网卡mac地址的命令为( ). [单选题]Python 字符串支持切片操作,如有字符串 s &quo ...
盘点一个网络爬虫中常见的一个错误
点击上方"Python爬虫与数据挖掘",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤圣朝无阙事,自觉谏书稀. 大家好, ...
python爬虫股票指数变化_python爬虫中抓取指数的实例讲解
有一些数据我们是没法直观的查看的,需要通过抓取去获得.听到指数这个词,有的小伙伴们觉得很复杂,似乎只在股票的时候才听说的,比如一些数据的涨跌分析都是比较棘手的问题.不过指数对于我们的数据分析还是很有帮 ...
浅谈网络爬虫中广度优先算法和代码实现
前几天给大家分享了网络爬虫中深度优先算法的介绍及其代码实现过程,没来得及上车的小伙伴们可以戳这篇文章--浅谈网络爬虫中深度优先算法和简单代码实现.今天小编给大家分享网络爬虫中广度优先算法的介绍及其代码 ...
python3多线程异步爬虫_python3爬虫中多线程进行解锁操作实例
生活中我们为了保障房间里物品的安全,所以给门进行上锁,在我们需要进入房间的时候又会重新打开.同样的之间我们讲过多线程中的lock,作用是为了不让多个线程运行是出错所以进行锁住的指令.但是鉴于我们实际运 ...
OpenCV在相机或图像中检测QR码的实例(附完整代码)
OpenCV在相机或图像中检测QR码的实例 OpenCV在相机或图像中检测QR码的实例 OpenCV在相机或图像中检测QR码的实例 #include "opencv2/objdetect.h ...
浅谈网络爬虫中广度优先算法和深度优先算法
前言做爬虫的,最怕业务简单粗暴的来一句"爬一下XXXX网".比如,"爬一下央广网"(示例链接:http://www.cnr.cn),看着密密麻麻的各种子分类, ...
Python开发实战案例之网络爬虫（附源码）-张子良-专题视频课程
Python开发实战案例之网络爬虫(附源码)-35人已学习课程介绍课程特色: 特色1:案例驱动-围绕两大完整的Python网络爬虫实战开发案例:IT电子书下载网络爬虫和股票交易数据 ...
python爬虫脚本ie=utf-8_Python网络爬虫出现乱码问题的解决方法
关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因源网页编码和爬取下来 ...

网络爬虫中的Unicode码解决[实例]

unicode码

爬虫中的Unicode转中文

输出结果

网络爬虫中的Unicode码解决[实例]相关推荐

最新文章

热门文章