jsoup 简介
Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和 扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。

jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

jsoup 的主要功能如下:

  1. 从一个 URL,文件或字符串中解析 HTML;

  2. 使用 DOM 或 CSS 选择器来查找、取出数据;

  3. 可操作 HTML 元素、属性、文本;

jsoup 生僻字乱码问题解决:
1.首先需要看下你要抓取网页的编码
浏览器查看源代码,即可查看到页面编码设置

2.采用下面的方式制定编码抓取即可解决乱码或是生僻字乱码的问题

Copy
String direct_uri = “http://www.baidu.com“;
Document doc;
try {
// doc = Jsoup.connect(direct_uri).userAgent(User_Agent).timeout(5000).get();
doc = Jsoup.parse(new URL(direct_uri).openStream(), “GBK”, direct_uri);
Elements contentdiv = doc.select(“.con-tit”);
logger.info(“==contentdiv:{}”, contentdiv.html());
} catch (IOException e) {
e.printStackTrace();
}

我以前是采用:

doc = Jsoup.connect(direct_uri).userAgent(User_Agent).timeout(5000).get();

这种方式来进行抓取,好处是可以设置user_agent和链接超时时间,但是无法设置编码,后来改用:

doc = Jsoup.parse(new URL(direct_uri).openStream(), “GBK”, direct_uri);

这种方式来设置编码,对于中文网站抓取比较方便!

希望对您有帮助!

jsoup 生僻字乱码问题解决相关推荐

  1. sqlserver中文生僻字乱码问题

    sqlserver中文生僻字乱码问题解决 场景:前端输入生僻字,e.g. 㙍.㮾,存入到数据库为乱码(㙍/-). 解决:修改会存生僻字的字段(一般地址字段)的数据类型为nvarchar,在插入或更新s ...

  2. Oracle 生僻字乱码问题

    就一般情况来说,Oracle存储中英文的字段用varchar2类型就可以了,但有些时候,遇到生僻字就不行了. 需求描述: 在默认字符集环境下,实现Oracle储存生僻字: 㛃.䶮.....(使用nva ...

  3. oracle 生僻字 转码,Oracle 生僻字乱码解决方案

    Oracle生僻字乱码解决方案 ""(此+夕)[suǒ]字乱码,无法正常显示(变成问号); 生僻字""(此+夕)(suo)在ZHS16GBK字符集下默认无法正常 ...

  4. 解决Mybatis3.3中NVARCHAR2生僻字乱码

    文章目录 1. 解决Mybatis3.3中NVARCHAR2生僻字乱码 1.1. 注意 1.2. 解决方法 1.2.1. 第一步.数据库的varchar2字段修改为nvarchar2 1.2.2. 第 ...

  5. 生僻字html乱码,Tomcat 5.5.X及以上版本的生僻字乱码解决办法

    软件环境:Tomcat5.5.X 问题描述: 1)一般的汉字正常,如:中国,任务,管理. 2)生僻字出现乱码.如:喆,璟. 解决过程: 1.前言.在Tomcat4中,GET和POST使用相同的处理方式 ...

  6. 关于生僻字乱码的问题

    这个事情说来话长,先从2010年之前的各种上户口问题,以及各种民生系统问题说起吧. 那个时候总是出现一些行为,说的是,谁的名字有生僻字上不了户口,用其他的字代替了, 出现了很多那种在族谱上是一个名字, ...

  7. java mysql 生僻字 乱码_JAVA生僻字乱码问题

    我先把数据从数据库中查出来,然后输出到EXCEL表格中,但是表格中显示的是乱码.数据库中的数据是正常的,没有问题,程序有个查询功能,一个导出功能,查询功能是调用润乾展示报表,没有乱码.... 我先把数 ...

  8. was中奇怪的生僻字乱码案例

    问题描述 这个今天早上提供的一个生产问题.大体是说,改资料的时候,有个客户的名字有生僻字,叫"刘",保存之后就乱码了,变成"刘?" 分析过程 乱码需要确认数据 ...

  9. 解决jacob用wps将word转html的时候个别生僻字乱码的问题

    原创文章,转载请注明出处 用jacob将wps转html的时候,Java读入转后的html,发现有个别生僻字出现乱码, 解决方法: 因为WPS默认转成html是gb2312编码的,而gb2312不支持 ...

最新文章

  1. 面试官问:ZooKeeper 一致性协议 ZAB 原理
  2. 平衡二叉树-splay c/c++代码实现
  3. php单例模式的核心语句,PHP单例模式的核心思想
  4. 通过源码详解 Servlet
  5. go int 转切片_DW-Go语言编程-Task06-数组、切片
  6. VTK:Utilities之FullScreen
  7. elementui table某一列是否显示_Vue项目引进ElementUI组件的方法
  8. web项目上之深入理解Java国际化
  9. 本科计算机专业在车辆段,机电与轨道车辆工程系2021届毕业生参加成都铁路局车辆段及电务段认知实习...
  10. java中广告维护轮播图怎么做_Banner广告轮播图
  11. C++/C--二分查找之lower_bound( )和upper_bound( )【转载】
  12. 使用app-inspector时报错connect ECONNREFUSED 127.0.0.1:8001的解决方案
  13. mtkwin10驱动_Windows系统MTK手动安装驱动教程(Win10通用)
  14. tmb100a linux,天猫魔盒TMB100E短接降级官方1.7版本
  15. 51单片机驱动继电器模块点灯
  16. 现代软件工程学期总结
  17. 计算机网络层之 P2P
  18. python怎么停止正在运行的代码_在python中,如何停止正在执行的函数中的代码?...
  19. EFR32上用DMA实现UART高速数据传输
  20. 堪称神级的Java技术栈手册火了!

热门文章

  1. 数字营销:用好大数据,先从“人口统计数据”开始!
  2. 驱动调试(三)oops确定函数PC
  3. FPGA是什么及其应用领域
  4. 车辆在刹车不及时导致与行人发生碰撞事故,产生出险记录
  5. 基于大数据的旅游数据分析系统的设计与实现
  6. php 调用移动第三方短信接口
  7. S3C2440与NAND FLASH(K9F1208)的接线分析
  8. 诡异的RunOnce病毒启动项和神奇的URL Protocol
  9. ________________Java反射与内省(Introspector)
  10. matlab 求信噪比