利用Jsoup解析HTML
http://passover.blog.51cto.com/2431658/484673
最近又要做html内容抽取,这次打算尝试一下除了用正则表达式以外的其他方式。自然第一个想到的就是HtmlParser,结果找到了以后发现最近的更新还是在06年,汗!这个时候很意外的发现了Jsoup,试用了一下感觉相当清爽,推荐一下。
如果你很有兴趣,直接去官方网站看下说明文档,地址是http://jsoup.org/cookbook/。我这里给个小例子,目的是从下文中抽取出标题,大家可以看一下他的类jQuery语法。
- <div class="artHead">
- <div>
- <span class="artType01" style="margin-right: 5px;"><a href="javascript:void(0)">原创</a></span>
- <h3 class="artTitle"><a href="/2431658/483361">JAVA程序内存溢出问题的分析</a>
- <a href="http://blog.51cto.com/artcommend" target="_blank"><img src="http://blog.51cto.com/image/skin/34/indextj.gif" width="15" height="15" /></a>
- </h3>
- </div>
这个内容是从我博客首页上摘取的,所以直接打开这个页面进行抽取,测试代码如下:
- package jsoup;
- import java.io.IOException;
- import org.jsoup.Jsoup;
- import org.jsoup.nodes.Document;
- import org.jsoup.select.Elements;
- public class ParseTest {
- public static void main(String[] args) {
- try {
- Document doc = Jsoup.connect("http://passover.blog.51cto.com/").get();
- System.out.println(doc.title());
- Elements eles = doc.select("div.artHead");
- System.out.println(eles.first().select("h3[class=artTitle]"));
- } catch (IOException e) {
- e.printStackTrace();
- }
- }
- }
是不是特别简单?!如果网页结构化比较好的话,这么抽取真的非常方便,我试了下,效率也很不错。推荐给有相关需求的朋友,网页解析又多了一个选择,:-)
利用Jsoup解析HTML相关推荐
- Android利用Jsoup解析html 开发网站客户端小记。
这些天业余时间比较多,闲来无事,想起了以前看过开发任意网站客户端的一篇文章,就是利用jsoup解析网站网页,通过标签获取想要的内容.好了废话不多说,用到的工具为 jsoup-1.7.2.jar包,具体 ...
- Android开发探秘之三:利用jsoup解析HTML页面
这节主要是讲解jsoup解析HTML页面.由于在android开发过程中,不可避免的涉及到web页面的抓取,解析,展示等等,所以,在这里我主要展示下利用jsoup jar包来抓取cnbeta.com网 ...
- Android 利用jsoup解析 html
原由:我在访问服务器时,回来的数据是html源文件,我需要从html源文件中获取对自己有用的信息. 一般情况下jsoup多用于JAVA方面的开发,可以利用jQuery,DOM一同使用.可以达到抓 ...
- 利用jsoup解析网站网页
用到的工具为 jsoup-1.7.2.jar包,具体jsoup的相关文档,请去这边看http://jsoup.org/,这里有全部Api可以查询. 首先请求网页, Document doc = Jso ...
- Java爬虫之利用Jsoup自制简单的搜索引擎
Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据.Jso ...
- Jsoup解析HTML实例及文档方法详解
转载自 Jsoup解析HTML实例及文档方法详解 这篇文章主要介绍了Jsoup如何解析一个HTML文档.从文件加载文档.从URL加载Document等方法,对Jsoup常用方法做了详细讲解,最近提供 ...
- java爬虫jsoup_Java爬虫之利用Jsoup自制简单的搜索引擎
内容导读 在上述代码中,url为输入词条(暂时仅限于英文),进入while循环可一直搜索,当输入为'exit'时退出.contentText为该词条的百度百科简介的网页形式,通过正则表达式将其中的文字 ...
- jsoup 获取html中body内容_Java 进阶 利用Jsoup获取HTML页面的各分页中的标题信息...
简单介绍一下Jsoup Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于Xpath,jQuery的操 ...
- jsoup html转义处理,jsoup解析网页出现转义符问题
https://www.oschina.net/question/996055_136438 *************************************** 我要解析这个网页 htt ...
最新文章
- 专科电子信息工程不学c语言,高中数学物理都不是很好 想报电子信息工程专业(专科)能行么?...
- OpenOffce在Centos7安装和使用
- PEAK6 2020校招OA
- LeetCode Letter Combinations of a Phone Number 电话号码组合
- Linux服务器Zookeeper+Dubbo环境搭建
- GCC/G++选项 -Wl,-Bstatic和-Wl,-Bdynamic
- oracle查询包含某个字段的表
- 在.NET Core中使用Exceptionless分布式日志收集框架
- 斐波那契数列 青蛙跳台阶 变态跳台阶
- 虚拟机无法接受组播消息_基于UDP的组播通信
- python反距离权重法_反距离权重法 (Spatial Analyst)—ArcMap | 文档
- 十几减9的口算题_小学一年级下册十几减9数学教案
- 【先定一个小目标】Asp.net Core 在IIS上的托管运行
- 前端学习笔记--百度2010校园招聘题目
- 编程与python的区别_python与其他编程语言区别全在这
- 树莓派笔记004——步进电机驱动板
- bandicam安装注册
- 【嵌入式开发】开发板设置系统时间
- 深度学习基础知识每日更 upupup
- CCF认证 2018-03 棋局评估