http://passover.blog.51cto.com/2431658/484673

最近又要做html内容抽取,这次打算尝试一下除了用正则表达式以外的其他方式。自然第一个想到的就是HtmlParser,结果找到了以后发现最近的更新还是在06年,汗!这个时候很意外的发现了Jsoup,试用了一下感觉相当清爽,推荐一下。

如果你很有兴趣,直接去官方网站看下说明文档,地址是http://jsoup.org/cookbook/。我这里给个小例子,目的是从下文中抽取出标题,大家可以看一下他的类jQuery语法。

  1. <div class="artHead">
  2. <div>
  3. <span class="artType01" style="margin-right: 5px;"><a href="javascript:void(0)">原创</a></span>
  4. <h3 class="artTitle"><a href="/2431658/483361">JAVA程序内存溢出问题的分析</a>
  5. <a href="http://blog.51cto.com/artcommend" target="_blank"><img src="http://blog.51cto.com/image/skin/34/indextj.gif" width="15" height="15" /></a>
  6. </h3>
  7. </div>

这个内容是从我博客首页上摘取的,所以直接打开这个页面进行抽取,测试代码如下:

  1. package jsoup;
  2. import java.io.IOException;
  3. import org.jsoup.Jsoup;
  4. import org.jsoup.nodes.Document;
  5. import org.jsoup.select.Elements;
  6. public class ParseTest {
  7. public static void main(String[] args) {
  8. try {
  9. Document doc = Jsoup.connect("http://passover.blog.51cto.com/").get();
  10. System.out.println(doc.title());
  11. Elements eles = doc.select("div.artHead");
  12. System.out.println(eles.first().select("h3[class=artTitle]"));
  13. } catch (IOException e) {
  14. e.printStackTrace();
  15. }
  16. }
  17. }

是不是特别简单?!如果网页结构化比较好的话,这么抽取真的非常方便,我试了下,效率也很不错。推荐给有相关需求的朋友,网页解析又多了一个选择,:-)

利用Jsoup解析HTML相关推荐

  1. Android利用Jsoup解析html 开发网站客户端小记。

    这些天业余时间比较多,闲来无事,想起了以前看过开发任意网站客户端的一篇文章,就是利用jsoup解析网站网页,通过标签获取想要的内容.好了废话不多说,用到的工具为 jsoup-1.7.2.jar包,具体 ...

  2. Android开发探秘之三:利用jsoup解析HTML页面

    这节主要是讲解jsoup解析HTML页面.由于在android开发过程中,不可避免的涉及到web页面的抓取,解析,展示等等,所以,在这里我主要展示下利用jsoup jar包来抓取cnbeta.com网 ...

  3. Android 利用jsoup解析 html

     原由:我在访问服务器时,回来的数据是html源文件,我需要从html源文件中获取对自己有用的信息. 一般情况下jsoup多用于JAVA方面的开发,可以利用jQuery,DOM一同使用.可以达到抓 ...

  4. 利用jsoup解析网站网页

    用到的工具为 jsoup-1.7.2.jar包,具体jsoup的相关文档,请去这边看http://jsoup.org/,这里有全部Api可以查询. 首先请求网页, Document doc = Jso ...

  5. Java爬虫之利用Jsoup自制简单的搜索引擎

      Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据.Jso ...

  6. Jsoup解析HTML实例及文档方法详解

    转载自  Jsoup解析HTML实例及文档方法详解 这篇文章主要介绍了Jsoup如何解析一个HTML文档.从文件加载文档.从URL加载Document等方法,对Jsoup常用方法做了详细讲解,最近提供 ...

  7. java爬虫jsoup_Java爬虫之利用Jsoup自制简单的搜索引擎

    内容导读 在上述代码中,url为输入词条(暂时仅限于英文),进入while循环可一直搜索,当输入为'exit'时退出.contentText为该词条的百度百科简介的网页形式,通过正则表达式将其中的文字 ...

  8. jsoup 获取html中body内容_Java 进阶 利用Jsoup获取HTML页面的各分页中的标题信息...

    简单介绍一下Jsoup Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于Xpath,jQuery的操 ...

  9. jsoup html转义处理,jsoup解析网页出现转义符问题

    https://www.oschina.net/question/996055_136438 *************************************** 我要解析这个网页  htt ...

最新文章

  1. 专科电子信息工程不学c语言,高中数学物理都不是很好 想报电子信息工程专业(专科)能行么?...
  2. OpenOffce在Centos7安装和使用
  3. PEAK6 2020校招OA
  4. LeetCode Letter Combinations of a Phone Number 电话号码组合
  5. Linux服务器Zookeeper+Dubbo环境搭建
  6. GCC/G++选项 -Wl,-Bstatic和-Wl,-Bdynamic
  7. oracle查询包含某个字段的表
  8. 在.NET Core中使用Exceptionless分布式日志收集框架
  9. 斐波那契数列 青蛙跳台阶 变态跳台阶
  10. 虚拟机无法接受组播消息_基于UDP的组播通信
  11. python反距离权重法_反距离权重法 (Spatial Analyst)—ArcMap | 文档
  12. 十几减9的口算题_小学一年级下册十几减9数学教案
  13. 【先定一个小目标】Asp.net Core 在IIS上的托管运行
  14. 前端学习笔记--百度2010校园招聘题目
  15. 编程与python的区别_python与其他编程语言区别全在这
  16. 树莓派笔记004——步进电机驱动板
  17. bandicam安装注册
  18. 【嵌入式开发】开发板设置系统时间
  19. 深度学习基础知识每日更 upupup
  20. CCF认证 2018-03 棋局评估

热门文章

  1. 『Spring.Net』为什么使用?
  2. 设计模式学习笔记之装饰者模式
  3. php -- 取日期
  4. 马化腾亲身分享:腾讯兵法教你做一款高口碑的产品
  5. 关于在linux系统下卸载软件的问题
  6. 集线器、交换机和路由器之间的区别
  7. 《深度学习》李宏毅 -- task2 回归
  8. 大数据分析存在哪些困难
  9. 数据治理的好处有哪些
  10. 医疗大数据为何发展如此缓慢