• 提供解析html、操作DOM的api,类似jquery的方法。

    • 自动校正html中错误语法。甚至只有div元素,都会被补充成完整完整。
  • 引入maven项目:

    <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.12.1</version>
    </dependency>
    
  • Jsoup:通过该类,可传入url、字符串、输入流、文件的方式输入html,解析后会返回Document表示html文档,然后进行DOM操作。

    • Jsoup.parse(String html):从字符串中获取html并解析

    • Jsoup.parse(String html,String baseUri)baseUri指定html中相对地址的基址,当获取相对地址的绝对地址时有用。如果html中含有base元素时或不需要该功能,可不用该方法。

    • Jsoup.connect(String url):从url上获取,例子如下:

      Document doc = Jsoup.connect("http://example.com/").get();
      String title = doc.title();
      //更复杂的例子
      Document doc = Jsoup.connect("http://example.com").data("query", "Java").userAgent("Mozilla").cookie("auth", "token").timeout(3000).post();
      

      这种方式已默认设置好了baseurl

    • Jsoup.parse(File in, String charsetName, String baseUri):从文件中获取html

  • 查找元素:DOM方式和css选择器方式

  • 获取数据

    • Use DOM methods to navigate a document
    • Extract attributes, text, and HTML from elements
  • 获取URL:Element类的attr("href")方法获取url;加上前缀abs后,会结合之前设置的baseUri解析成绝对地址,如attr("abs:href")。如果没有设置则返回空。

  • 修改DOM和其他内容,见参考文献

参考

jsoup cookbook

Java html解析器之Jsoup相关推荐

  1. 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用...

    在线演示  本地下载 如果你曾经开发过内容聚合类网站的话,使用程序动态整合来自不同页面或者网站内容的功能肯定对于你来说非常熟悉.通常使用java的话,我们都会使用到一些HTML的解析,例如,httpp ...

  2. java网页解析包_java 网页解析工具包 Jsoup

    Jsoup是一个非常好的解析网页的包,用java开发的,提供了类似DOM,CSS选择器的方式来查找和提取文档中的内容. 相关资料如下: 今天做了一个Jsoup解析网站的项目,使用Jsoup.conne ...

  3. jsoup Java HTML解析器

    jsoup is an open source Java HTML parser that we can use to parse HTML and extract useful informatio ...

  4. Jsoup介绍||​​​​​​​jsoup解析url || Jsoup解析字符串||​​​​​​​Jsoup解析文件

    Jsoup 抓取到页面之后,还需要对页面进行解析.可以使用字符串处理工具解析页面,也可以使用正则表达式,但是这些方法都会带来很大的开发成本,所以我们需要使用一款专门解析html页面的技术. jsoup ...

  5. Spring Boot html页面解析之jsoup

    目的 我们要对一个页面进行数据抓取,并导出doc文档 html解析器 jsoup 直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操 ...

  6. Java如何解析markdown_Java类库解析markdown文本

    Java类库解析markdown文本 朋也社区之前使用的方法是,在java代码里调用js,然后通过调用js里的方法来解析markdown的,但性能太渣,然后在github上找了找,发现 pegdown ...

  7. json java typeof_java解析json

    1:下载另外一个Java的小包就可以了: http://www.JSON.org/java/json_simple.zip 里面有源码和文档例题和编程的lib包:编程只需要json_simple.ja ...

  8. Java XML解析工具 dom4j介绍及使用实例

    Java XML解析工具 dom4j介绍及使用实例 dom4j介绍 dom4j的项目地址:http://sourceforge.net/projects/dom4j/?source=directory ...

  9. JAVA面试解析(有赞二面)

    作者:孤独烟 来自:打杂的ZRJ 本文的题目出自博客 http://www.54tianzhisheng.cn/2018/07/12/youzan/ 但是作者没有给出答案,博主斗胆来制作答案版. 也是 ...

最新文章

  1. 电脑显示未安装任何音频输出设备_一套完整的台式电脑有哪些配置
  2. 比ewsa更快的跑包工具_重庆单肩包订购,编织布袋定做厂家
  3. 接口测试到底是什么?如何制造接口数据
  4. tos重装mysql_云服务器(腾讯云)从零开始部署记录(3)之mysql5.7安装
  5. Bootstrap3 工具提示插件的方法
  6. iris数据_Python数据分析02-Iris-直方图与KDE
  7. 看《墨攻》理解IoC—Spring底层核心
  8. 使用python实现一个(文件版)简单的课程管理系统
  9. cmd命令卸载sql server_如何卸载SQL server
  10. 木马的检测、清除与防范
  11. 【训练题36:数学】斐波那契各项幂次前缀和 | ZOJ 3774
  12. 实测对比:2层和4层板的干扰和辐射差异
  13. ERROR: The executable E:\路径名称\Scripts\python2.exe is not functioning
  14. YII2日常所用的教程
  15. unicode转中文 C# (dotnetcore)
  16. 3年内被辞退5次,35岁程序员该何去何从?太厉害了!
  17. selenium和Python3.6实现招聘狗网站自动识别验证码登录、列表页、详情页爬取
  18. Python3 多线程
  19. 分子生物学 第四章 DNA的生物合成
  20. 淘之道——商城时代中小卖家生存法则

热门文章

  1. 【论文翻译】跨异构网络学习挖掘竞争关系
  2. GO学习 ---转义字符
  3. 如何用内卷搞垮一个团队?
  4. Vue与Nvue区别
  5. (ios、安卓)手机报错调试
  6. acwing 背包问题
  7. ZFPlayer视频播放PC 安卓都可以正常 播放,iOS端只有声音没有画面
  8. 无法使用计算机名称访问共享打印机,电脑打印机不能进行局域网共享打印,怎么解决问题...
  9. CNV拷贝数变异分析(GISTIC在线分析、maftools)
  10. P1824 进击的奶牛