Jsoup是一款网络爬取数据的解析器,可以解析HTML文件中的任何子节点,支持离线HTML文件、字符型HTML内容、URL的解析。非常方便和实用。

Document doc = Jsoup.connect("https://www.zhihu.com/").get();

//File f = new File("pathname");

//Document doc = Jsoup.parse(f, "UTF-8", "");//离线文件形式

//Document doc = Jsoup.parse("html_String");//HTML格式的字符串

Elements links = doc.select("a[href]");

for (Element link : links) {

sff.append(link.attr("abs:href")).append(" ").append(link.text()).append(" ");

}

myString = sff.toString();

Log.i("href:", myString);

它获取内容的主要方式如下几点:

1.通过标签名来查找

3325

Elements elements = doc.select("span");

注:通过标签来查找,直接写 "标签名" 就好,不需要尖括号。

2.通过  id  来查找

36 20

Elements elements = doc.select("#mySpan");

注:通过id来查找,使用方法跟css指定元素一样,用#

3.通过  class名  来查找

3620

Elements elements = doc.select(".myClass");

注:通过id来查找,使用方法跟css指定元素一样,用 .

4.利用标签内  属性名  查找元素

3636

Elements elements = doc.select("span[class=class1]span[id=id1]");

注:规则为 标签名【属性名=属性值】,标签名可写可不写,多个属性即多个【】,如上。

5.利用标签内  属性名前缀  查找元素

3622

Elements elements = doc.select("span[^cl]");

注:规则为 标签名【^属性名前缀】,标签名可写可不写,多个属性即多个【】。

6.利用标签内 属性名+正则表达式 查找元素

3622

Elements elements = doc.select("span[class~=^AB]");

注:规则为 标签名【属性名~=正则表达式】,以上的正则表达式的意思是查找以class值以AB为开头的标签,标签名可写可不写,多个属性即多个【】

7.利用标签 文本包含某些内容 来查找

3622

Elements elements = doc.select("span:contains(3)");

注:规则为 标签名:contains(文本值)

8.利用标签 文本包含某些内容+正则表达式 来查找

3622

Elements elements = doc.select("span:matchesOwn(^3)");

爬数据html解析,jsoup网络爬取数据HTML解析相关推荐

  1. delphi 通讯数据解析_网络工程师-ARP是如何解析?

    ARP解析,网络工程师https://www.zhihu.com/video/1137409061321523200 1. ARP是什么? ARP是OSI网络层,主要作用是IP解析为MAC地址. 1. ...

  2. beautifulsoup网页爬虫解析_Python3 网络爬虫快速入门实战解析

    点击上方"Python高校",关注 文末干货立马到手 作者:Jack Cui http://cuijiahua.com/blog/2017/10/spider_tutorial_1 ...

  3. python从文件中读取数据_使用Python脚本从文件读取数据代码实例

    这篇文章主要介绍了使用Python脚本从文件读取数据代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 最近自学Python的进度比较慢,工作之 ...

  4. matlab导入桌面excel数据库,matlab导入excel数据_excel怎么导入网络上的数据?_excel导入网络数据...

    网络上的数据怎么导到excel中.有方法是直接复制然后粘贴到excel中,但是网络上直接复制过来的,可能不能直接进去下一步编辑.因为复制过来的每个词后面都有空格,是不能进行直接计算,连最基本的求和都不 ...

  5. python从文件读取数据到列表_python之从文件读取数据到list的实例讲解

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  6. numpy.transpose()方法的使用,该方法其实并没有改变数据的几何位置,只是取数据的角度不同

    https://www.cnblogs.com/caizhou520/p/11227986.html

  7. python爬网站数据实例-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  8. 网络抓取与网络爬取的区别

    网络抓取,从其自身的含义到在商业领域使用的各种情况,以及未来商业领域的无限潜能来看,都相对复杂.当然,还有另一个常见的术语--网络爬取.可能别人会说两种说法意义相同,但其实还是有细微差别的,今天我们就 ...

  9. Volley 源码解析之网络请求

    Volley源码分析三部曲 Volley 源码解析之网络请求 Volley 源码解析之图片请求 Volley 源码解析之缓存机制 Volley 是 Google 推出的一款网络通信框架,非常适合数据量 ...

最新文章

  1. JSON WEB TOKEN
  2. SAP 取月度期初库存和月度期末库存(历史库存)
  3. 走进武汉,解密多媒体开发新场景、新实践(内附资料下载)
  4. 有BRT,为啥还建公交港湾
  5. java jnotify_Jnotify文件监控的用法以及Jar文件导入的方法
  6. opensource项目_Opensource.com生日快乐:开源7年
  7. 转:敏捷方式scrum 方案
  8. 关于Jedis和lettuce以及springDataRedis的一些区别
  9. 十六进制转十进制_跟运维组学Python之秒懂十六进制
  10. 数字图像处理_冈萨雷斯
  11. 随便谈谈alphago与人机大战
  12. welearn考试切屏会有显示吗_welearn随行课堂班级测试答案
  13. 全球及中国IT外包市场价值评估及投资战略决策报告2021-2027年
  14. 湖大计算机学院博士后李晓灿,李蕊-湖大信息科学与工程学院
  15. 小案例之点击网页任意位置出现小爱心
  16. AcWing 478. 侦探推理 枚举+模拟
  17. 12对胸椎对应体表标志_腰椎的体表标志_第一至第五腰椎怎么定位相应体表标志怎么对应_中国武警总医院...
  18. 天干地支计算公式_天干地支计算方法
  19. 机器学习中对数据集进行拆分及模型训练
  20. 在线SQL转XML工具

热门文章

  1. 深入String、StringBuilder、StringBuffer
  2. python如何取消缩进_python如何处理缩进
  3. python续行符是啥_python续行符
  4. m3u8转mp4缓存合并工厂_多线程m3u8下载工具,支持windowsamp;amp;linux;两个羊毛线报...
  5. ARM 之十 ARMCC(Keil) map 文件(映射文件)详解
  6. python range函数for_Python的range函数与for循环语句
  7. centos7 go yum 安装_超详细的centos7下载安装Postgresql11(yum安装)教程
  8. C++ new一个数组方法和初始化的方法
  9. 数学物理方法pdf_《数学物理方法》周明儒(第2版)补充材料与习题详解
  10. linux apache 2.2下载,Linux下的Apache 2.2.* SSL证书安装