爬数据html解析,jsoup网络爬取数据HTML解析
Jsoup是一款网络爬取数据的解析器,可以解析HTML文件中的任何子节点,支持离线HTML文件、字符型HTML内容、URL的解析。非常方便和实用。
Document doc = Jsoup.connect("https://www.zhihu.com/").get();
//File f = new File("pathname");
//Document doc = Jsoup.parse(f, "UTF-8", "");//离线文件形式
//Document doc = Jsoup.parse("html_String");//HTML格式的字符串
Elements links = doc.select("a[href]");
for (Element link : links) {
sff.append(link.attr("abs:href")).append(" ").append(link.text()).append(" ");
}
myString = sff.toString();
Log.i("href:", myString);
它获取内容的主要方式如下几点:
1.通过标签名来查找
3325
Elements elements = doc.select("span");
注:通过标签来查找,直接写 "标签名" 就好,不需要尖括号。
2.通过 id 来查找
36 20
Elements elements = doc.select("#mySpan");
注:通过id来查找,使用方法跟css指定元素一样,用#
3.通过 class名 来查找
3620
Elements elements = doc.select(".myClass");
注:通过id来查找,使用方法跟css指定元素一样,用 .
4.利用标签内 属性名 查找元素
3636
Elements elements = doc.select("span[class=class1]span[id=id1]");
注:规则为 标签名【属性名=属性值】,标签名可写可不写,多个属性即多个【】,如上。
5.利用标签内 属性名前缀 查找元素
3622
Elements elements = doc.select("span[^cl]");
注:规则为 标签名【^属性名前缀】,标签名可写可不写,多个属性即多个【】。
6.利用标签内 属性名+正则表达式 查找元素
3622
Elements elements = doc.select("span[class~=^AB]");
注:规则为 标签名【属性名~=正则表达式】,以上的正则表达式的意思是查找以class值以AB为开头的标签,标签名可写可不写,多个属性即多个【】
7.利用标签 文本包含某些内容 来查找
3622
Elements elements = doc.select("span:contains(3)");
注:规则为 标签名:contains(文本值)
8.利用标签 文本包含某些内容+正则表达式 来查找
3622
Elements elements = doc.select("span:matchesOwn(^3)");
爬数据html解析,jsoup网络爬取数据HTML解析相关推荐
- delphi 通讯数据解析_网络工程师-ARP是如何解析?
ARP解析,网络工程师https://www.zhihu.com/video/1137409061321523200 1. ARP是什么? ARP是OSI网络层,主要作用是IP解析为MAC地址. 1. ...
- beautifulsoup网页爬虫解析_Python3 网络爬虫快速入门实战解析
点击上方"Python高校",关注 文末干货立马到手 作者:Jack Cui http://cuijiahua.com/blog/2017/10/spider_tutorial_1 ...
- python从文件中读取数据_使用Python脚本从文件读取数据代码实例
这篇文章主要介绍了使用Python脚本从文件读取数据代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 最近自学Python的进度比较慢,工作之 ...
- matlab导入桌面excel数据库,matlab导入excel数据_excel怎么导入网络上的数据?_excel导入网络数据...
网络上的数据怎么导到excel中.有方法是直接复制然后粘贴到excel中,但是网络上直接复制过来的,可能不能直接进去下一步编辑.因为复制过来的每个词后面都有空格,是不能进行直接计算,连最基本的求和都不 ...
- python从文件读取数据到列表_python之从文件读取数据到list的实例讲解
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...
- numpy.transpose()方法的使用,该方法其实并没有改变数据的几何位置,只是取数据的角度不同
https://www.cnblogs.com/caizhou520/p/11227986.html
- python爬网站数据实例-如何用Python爬数据?(一)网页抓取
如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...
- 网络抓取与网络爬取的区别
网络抓取,从其自身的含义到在商业领域使用的各种情况,以及未来商业领域的无限潜能来看,都相对复杂.当然,还有另一个常见的术语--网络爬取.可能别人会说两种说法意义相同,但其实还是有细微差别的,今天我们就 ...
- Volley 源码解析之网络请求
Volley源码分析三部曲 Volley 源码解析之网络请求 Volley 源码解析之图片请求 Volley 源码解析之缓存机制 Volley 是 Google 推出的一款网络通信框架,非常适合数据量 ...
最新文章
- JSON WEB TOKEN
- SAP 取月度期初库存和月度期末库存(历史库存)
- 走进武汉,解密多媒体开发新场景、新实践(内附资料下载)
- 有BRT,为啥还建公交港湾
- java jnotify_Jnotify文件监控的用法以及Jar文件导入的方法
- opensource项目_Opensource.com生日快乐:开源7年
- 转:敏捷方式scrum 方案
- 关于Jedis和lettuce以及springDataRedis的一些区别
- 十六进制转十进制_跟运维组学Python之秒懂十六进制
- 数字图像处理_冈萨雷斯
- 随便谈谈alphago与人机大战
- welearn考试切屏会有显示吗_welearn随行课堂班级测试答案
- 全球及中国IT外包市场价值评估及投资战略决策报告2021-2027年
- 湖大计算机学院博士后李晓灿,李蕊-湖大信息科学与工程学院
- 小案例之点击网页任意位置出现小爱心
- AcWing 478. 侦探推理 枚举+模拟
- 12对胸椎对应体表标志_腰椎的体表标志_第一至第五腰椎怎么定位相应体表标志怎么对应_中国武警总医院...
- 天干地支计算公式_天干地支计算方法
- 机器学习中对数据集进行拆分及模型训练
- 在线SQL转XML工具
热门文章
- 深入String、StringBuilder、StringBuffer
- python如何取消缩进_python如何处理缩进
- python续行符是啥_python续行符
- m3u8转mp4缓存合并工厂_多线程m3u8下载工具,支持windowsamp;amp;linux;两个羊毛线报...
- ARM 之十 ARMCC(Keil) map 文件(映射文件)详解
- python range函数for_Python的range函数与for循环语句
- centos7 go yum 安装_超详细的centos7下载安装Postgresql11(yum安装)教程
- C++ new一个数组方法和初始化的方法
- 数学物理方法pdf_《数学物理方法》周明儒(第2版)补充材料与习题详解
- linux apache 2.2下载,Linux下的Apache 2.2.* SSL证书安装