1.爬虫数据提取——方法总结
爬虫数据提取——方法总结
在获取了我们想要的html页面之后,接下来的问题就是如何将我们需要的数据给提取下来,一般来说有三种方式,分别是Xpath语法,正则表达式和bs4库,只要掌握了这三种方法,可以说html页面上没有什么数据是我们获取不到的。
我们来对这三种方式做一个简单的总结:
解析方式 | 解析速度 | 难度 |
Xpath | 快 | 中等 |
bs4 | 慢 | 容易 |
re(正则表达式) | 最快 | 困难 |
实际上,这三种方式都可以从html页面上获取我们想要的数据,但是由于其基于的原理不太一样,所以他们在解析HTML页面的时候速度页不太一样,一般来说,解析越快的,用起来肯定越难,解析越慢的,用起来肯定更简单一些,这个呢也是很多其它语言等的规律,得到了一方面的性能,就要损失一些东西,所谓“鱼与熊掌不可兼得”。
个人偏向于使用Xpath语法,其次是正则表达式,bs4用的不是很多。因为对于大多数网站来说,使用Xpath语法已然足够,除非当Xpath不好提取的时候,选择使用正则表达式进行提取,当然,在一个数据提取中,我们可以使用混合方式进行数据提取,比如,既使用Xpath语法也使用正则表达式,也可以三者皆用,这个取决于个人的偏好及HTML页面提取的难易程度。
扫描二维码即可参与该课程,解锁更多爬虫知识:
1.爬虫数据提取——方法总结相关推荐
- python爬虫数据提取_入门Python爬虫——提取数据篇
原标题:入门Python爬虫--提取数据篇 作者: 李菲 来源:人工智能学习圈 前言 在提取数据这一环节,爬虫程序会将我们所需要的数据提取出来.在上一篇文章<入门Python爬虫 -- 解析数据 ...
- python如何爬虫eps数据_Python爬虫数据提取总结
原博文 2019-01-24 18:06 − 关于Python的爬虫的一些数据提取的方法总结 第一种 : 正则表达式2. 正则表达式相关注解2.1 数量词的贪婪模式与非贪婪模式2.2 常用方法第二种: ...
- 【Python】爬虫数据提取
目录 一.xpath提取数据 二.爬虫爬取图片资源 三.爬虫爬取视频资源 四.FLV文件转码为MP4文件 一.xpath提取数据 <bookstore> <book category ...
- python爬虫json_python爬虫数据提取一之json
1 数据提取 什么是数据提取? 简单的来说,数据提取就是从响应中获取我们想要的数据的过程 1.1 数据分类 非结构化数据: html , 文本等 处理方法:正则表达式,xpath语法 结构化数据:js ...
- Python 爬虫 数据提取
一下子运行 七八十个 select 将会是什么样的体验呢? 业务部门提供了一个需要,要求从爬虫数据中提取出88家的数据, 并且也提供了一个excel表格,如下图: 这个时候我们可以通过拍卖行,拍卖时 ...
- python爬虫数据提取,Python 信息提取-爬虫,爬虫提取数据, import re
Python 信息提取-爬虫,爬虫提取数据, import re import requestsimport refrom bs4 import BeautifulSoupurl = "ht ...
- python爬虫科研数据提取_python爬虫数据提取四之pyquery
1 pyquery 简介:同样是一个强大的网页解析工具 它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便 2 pyquery基本用法 2.1 安装 pip insta ...
- Python爬虫入门之爬虫解析提取数据的四种方法
本文主要介绍了Python爬虫入门之爬虫解析提取数据的四种方法,通过具体的内容向大家展现,希望对大家Python爬虫的学习有所帮助. 基础爬虫的固定模式 笔者这里所谈的基础爬虫,指的是不需要处理像异步 ...
- python 爬虫(七)lxml模块 + lxml数据提取(字符串的xml/html文件--转换--element对象--转换--字符串)调用XPath方法筛选数据 + 案例(扇贝 酷狗 网易云音乐)
爬虫小知识:爬取网站流程 确定网站哪个url是数据的来源. 简要分析一下网站结构,查看数据一般放在哪里. 查看是否有分页,解决分页的问题. 发送请求,查看response.text里面是否有我们想要的 ...
最新文章
- sqlserver工具界面_最好用的数据库管理工具DBeaver
- ajax中 get 和 post 的区别
- Silverlight + WCF异步调用 例子
- 16位的数字高字节和低字节_显示8位数字的较低和较高半字节的掩蔽| 8086微处理器...
- TCP/IP Model: Layers Protocol | What is TCP IP Stack?
- 【暖*墟】#洛谷网课1.30# 树上问题
- WPF自适应可关闭的TabControl 类似浏览器的标签页
- 安全测试 - XSS如何防御
- 117 Python程序中的线程操作-开启多线程(threading.Thread)
- 2022年五一建模比赛A题#五一建模
- 计算机基础试题及答案 完整版,大学计算机基础试题及答案(完整版)
- photoshop cc 2018安装破解教程
- 关于复数i本质的探讨
- Mybatis注解@Results、@Result、@ResultMap
- 枕头的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
- 【JZOJ 3397】雨天的尾巴
- f15_Trading Strategies2_sma_AAPL_Log return_EUR_OLS regress_df highlight_Lagrang_GaussianNB_DNNClass
- DL | TensorFlow代码调试
- 开发钉钉和企业微信微应用
- deepin系统中.txt文件图标显示内容问题_深度操作系统 deepin V20(UOS)的10大优化操作
热门文章
- 服务器的安全基线、加固及应急响应总结
- AVD模拟器怎么配置上网
- maven pom插件tomcat7-maven-plugin部署tomcat9
- 拆解计算机步骤,笔记本如何正确拆解 笔记本拆解方法【步骤介绍】
- Apache/Tomcat ajp联动——httpd mod_proxy_ajp,协议,配置方法。
- B站好资源: 数据科学,机器学习,python
- 蒋鑫鸿:9.6国际黄金期货美原油今日行情走势分析及最新多空操作建议
- pheatmap绘制热图
- 初学ionic--自学整理知识点总结(1)
- AddressSanitizer的错误输出分析