爬虫数据提取——方法总结

在获取了我们想要的html页面之后,接下来的问题就是如何将我们需要的数据给提取下来,一般来说有三种方式,分别是Xpath语法,正则表达式和bs4库,只要掌握了这三种方法,可以说html页面上没有什么数据是我们获取不到的。

我们来对这三种方式做一个简单的总结:

解析方式 解析速度 难度
Xpath 中等
bs4 容易
re(正则表达式) 最快 困难

实际上,这三种方式都可以从html页面上获取我们想要的数据,但是由于其基于的原理不太一样,所以他们在解析HTML页面的时候速度页不太一样,一般来说,解析越快的,用起来肯定越难,解析越慢的,用起来肯定更简单一些,这个呢也是很多其它语言等的规律,得到了一方面的性能,就要损失一些东西,所谓“鱼与熊掌不可兼得”。

个人偏向于使用Xpath语法,其次是正则表达式,bs4用的不是很多。因为对于大多数网站来说,使用Xpath语法已然足够,除非当Xpath不好提取的时候,选择使用正则表达式进行提取,当然,在一个数据提取中,我们可以使用混合方式进行数据提取,比如,既使用Xpath语法也使用正则表达式,也可以三者皆用,这个取决于个人的偏好及HTML页面提取的难易程度。


扫描二维码即可参与该课程,解锁更多爬虫知识:

1.爬虫数据提取——方法总结相关推荐

  1. python爬虫数据提取_入门Python爬虫——提取数据篇

    原标题:入门Python爬虫--提取数据篇 作者: 李菲 来源:人工智能学习圈 前言 在提取数据这一环节,爬虫程序会将我们所需要的数据提取出来.在上一篇文章<入门Python爬虫 -- 解析数据 ...

  2. python如何爬虫eps数据_Python爬虫数据提取总结

    原博文 2019-01-24 18:06 − 关于Python的爬虫的一些数据提取的方法总结 第一种 : 正则表达式2. 正则表达式相关注解2.1 数量词的贪婪模式与非贪婪模式2.2 常用方法第二种: ...

  3. 【Python】爬虫数据提取

    目录 一.xpath提取数据 二.爬虫爬取图片资源 三.爬虫爬取视频资源 四.FLV文件转码为MP4文件 一.xpath提取数据 <bookstore> <book category ...

  4. python爬虫json_python爬虫数据提取一之json

    1 数据提取 什么是数据提取? 简单的来说,数据提取就是从响应中获取我们想要的数据的过程 1.1 数据分类 非结构化数据: html , 文本等 处理方法:正则表达式,xpath语法 结构化数据:js ...

  5. Python 爬虫 数据提取

    一下子运行 七八十个  select 将会是什么样的体验呢? 业务部门提供了一个需要,要求从爬虫数据中提取出88家的数据, 并且也提供了一个excel表格,如下图: 这个时候我们可以通过拍卖行,拍卖时 ...

  6. python爬虫数据提取,Python 信息提取-爬虫,爬虫提取数据, import re

    Python 信息提取-爬虫,爬虫提取数据, import re import requestsimport refrom bs4 import BeautifulSoupurl = "ht ...

  7. python爬虫科研数据提取_python爬虫数据提取四之pyquery

    1 pyquery 简介:同样是一个强大的网页解析工具 它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便 2 pyquery基本用法 2.1 安装 pip insta ...

  8. Python爬虫入门之爬虫解析提取数据的四种方法

    本文主要介绍了Python爬虫入门之爬虫解析提取数据的四种方法,通过具体的内容向大家展现,希望对大家Python爬虫的学习有所帮助. 基础爬虫的固定模式 笔者这里所谈的基础爬虫,指的是不需要处理像异步 ...

  9. python 爬虫(七)lxml模块 + lxml数据提取(字符串的xml/html文件--转换--element对象--转换--字符串)调用XPath方法筛选数据 + 案例(扇贝 酷狗 网易云音乐)

    爬虫小知识:爬取网站流程 确定网站哪个url是数据的来源. 简要分析一下网站结构,查看数据一般放在哪里. 查看是否有分页,解决分页的问题. 发送请求,查看response.text里面是否有我们想要的 ...

最新文章

  1. sqlserver工具界面_最好用的数据库管理工具DBeaver
  2. ajax中 get 和 post 的区别
  3. Silverlight + WCF异步调用 例子
  4. 16位的数字高字节和低字节_显示8位数字的较低和较高半字节的掩蔽| 8086微处理器...
  5. TCP/IP Model: Layers Protocol | What is TCP IP Stack?
  6. 【暖*墟】#洛谷网课1.30# 树上问题
  7. WPF自适应可关闭的TabControl 类似浏览器的标签页
  8. 安全测试 - XSS如何防御
  9. 117 Python程序中的线程操作-开启多线程(threading.Thread)
  10. 2022年五一建模比赛A题#五一建模
  11. 计算机基础试题及答案 完整版,大学计算机基础试题及答案(完整版)
  12. photoshop cc 2018安装破解教程
  13. 关于复数i本质的探讨
  14. Mybatis注解@Results、@Result、@ResultMap
  15. 枕头的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  16. 【JZOJ 3397】雨天的尾巴
  17. f15_Trading Strategies2_sma_AAPL_Log return_EUR_OLS regress_df highlight_Lagrang_GaussianNB_DNNClass
  18. DL | TensorFlow代码调试
  19. 开发钉钉和企业微信微应用
  20. deepin系统中.txt文件图标显示内容问题_深度操作系统 deepin V20(UOS)的10大优化操作

热门文章

  1. 服务器的安全基线、加固及应急响应总结
  2. AVD模拟器怎么配置上网
  3. maven pom插件tomcat7-maven-plugin部署tomcat9
  4. 拆解计算机步骤,笔记本如何正确拆解 笔记本拆解方法【步骤介绍】
  5. Apache/Tomcat ajp联动——httpd mod_proxy_ajp,协议,配置方法。
  6. B站好资源: 数据科学,机器学习,python
  7. 蒋鑫鸿:9.6国际黄金期货美原油今日行情走势分析及最新多空操作建议
  8. pheatmap绘制热图
  9. 初学ionic--自学整理知识点总结(1)
  10. AddressSanitizer的错误输出分析