Python有很多包可以抓取数据,如selenium、requests、scrapy、pandas,每个包都有其适用性,个人认为在抓取数据时,代码简洁性和数据获取的准确性是需要考虑的因素,时间快慢倒不用太在意,毕竟用python抓数据本来就大大节省了时间,用不同的方法可能也就是1秒和1分钟的区别。日常中我们总存在抓取表格数据的需求,本文试图用pandas最简洁的代码抓取表格数据,代码非常简单,也很容易上手。

随便选个网页:

http://www.nafmii.org.cn/dcmfx/tzs/ppn/index.html

比如爬取下图中定向工具的注册批文(当然wind里面也有数据,本文只是为了展示如何爬取表格型数据)

一、爬取当页

只需要两句关键代码就可以抓取出来,前两句是导入相关模块,第三句输入网址,第四句用pandas读取,由于该网页有很多表格,会以list格式存在ppn这个变量里,点击查看可以发行第十四张表格正是我们所需要的内容。

二、全部爬取

但是第一部分只抓取了第一页,如果想要把所有页都抓取出来,同样非常简单,只需编写一个循环。点击下一页可以发现其网址会发生相应改变:http://www.nafmii.org.cn/dcmfx/tzs/ppn/index_2.html

页码会体现在index后面的数字,因此可以将url改为变量的组合,具体看第五句。第一和二句依然是导入相关模块,第三句是生成一个空矩阵,用于存储抓取完的结果,第四句至第八句是一个简单的循环,result变量就是每页抓取的结果,然后不断的添加到output里。最后output就是我们想要的结果。

jq获取表格里的checkbox_Python抓取网页表格(一)相关推荐

  1. excel两个表格数据对比_用Excel一键抓取网页表格数据

    无需插件或编程,Excel自带一键抓取网页表格数据,你会用吗?省去从网页复制甚至手工抄写的麻烦,极大提高工作效率! 首先在浏览器打开想要抓取表格的网页(例如:中国银行外汇牌价),复制地址栏网址,然后打 ...

  2. Python案例学习:抓取网页表格数据解析并写入Excel

    三年多没写博客了,原因是因为我转行了,经历了很长的低谷,那段时间从不看博客,今天打开来看,回复了一些评论,很抱歉,有些网友的评论没有及时回复.最近开始想写代码了~ 最近看基金股票,想抓取一些行业当天的 ...

  3. python爬虫表格table_Python基于pandas爬取网页表格数据

    以网页表格为例:https://www.kuaidaili.com/free/ 该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不 ...

  4. python抓取网页表格数据

    小白初入python,在博客上借鉴了一些源码,然后改进了一下,选了湖大硕士招生分数线的一个表格进行爬取.成功是成功了,咳咳,还有很多改进的地方.啥也不说了,直接上源码~ # -*- coding:ut ...

  5. php正则获取li,用正则表达式抓取网页中的ul 和 li标签中最终的值!

    获取你要抓取的页面 const string URL = "http://www.hn3ddf.gov.cn/price/GetList.html?pageno=1";       ...

  6. python获取网页图片_python抓取网页中的图片示例

    python抓取网页中的图片示例 代码如下: #coding:utf8 import re import urllib def getHTML(url): page = urllib.urlopen( ...

  7. java抓取页面表格_用java实现爬虫抓取网页中的表格数据功能源码

    [实例简介] 使用java代码基于MyEclipse开发环境实现爬虫抓取网页中的表格数据,将抓取到的数据在控制台打印出来,需要后续处理的话可以在打印的地方对数据进行操作.包解压后导入MyEclipse ...

  8. cutycapt php,PHP利用CutyCapt获取网页快照,抓取网页高清图片快照(教程)

    PHP利用CutyCapt获取网页快照,抓取网页高清图片快照(教程): // +------------------------------------------------------------ ...

  9. beautifulsoup爬取网页中的表格_用 Python 爬取网页

    来自公众号:优达学城Udacity 作者:Kerry Parker 编译:欧剃 作为数据科学家的第一个任务,就是做网页爬取.那时候,我对使用代码从网站上获取数据这项技术完全一无所知,它偏偏又是最有逻辑 ...

最新文章

  1. python opencv单通道转多通道_13、OpenCV绘图和文本显示
  2. Python 办公自动化,一键给PDF文件加密,超方便
  3. Bytes int java_Java Bytes.readInt方法代码示例
  4. cnn风格迁移_快速图像风格迁移思想在无线通信中的另类应用:算法拟合
  5. LeetCode.961-2N数组中N次重复的元素(N-Repeated Element in Size 2N Array)
  6. 为什么Redis是单线程?为什么能处理大并发量?(举例不错)
  7. all方法 手写promise_promise.all的实现
  8. Linux常用命令小结(一)
  9. string与wstring互转
  10. 第七章:【UCHome二次开发】模板语法说明
  11. magento网站建设_跨境自建站Magento麦进斗代打包代贴单代发货
  12. 【oracle】常用函数总结
  13. Pandas入门教程(三)
  14. SQL Profile (总结4)--使用演示示例
  15. C#一个FTP操作封装类FTPHelper
  16. python处理期货数据_用Python下载并分析期货持仓数据
  17. 计算机二级excel试题练习网盘,计算机二级练习试题excel
  18. 《SPSS统计分析与行业应用实战》之诊断试验与ROC分析
  19. 关于实验室数据结构实验错误本周总结。引用调用bug
  20. NLP自然语言处理系列-时间序列数据分析-趋势性、周期性、自相关性、冲量、差分、移动平均误差计算

热门文章

  1. Spark3.0发布了,代码拉过来,打个包,跑起来!| 附源码编译
  2. file_get_contents请求失败处理_SpringCloud Gateway网关处理请求过程中遇到400Bad Request问题解决方案...
  3. amd核芯显卡控制面板自定义分辨率_主流显卡的一位猛将:蓝宝石Radeon RX 5500XT显卡首测...
  4. 回归的误差服从正态分布吗_盘点10大回归类型:总有一款深得你心
  5. matlab 控制声卡,请问高手关于matlab控制声卡输出的问题
  6. Docker Nacos Mysql集群
  7. nacos 整合Dubbo 多服务
  8. Vue优化策略_项目上线_02
  9. Vue3 --- 使用vue-element-admin
  10. linux modbus工具,基于ARM-Linux的Modbus串口服务器设计