目录

一、介绍read_html()函数

二、分析爬取目标页面

三、代码讲解

四、同步视频讲解


一、介绍read_html()函数

喜欢Python编程的小伙伴你知道吗,python的pandas库除了可以做数据分析,还可以做简易爬虫,仅需一行核心代码,就可以实现一个爬虫程序,轻轻松松爬取网页数据!

它就是pandas库的read_html()函数,实现python爬虫可以说是非常方便了。

这里需要说明的是,它只能针对网页上有<table></table>标签的表格数据进行爬取。

二、分析爬取目标页面

这里,我爬取的目标网址是:上海市天气预报_某网站

可以看到,页面上是有一个表格数据的,按F12打开开发者模式,查看网页源代码:

确实是有<table>标签的表格数据。那就好办了,开始撸代码!

三、代码讲解

代码总共3行,核心代码就1行:

import pandas as pd   # 导入库
url = 'http://weather.sina.com.cn/china/shanghaishi/'  # 目标网址(含有<table>的表格)
df = pd.read_html(url)[1]  # 开始爬取目标网站

这样短短3行代码,数据就爬取下来了。看一下爬下来的数据:

没问题,和原页面数据完全一致!后面在用pd.to_excel()把数据保存下来就OK了。

超级简单、强大有没有!

这里附上read_html()函数的官网参数说明,供小伙伴们参考:(贴心的我已经翻译成中文了^_^)

再次强调一遍,它只能针对网页上有<table></table>标签的表格数据进行爬取。

如果页面上没有<table>标签,用这个方法爬取的话,会提示"No tables found"的报错:

这是我用ipython界面截的图,用其他IDE也会这样报错的!

四、同步视频讲解

代码逐行讲解视频:

【爬虫神器】2分钟讲解用python一行代码轻松爬取网页数据

按以往的习惯,我都会分享Python源码文件,这次不用分享了吧,就3行代码,自己撸吧小伙伴!

同步公众号文章:

【Python爬虫奇淫技巧】 用pandas库read_html函数一行代码搞定爬虫!


我是马哥,全网累计粉丝上万,欢迎一起交流python技术。

各平台搜索“马哥python说”:知乎、哔哩哔哩、小红书、新浪微博。

【Python奇淫技巧】用pandas的read_html函数仅一行代码实现网页爬虫相关推荐

  1. 输入n个字符串字典序排序_30个Python奇淫技巧集

    今天小编熬夜整理了一份,内容是基础篇覆盖了字符串,列表,字典和基础序列容器.不要小看青铜篇,这份资料里面收集了很多奇淫技巧,很多小编也是第一次遇到,非常值得收藏. 下面我挑选几个给大家看一下,小编觉得 ...

  2. 30个Python奇淫技巧集

    我们的青铜菜鸟群最近加了很多人,有不少是学生加入的,在后台的留言跟我们说,时间紧任务重,又要考研,又要学Python,而Python里面的技巧又非常多,能否整理一份技巧集给我们. 今天小编熬夜整理了一 ...

  3. Python 奇淫技巧!

    原文:https://medium.freecodecamp.org/an-a-z-of-useful-python-tricks-b467524ee747 作者 Peter Gleeson 是一名数 ...

  4. Python 奇淫技巧,助你更好的摸鱼

    作为一个数据分析者,日常工作几乎离不 python.一路走来,积累了不少有用的技巧和 tips,现在就将这些技巧分享给大家.这些技巧将根据其首字母按 A-Z 的顺序进行展示. ALL OR ANY P ...

  5. 吐血推荐 | 珍藏多年的 Python 奇淫技巧,务必收藏

    文 | 豆豆 来源:Python 技术「ID: pythonall」 Python 是一门语法非常简洁的语言,其可读性和表达性都非常的强,今天就给大家分享一下派森酱珍藏已久的一些小技巧,话不多说直接看

  6. 务必收藏,我珍藏多年的Python奇淫技巧,不看后悔啊~

    python 是一门语法非常简洁的语言,其可读性和表达性都非常的强,今天就给大家分享一下珍藏已久的一些小技巧,话不多说直接看 0x00 emoji 如何优雅的在 Python 中使用 emoji 表情 ...

  7. Python 奇淫技巧

    我是一名数据科学家,日常工作几乎离不 python.一路走来,积累了不少有用的技巧和 tips,现在就将这些技巧分享给大家.这些技巧将根据其首字母按 A-Z 的顺序进行展示. ALL OR ANY P ...

  8. Python奇淫技巧之自动登录哔哩哔哩

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 昔我往矣,杨柳依依.今我来思,雨雪 ...

  9. 50个Pandas的奇淫技巧:一网打尽各种索引 iloc,loc,ix,iat,at…

    数据处理,也是风控非常重要的一个环节,甚至说是模型成败的关键环节.因此,娴熟简洁的数据处理技巧,是提高建模效率和建模质量的必要能力.这里开个专题,总结下Pandas的使用方法,方便大家,也方便自己查阅 ...

最新文章

  1. OpenCV-Python绑定如何工作及如何扩展新模块到Python
  2. 新人如何快速上手项目管理
  3. HOOK学习笔记与心得
  4. tomcat启动流程分析
  5. 1007.422通信问题
  6. sql的的over不能和group by一起使用吧_CellRouter的使用
  7. 测试开发字节跳动(二面),我被面试官按在地上摩擦!
  8. js本地存储解决方案(localStorage与userData)
  9. Jquery简单幻灯片
  10. python标准库os中的方法startfile_如何使用Python 打开exel等各种文件或者应用,就用:os.startfile...
  11. 3dmax渲染卡顿崩溃怎么办?(一)
  12. h5、app、小程序 互相跳转打开的方式总结
  13. Word - 修改界面语言和校对语言
  14. 【Oracle SQL】计算同比与环比(列转行进行偏移)
  15. 草枯树荣,让生命活得云淡风轻
  16. prophet Seasonality, Holiday Effects, And Regressors季节性,假日效应和回归
  17. 用matlab加数字水印,MATLAB数字水印系统设计
  18. html(5)知识点囊括
  19. 【高级篇 / SDWAN】(7.0) ❀ 03. SD-WAN 链路负载均衡的模式 ❀ FortiGate 防火墙
  20. 计算机中常用于比较的图表有,2013年职称计算机Excel考点:常用图表类型

热门文章

  1. 【Android4.4蓝牙代码分析】- 蓝牙Enable过程
  2. 博弈问题及SG函数(怒赞,耐心地仔细看一定能看懂)
  3. iNFTnews | GGAC联合中国航天ASES 独家出品《中国2065典藏版》
  4. MySQL day1
  5. 第二章排错的工具:调试器Windbg(上)
  6. android最新v7包下载,android-support-v7-recyclerview的jar包
  7. 嵌入式外设集 -- GPS定位模块(ATGM336H)
  8. GAN版马里奥创作家:单样本可训练,生成关卡要素丰富 | 开源
  9. rz命令 和 sz命令
  10. 黑马在线教育数仓实战9