Python网络爬虫之爬取微博热搜
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取
python免费学习资料以及群交流解答点击即可加入
微博热搜的爬取较为简单,我只是用了lxml和requests两个库
url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6
1.分析网页的源代码:右键--查看网页源代码.
从网页代码中可以获取到信息
(1)热搜的名字都在<td class="td-02">的子节点里
(2)热搜的排名都在<td class=td-01 ranktop>的里(注意置顶微博是没有排名的!)
(3)热搜的访问量都在<td class="td-02">的子节点里
2.requests获取网页
(1)先设置url地址,然后模拟浏览器(这一步可以不用)防止被认出是爬虫程序。
(2)利用req uests库的get()和lxml的etr ee()来获 取网页代码
###获取html页面
html=etree.HTML(requests.get(url,headers=header).text)
3.构造xpath路径
上面第一步中三个xath路径分别是:
xpath的返回结果是列表,所以affair、rank、view都是字符串列表
4.格式化输出
需要注意的是affair中多了一个置顶热搜,我们先将他分离出来。
top=affair[0]
affair=affair[1:]
这里利用了python的切片。
这里还是没能做到完全对齐。。。
5.全部代码
结果展示:
Python网络爬虫之爬取微博热搜相关推荐
- python 爬虫热搜_Python网络爬虫之爬取微博热搜
微博热搜的爬取较为简单,我只是用了lxml和requests两个库 1.分析网页的源代码:右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在 的子节点里 (2)热搜的排名都在 ...
- python爬虫微博热搜_Python网络爬虫之爬取微博热搜
微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&am ...
- Python网络爬虫:爬取CSDN热搜数据 并保存到本地文件中
hello,大家好,我是wangzirui32,今天我们来学习如何爬取CSDN热搜数据,并保存到Excel表格中. 开始学习吧! 学习目录 1. 数据包抓取 2. 编写代码 1. 数据包抓取 打开CS ...
- python爬取微博热搜榜教程,python爬取微博热搜并存入表格
微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&am ...
- python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql
在编程中,我们如果想要把数据转入数据库中,首先会选择 MySQL数据库.因为MySQL数据库体积小.速度快.总体拥有成本低.开放源代码,其有着广泛的应用,例如我们使用python爬虫微博热搜,就可以使 ...
- Python爬取微博热搜并定时发送邮件,及时了解最新动态!
一.前言 微博热搜榜每天都会更新一些新鲜事,但是自己处于各种原因,肯定不能时刻关注着微博,为了与时代接轨,接受最新资讯,就寻思着用Python写个定时爬取微博热搜的并且发送QQ邮件的程序,这样每天可以 ...
- python 爬关键词,Python爬虫实战:爬取微博热搜关键词
一.爬取微博热搜关键词需要的第三方库 1.requests 2.BeautifulSoup 美味汤 3.worldcloud 词云 4.jieba 中文分词 5.matplotlib 绘图 二.爬取微 ...
- Python爬虫之四:使用BeautifulSoup爬取微博热搜
(一)安装BeautifulSoup模块 目前,Beautiful Soup 的最新版本是 4.x 版本,之前的版本已经停止开发了.这里推荐使用 pip 来安装,安装命令如下: pip install ...
- 爬虫—爬取微博热搜榜
1. 引言 利用scrapy框架爬取微博热搜榜网站前50条热搜. 爬取信息:热搜排名.热搜新闻名.热搜新闻热搜量. 数据存储:存储为.csv文件. 2.爬取流程 新建scrapy爬虫项目: 在终端输入 ...
最新文章
- datagrid的正反双向排序
- vector容器中数据的排序方法
- [BZOJ3262]陌上花开
- 用turtle库画童年的记忆哆啦A梦
- java备忘录_Java 8备忘单中的可选
- Tomcat 的目录结构
- 判断字符串中有多少汉字
- 从一个视图控制器切换到另一个视图控制器的几种方式
- python restful api_Python利用Django如何写restful api接口详解
- linux用什么剪辑视频教程,Linux 上的开源视频剪辑软件Olive
- CodeForces 8D Two Friends 判断三个圆相交
- 关于vector的两个问题(reserve方法修整过剩空间)
- 微信html5电子相册,维本- 电子相册微信H5模板【h5特效】
- 计算机服务器是干什么用的,服务器是干什么的 定义和作用介绍
- 计算机休眠 mac,Mac如何开启休眠模式
- win7 64 旗舰版虚拟GPU-VMware下+vs2013安装caffe+matlab+python
- c语言字符数组自动填充,数组在C中自动填充
- 优秀的 Verilog/FPGA开源项目介绍(二十一)- 卷积神经网络(CNN)
- 如何去除ul小圆点的html,html里面ul那个点怎么消
- 关于使用ComponentName连接俩个Activity运行闪退的问题