前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

微博热搜的爬取较为简单,我只是用了lxml和requests两个库

url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6

1.分析网页的源代码:右键--查看网页源代码.

从网页代码中可以获取到信息

(1)热搜的名字都在<td class="td-02">的子节点里

(2)热搜的排名都在<td class=td-01 ranktop>的里(注意置顶微博是没有排名的!)

(3)热搜的访问量都在<td class="td-02">的子节点里

2.requests获取网页

(1)先设置url地址,然后模拟浏览器(这一步可以不用)防止被认出是爬虫程序。

(2)利用req uests库的get()和lxml的etr ee()来获 取网页代码

###获取html页面

html=etree.HTML(requests.get(url,headers=header).text)

3.构造xpath路径

上面第一步中三个xath路径分别是:

xpath的返回结果是列表,所以affair、rank、view都是字符串列表

4.格式化输出

需要注意的是affair中多了一个置顶热搜,我们先将他分离出来。

top=affair[0]

affair=affair[1:]

这里利用了python的切片。

这里还是没能做到完全对齐。。。

5.全部代码

结果展示:

Python网络爬虫之爬取微博热搜相关推荐

  1. python 爬虫热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 1.分析网页的源代码:右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在 的子节点里 (2)热搜的排名都在 ...

  2. python爬虫微博热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&am ...

  3. Python网络爬虫:爬取CSDN热搜数据 并保存到本地文件中

    hello,大家好,我是wangzirui32,今天我们来学习如何爬取CSDN热搜数据,并保存到Excel表格中. 开始学习吧! 学习目录 1. 数据包抓取 2. 编写代码 1. 数据包抓取 打开CS ...

  4. python爬取微博热搜榜教程,python爬取微博热搜并存入表格

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&am ...

  5. python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql

    在编程中,我们如果想要把数据转入数据库中,首先会选择 MySQL数据库.因为MySQL数据库体积小.速度快.总体拥有成本低.开放源代码,其有着广泛的应用,例如我们使用python爬虫微博热搜,就可以使 ...

  6. Python爬取微博热搜并定时发送邮件,及时了解最新动态!

    一.前言 微博热搜榜每天都会更新一些新鲜事,但是自己处于各种原因,肯定不能时刻关注着微博,为了与时代接轨,接受最新资讯,就寻思着用Python写个定时爬取微博热搜的并且发送QQ邮件的程序,这样每天可以 ...

  7. python 爬关键词,Python爬虫实战:爬取微博热搜关键词

    一.爬取微博热搜关键词需要的第三方库 1.requests 2.BeautifulSoup 美味汤 3.worldcloud 词云 4.jieba 中文分词 5.matplotlib 绘图 二.爬取微 ...

  8. Python爬虫之四:使用BeautifulSoup爬取微博热搜

    (一)安装BeautifulSoup模块 目前,Beautiful Soup 的最新版本是 4.x 版本,之前的版本已经停止开发了.这里推荐使用 pip 来安装,安装命令如下: pip install ...

  9. 爬虫—爬取微博热搜榜

    1. 引言 利用scrapy框架爬取微博热搜榜网站前50条热搜. 爬取信息:热搜排名.热搜新闻名.热搜新闻热搜量. 数据存储:存储为.csv文件. 2.爬取流程 新建scrapy爬虫项目: 在终端输入 ...

最新文章

  1. datagrid的正反双向排序
  2. vector容器中数据的排序方法
  3. [BZOJ3262]陌上花开
  4. 用turtle库画童年的记忆哆啦A梦
  5. java备忘录_Java 8备忘单中的可选
  6. Tomcat 的目录结构
  7. 判断字符串中有多少汉字
  8. 从一个视图控制器切换到另一个视图控制器的几种方式
  9. python restful api_Python利用Django如何写restful api接口详解
  10. linux用什么剪辑视频教程,Linux 上的开源视频剪辑软件Olive
  11. CodeForces 8D Two Friends 判断三个圆相交
  12. 关于vector的两个问题(reserve方法修整过剩空间)
  13. 微信html5电子相册,维本- 电子相册微信H5模板【h5特效】
  14. 计算机服务器是干什么用的,服务器是干什么的 定义和作用介绍
  15. 计算机休眠 mac,Mac如何开启休眠模式
  16. win7 64 旗舰版虚拟GPU-VMware下+vs2013安装caffe+matlab+python
  17. c语言字符数组自动填充,数组在C中自动填充
  18. 优秀的 Verilog/FPGA开源项目介绍(二十一)- 卷积神经网络(CNN)
  19. 如何去除ul小圆点的html,html里面ul那个点怎么消
  20. 关于使用ComponentName连接俩个Activity运行闪退的问题

热门文章

  1. 聚观早报 | 明年起手机预装APP均可卸载;爱奇艺VIP会员再次涨价
  2. zabbix-邮件报警配置
  3. 2022年最新浙江机动车签字授权人模拟试题及答案
  4. linux从源码编译cairo,如何在windows下编译cairo
  5. python 找出其中不含有重复字符的最长子串的长度
  6. 网站1周内自动登录功能实现
  7. 人类会被人工智能打败吗?
  8. HTML中背景透明有阴影,透明PNG在网页有阴影的解决方法
  9. 组件、插件、控件的区别
  10. 【机器翻译】《Gradient-guided Loss Masking for Neural Machine Translation》论文总结