爬虫获取微博首页热搜

步骤:

  • 打开微博首页 https://s.weibo.com/top/summary?
  • 右键点击检查,分析静态网页
  • 将爬取到的内容保存为csv文件格式

需要导入的库

import requests
from lxml import etree
import pandas as pd

话不多说,直接上源码!

import requests
from lxml import etree
import pandas as pd
url = 'https://s.weibo.com/top/summary?'
headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Mobile Safari/537.36 Edg/91.0.864.70'
}def get_url(url):try:response = requests.get(url, headers=headers)if response.status_code == 200:return response.textexcept requests.ConnectionError as e:print(e.args)def get_hot():hotlist = [] #热搜内容列表,用来保存内容hot_url_list=[] #热搜url列表index_list=[] #索引号列表items = get_url(url) #调用函数,获取网页response.texthtml = etree.HTML(items)# 初始化hot_list = html.xpath('/html/body/div/section/ul/li')#xpath定位,可在浏览器直接复制j=1#遍历所有li列表for i in hot_list:#获取热搜内容hot = i.xpath('./a/span/text()')[0] #一直搞不懂[0]是什么意思hotlist.append(hot)#获取内容的urlhot_url = i.xpath('./a/@href')[0]hot_url="https://s.weibo.com/"+str(hot_url)#需要组合正确的url,才能打开hot_url_list.append(hot_url)print(j,hot,hot_url)index_list.append(j)j=j+1#保存文件file=pd.DataFrame(data={'编号':index_list,'内容':hotlist,'url':hot_url_list})file.to_csv('微博热搜.csv',encoding='utf_8_sig')#调用函数,完成爬取!
get_hot()

运行结果:

文件

到此,便完成了今天微博热搜的获取。

关于以上代码,要留意的就是组合url,源码是没有"https://s.weibo.com/"这一前缀的,估计是对我的考验,哈哈!

还有就是hot = i.xpath(’./a/span/text()’)[0] 后面的[0]不加会报错,但我又不知道是什么意思,还望大神指点迷津。

xpath只是略懂皮毛,知识有限,还望走过路过多多指教!

爬虫获取微博首页热搜相关推荐

  1. 【Python】爬虫获取微博热搜数据,response中文显示“\u7814\u7a76\u8bc1\u5b9e\u”

    问题描述 在爬虫获取微博热搜数据的时候,response中文出现了不便于理解的字段,截取如下: ......[{"title_sub":"\u7814\u7a76\u8b ...

  2. 爬取微博实时热搜数据可视化分析

    文章目录 爬取微博实时热搜数据可视化分析 一.爬取数据 1.1 Spider主要函数 1.2 根据微博一分钟更新一次的状态进行爬虫 二.可视化 2.1 利用轮播图加柱状图进行可视化 爬取微博实时热搜数 ...

  3. Python爬虫 爬取新浪微博热搜

    Python爬虫 爬取新浪微博热搜 文章目录 Python爬虫 爬取新浪微博热搜 网页分析 数据爬取 数据存储 全部代码 网页分析 找到热搜的排名,标题和热度,发现它们在同一路径 数据爬取 impor ...

  4. Python爬虫实例--新浪热搜榜[xpath语法]

    Python爬虫实例--新浪热搜榜[xpath语法] 1.基础环境配置: requests-->版本:2.12.4 lxml-->版本:3.7.2 2.网页分析 很容易从html源码中看到 ...

  5. Python爬虫实例--新浪热搜榜[正则表达式]

    Python爬虫实例--新浪热搜榜[正则表达式] 1.基础环境配置: requests-->版本:2.12.4 re-->:Python自带,无需安装 2.网页分析 很容易从html源码中 ...

  6. python获取某乎热搜数据并保存成Excel

    python获取知乎热搜数据 一.获取目标.准备工作 二.开始编码 三.总结 一.获取目标.准备工作 1.获取目标: 本次获取教程目标:某乎热搜 2.准备工作 环境python3.x requests ...

  7. 利用爬虫获取猫眼电影热门前100数据

    利用爬虫获取猫眼电影热门前100数据 实现方法 1:访问网站,获取页面源码 2:解析页面 ,得到想要的数据 3:循环爬取多个页面 4:把数据写入本地文件 ''' 需求:爬取猫眼电影前100的电影信息 ...

  8. python热搜排行功能_简单几行代码用Python爬取微博的热搜榜

    简单几行代码用Python爬取微博的热搜榜 想要实时的看微博热搜 但是又不想去微博网站看!怎么办呢?其实很简单! 我们学了这个requests_html 这个库之后 就更加的简单了! 小编只用了短短的 ...

  9. python 爬取微博实时热搜,并存入数据库实例

    刚学python没几天,打算用paython爬去微博热搜数据试验一下,但是发现微博热搜是动态数据,网页源码并不能直接获取想要的数据,network里也并不能找到相关内容,这时重新查看网页源码,发现有类 ...

最新文章

  1. 29 仿京东放大镜案例
  2. Subsonic 基本使用
  3. linux命令大全增删改查,crudini命令
  4. x264编码参数大测试:03 subme与crf(c)
  5. full join 和full outer join_多表关联:公式展开、join、过滤条件的顺序
  6. 纷享逍客宣布完成E+轮融资 长山兴资本领投
  7. feign调用service_Spring-cloud-eureka使用feign调用服务接口
  8. Android N代码暗示隐藏的“多窗口”模式
  9. 小程序图片裁剪组件基于image-cropper(修改版)
  10. word中图片为嵌入式格式时显示不全_word插入图片嵌入式 word图片显示不全
  11. MATLAB无法直接打开M文件
  12. 2017年寒假集训分组测试赛2 Ranklist
  13. [英语语法]句法之定语从句
  14. 国外大牛的黑苹果配置清单
  15. 学模具好还是计算机网络好,模具编程要学多久才会?多长时间能学好?
  16. SQLserver主从同步报错:Message: 无法创建 AppDomain “mssqlsystemresource.dbo[runtime].
  17. 你见过哪些目瞪口呆的 Java 代码技巧?
  18. 通过Java高仿flyme悬浮球设计
  19. 深度学习常用软件纪录
  20. VScode的使用——“VSCode”

热门文章

  1. Linux—使用doc2unix进行文件格式转换
  2. 《三国演义》中的火烧赤壁居然也是假的!!
  3. UE4使用OpenCV插件调用电脑摄像头
  4. 【云原生之Docker实战】使用Docker部署Lsky Pro个人图床平台
  5. Android基础知识(二十):Notification、提醒式通知(横幅)踩坑与通知界面设置跳转
  6. Vue 状态管理与与SSR详解
  7. 计算机中通道的基本功能,Photoshop中各个面板的基本功能介绍 -电脑资料
  8. 深入理解吴恩达老师深度学习课程(01神经网络和深度学习 第二周)
  9. Android 移动开发——第十三章——个人理财通(Android Studio 版)
  10. tvp5150的iic配置-应用程序实现。