爬虫获取微博首页热搜
爬虫获取微博首页热搜
步骤:
- 打开微博首页 https://s.weibo.com/top/summary?
- 右键点击检查,分析静态网页
- 将爬取到的内容保存为csv文件格式
需要导入的库
import requests
from lxml import etree
import pandas as pd
话不多说,直接上源码!
import requests
from lxml import etree
import pandas as pd
url = 'https://s.weibo.com/top/summary?'
headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Mobile Safari/537.36 Edg/91.0.864.70'
}def get_url(url):try:response = requests.get(url, headers=headers)if response.status_code == 200:return response.textexcept requests.ConnectionError as e:print(e.args)def get_hot():hotlist = [] #热搜内容列表,用来保存内容hot_url_list=[] #热搜url列表index_list=[] #索引号列表items = get_url(url) #调用函数,获取网页response.texthtml = etree.HTML(items)# 初始化hot_list = html.xpath('/html/body/div/section/ul/li')#xpath定位,可在浏览器直接复制j=1#遍历所有li列表for i in hot_list:#获取热搜内容hot = i.xpath('./a/span/text()')[0] #一直搞不懂[0]是什么意思hotlist.append(hot)#获取内容的urlhot_url = i.xpath('./a/@href')[0]hot_url="https://s.weibo.com/"+str(hot_url)#需要组合正确的url,才能打开hot_url_list.append(hot_url)print(j,hot,hot_url)index_list.append(j)j=j+1#保存文件file=pd.DataFrame(data={'编号':index_list,'内容':hotlist,'url':hot_url_list})file.to_csv('微博热搜.csv',encoding='utf_8_sig')#调用函数,完成爬取!
get_hot()
运行结果:
文件
到此,便完成了今天微博热搜的获取。
关于以上代码,要留意的就是组合url,源码是没有"https://s.weibo.com/"这一前缀的,估计是对我的考验,哈哈!
还有就是hot = i.xpath(’./a/span/text()’)[0] 后面的[0]不加会报错,但我又不知道是什么意思,还望大神指点迷津。
xpath只是略懂皮毛,知识有限,还望走过路过多多指教!
爬虫获取微博首页热搜相关推荐
- 【Python】爬虫获取微博热搜数据,response中文显示“\u7814\u7a76\u8bc1\u5b9e\u”
问题描述 在爬虫获取微博热搜数据的时候,response中文出现了不便于理解的字段,截取如下: ......[{"title_sub":"\u7814\u7a76\u8b ...
- 爬取微博实时热搜数据可视化分析
文章目录 爬取微博实时热搜数据可视化分析 一.爬取数据 1.1 Spider主要函数 1.2 根据微博一分钟更新一次的状态进行爬虫 二.可视化 2.1 利用轮播图加柱状图进行可视化 爬取微博实时热搜数 ...
- Python爬虫 爬取新浪微博热搜
Python爬虫 爬取新浪微博热搜 文章目录 Python爬虫 爬取新浪微博热搜 网页分析 数据爬取 数据存储 全部代码 网页分析 找到热搜的排名,标题和热度,发现它们在同一路径 数据爬取 impor ...
- Python爬虫实例--新浪热搜榜[xpath语法]
Python爬虫实例--新浪热搜榜[xpath语法] 1.基础环境配置: requests-->版本:2.12.4 lxml-->版本:3.7.2 2.网页分析 很容易从html源码中看到 ...
- Python爬虫实例--新浪热搜榜[正则表达式]
Python爬虫实例--新浪热搜榜[正则表达式] 1.基础环境配置: requests-->版本:2.12.4 re-->:Python自带,无需安装 2.网页分析 很容易从html源码中 ...
- python获取某乎热搜数据并保存成Excel
python获取知乎热搜数据 一.获取目标.准备工作 二.开始编码 三.总结 一.获取目标.准备工作 1.获取目标: 本次获取教程目标:某乎热搜 2.准备工作 环境python3.x requests ...
- 利用爬虫获取猫眼电影热门前100数据
利用爬虫获取猫眼电影热门前100数据 实现方法 1:访问网站,获取页面源码 2:解析页面 ,得到想要的数据 3:循环爬取多个页面 4:把数据写入本地文件 ''' 需求:爬取猫眼电影前100的电影信息 ...
- python热搜排行功能_简单几行代码用Python爬取微博的热搜榜
简单几行代码用Python爬取微博的热搜榜 想要实时的看微博热搜 但是又不想去微博网站看!怎么办呢?其实很简单! 我们学了这个requests_html 这个库之后 就更加的简单了! 小编只用了短短的 ...
- python 爬取微博实时热搜,并存入数据库实例
刚学python没几天,打算用paython爬去微博热搜数据试验一下,但是发现微博热搜是动态数据,网页源码并不能直接获取想要的数据,network里也并不能找到相关内容,这时重新查看网页源码,发现有类 ...
最新文章
- 29 仿京东放大镜案例
- Subsonic 基本使用
- linux命令大全增删改查,crudini命令
- x264编码参数大测试:03 subme与crf(c)
- full join 和full outer join_多表关联:公式展开、join、过滤条件的顺序
- 纷享逍客宣布完成E+轮融资 长山兴资本领投
- feign调用service_Spring-cloud-eureka使用feign调用服务接口
- Android N代码暗示隐藏的“多窗口”模式
- 小程序图片裁剪组件基于image-cropper(修改版)
- word中图片为嵌入式格式时显示不全_word插入图片嵌入式 word图片显示不全
- MATLAB无法直接打开M文件
- 2017年寒假集训分组测试赛2 Ranklist
- [英语语法]句法之定语从句
- 国外大牛的黑苹果配置清单
- 学模具好还是计算机网络好,模具编程要学多久才会?多长时间能学好?
- SQLserver主从同步报错:Message: 无法创建 AppDomain “mssqlsystemresource.dbo[runtime].
- 你见过哪些目瞪口呆的 Java 代码技巧?
- 通过Java高仿flyme悬浮球设计
- 深度学习常用软件纪录
- VScode的使用——“VSCode”
热门文章
- Linux—使用doc2unix进行文件格式转换
- 《三国演义》中的火烧赤壁居然也是假的!!
- UE4使用OpenCV插件调用电脑摄像头
- 【云原生之Docker实战】使用Docker部署Lsky Pro个人图床平台
- Android基础知识(二十):Notification、提醒式通知(横幅)踩坑与通知界面设置跳转
- Vue 状态管理与与SSR详解
- 计算机中通道的基本功能,Photoshop中各个面板的基本功能介绍 -电脑资料
- 深入理解吴恩达老师深度学习课程(01神经网络和深度学习 第二周)
- Android 移动开发——第十三章——个人理财通(Android Studio 版)
- tvp5150的iic配置-应用程序实现。