中国女足绝地大逆转,爬取了微博评论区,评论很精彩
昨晚,女足16年后重夺亚洲杯,决赛落后两球,依然能保持对比赛的观察和思考,下半场从容调度人手,最后完成逆转。
打开微博一看,WC,微博推给我的第一条就是一篇瓜文。
这几天正好有的瓜,于是就爬了一下微博上女足夺冠的评论区,分析一下高频词汇什么的,分析大众心理哈哈哈…
爬取的链接:https://weibo.com/1749990115/LegA0AG9A
网页端前端页面比较复杂,还有加密数据,比较难操作。相对的来说,手机端和移动端比较好爬。
weibo.com // 网页端
m.weibo.cn // 手机端
weibo.cn // 移动端
将对应网页端的链接转化到了移动端:https://m.weibo.cn/detail/4734003288741850
特意去Google了一下, 获取评论数据的旧API接口url是这个样子滴:https://m.weibo.cn/api/comments/show?id={id}&page={page},此处的id表示要爬的微博的id,page表示第几页的评论数据,同时惊奇的发现,目前这个接口还是可用的。
由于是热门微博,在不断Google后,找了相关接口信息
https://m.weibo.cn/comments/hotflow?id=4734003288741850&mid=4734003288741850&max_id_type=0
接下来就是json解析的事情了。
# 爬取第一页的微博评论
def first_page_comment(weibo_id, url, headers):global commentListsurl = url + str(weibo_id) + '&mid=' + str(weibo_id) + '&max_id_type=0'print(url)web_data = requests.get(url, headers=headers,cookies=Cookie)js_con = web_data.json()max_id = js_con['data']['max_id']print(max_id)max = js_con['data']['max']comments_list = js_con['data']['data']print(comments_list)extract_data(comments_list)write_in('1-1')print("已获取第1页的评论")return max_id, max, commentLists
爬取的第一页评论如下:
关于下一页爬取,这里不展开说明
在爬取评论中一共爬取了500页评价,大约7000多条
其中,点赞非常高的评论
- 凭什么只有1000万!?每场600万,同工同酬!!为什么国家要歧视女性?
- 应把男足的工资砍一半给女足奖励!这样,奖罚分明!
- 男足一人一千万年薪?
- 男足可以因为辱华而解散吗
- 一个球队1千万多吗?请给一个人一千万,谢谢。
- 解散男足吧
- 建议男足2000月薪,赢一场加20w奖金
最后就是到了评论可视化词云图的环节:
词云图中解散男足字眼大量出现,可见对男足的失望。奖励女足,一千万远远不够。
最后时刻的一攻一守,实在是太精彩。特别有感触的一件事:在女足扳平比分之后,无论是身边一起看球的朋友,大家都觉得女足能绝杀。
中国女足在不被人看好的情况下,以让人信服的方式强势重返亚洲杯之巅,其顽强的拼搏精神只是表象。用专业人做专业的事——用对人——才是女足关键时刻能够拼下日、韩两大劲敌,夺回这个冠军的根本原因。
关于微博爬取和词云图代码,公众号后台回复**《女足》**
中国女足绝地大逆转,爬取了微博评论区,评论很精彩相关推荐
- 一口气实现交通大数据爬取与Python可视化(含数据分享)
今天的文章呢主要目的不是爬虫,而是爬虫的同时顺便实现实时可视化.上次爬摩拜单车数据的文章使用的是传统的ArcGIS进行自定义可视化,硬核 | Python多线程爬取摩拜单车数据与ArcGIS可视化,今 ...
- python爬虫,2020年《财富》中国500强排行榜数据爬取源码
一个简单的demo,python爬虫,其实是以前的存货,很久很久没有写爬虫了,渣渣更渣了啊! 爬取财富中文网,2020年<财富>中国500强排行榜相关数据,数据都在网页源码里,结构也比较清 ...
- 中国500强排行榜数据爬取,看看都有哪些大佬
前言 一个简单的demo,python爬虫,其实是以前的存货,很久很久没有写爬虫了,渣渣更渣了啊! ( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传 ...
- 2020年《财富》中国500强排行榜数据爬取,看看都有哪些
前言 一个简单的demo,python爬虫,其实是以前的存货,很久很久没有写爬虫了,渣渣更渣了啊! 爬取财富中文网,2020年<财富>中国500强排行榜相关数据,数据都在网页源码里,结构也 ...
- 大数据 爬取网站并分析数据
大数据+爬取前程无忧校园招聘+flume+hive+mysql+数据可视化 自己搭建的hadoop博客 1.爬取前程无忧网页和校园招聘 1.1用scrapy爬取前途无忧网站,我爬了10w多条数据,在存 ...
- 基于python大数据爬取房价数据可视化
基于python大数据爬取房价数据可视化
- 中国大学MOOC课程信息爬取与数据存储
版权声明:本文为博主原创文章,转载 请注明出处: https://blog.csdn.net/sc2079/article/details/82016583 10月18日更:MOOC课程信息D3.js ...
- 考研大数据爬取与分析工具3.0需求分析文档
3.0开发文档 3.0需求分析文档 3.0运行结果 2.0及1.0 文章目录 1. 版本信息(徐可可) 2. 文档说明(王玮娟) 2.1. 文档简介 2.2. 文档读者 3. 产品简介(王玮娟) 3. ...
- python爬虫淘宝评论_Python爬取淘宝店铺和评论
1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...
最新文章
- Ubuntu 下配置 SSH服务全过程及问题解决
- [转自scott]ASP.NET MVC框架 (第二部分): URL路径选择
- @staticmethod用法
- LeetCode 322. Coin Change
- python可以开多少线程_python爬虫可以开多少线程?
- 归并排序执行次数_一文了解C/C++经典排序算法
- uos系统安装教程_统一操作系统UOS下载&安装图文教程:尝鲜记(一)
- 基于PHP的SQL注入防御
- 职场动物进化手册(转自天涯)
- 华硕服务器怎么装win7系统教程,华硕win7系统重装教程
- JavaScript前端数据呈现——Table会拐弯的column,数据分多列展示
- 2020年,最优秀的大数据公司有哪些?
- 怎么修复网站漏洞 骑士cms的漏洞修复方案
- 插入移动硬盘时出现Synaptics.exe - 损坏的映像错误的解决办法
- 模式识别与人工智能官网,人工智能模式识别技术
- HALCON数组的插入和删除
- 阿里巴巴分布式数据库服务DRDS
- 围棋博弈程序的实现与思考(5)——提子算法
- mysql的1055以及group by和order by
- FT232R驱动问题-解决已安装驱动,却不能正常使用的问题
热门文章
- protobuf 下载、安装、编译
- linux socket API / bind
- 尹成python爬虫百度云_Python爬虫实战:抓取并保存百度云资源
- 百度可观测系列 | 采集亿级别指标,Prometheus 集群方案这样设计
- 网易云音乐:基于分布式图学习PGL的推荐系统优化之路
- python restful服务部署_用python为mysql实现restful接口
- Nginx命令与配置详解
- spring 学习 requestMapping
- [No000035]操作系统Operating System之OS Interface操作系统接口
- Firefox火狐浏览器自用技巧汇总--以备使用--13.5.16