中国女足绝地大逆转，爬取了微博评论区，评论很精彩

昨晚，女足16年后重夺亚洲杯，决赛落后两球，依然能保持对比赛的观察和思考，下半场从容调度人手，最后完成逆转。

打开微博一看，WC，微博推给我的第一条就是一篇瓜文。

这几天正好有的瓜，于是就爬了一下微博上女足夺冠的评论区，分析一下高频词汇什么的，分析大众心理哈哈哈…

爬取的链接：https://weibo.com/1749990115/LegA0AG9A

网页端前端页面比较复杂，还有加密数据，比较难操作。相对的来说，手机端和移动端比较好爬。

weibo.com // 网页端
m.weibo.cn // 手机端
weibo.cn // 移动端

将对应网页端的链接转化到了移动端：https://m.weibo.cn/detail/4734003288741850

特意去Google了一下，获取评论数据的旧API接口url是这个样子滴：https://m.weibo.cn/api/comments/show?id={id}&page={page}，此处的id表示要爬的微博的id，page表示第几页的评论数据，同时惊奇的发现，目前这个接口还是可用的。

由于是热门微博，在不断Google后，找了相关接口信息

https://m.weibo.cn/comments/hotflow?id=4734003288741850&mid=4734003288741850&max_id_type=0

接下来就是json解析的事情了。

# 爬取第一页的微博评论
def first_page_comment(weibo_id, url, headers):global commentListsurl = url + str(weibo_id) + '&mid=' + str(weibo_id) + '&max_id_type=0'print(url)web_data = requests.get(url, headers=headers,cookies=Cookie)js_con = web_data.json()max_id = js_con['data']['max_id']print(max_id)max = js_con['data']['max']comments_list = js_con['data']['data']print(comments_list)extract_data(comments_list)write_in('1-1')print("已获取第1页的评论")return max_id, max, commentLists

爬取的第一页评论如下：

关于下一页爬取，这里不展开说明

在爬取评论中一共爬取了500页评价，大约7000多条

其中，点赞非常高的评论

凭什么只有1000万！？每场600万，同工同酬！！为什么国家要歧视女性？
应把男足的工资砍一半给女足奖励！这样，奖罚分明！
男足一人一千万年薪?
男足可以因为辱华而解散吗
一个球队1千万多吗？请给一个人一千万，谢谢。
解散男足吧
建议男足2000月薪，赢一场加20w奖金

最后就是到了评论可视化词云图的环节：

词云图中解散男足字眼大量出现，可见对男足的失望。奖励女足，一千万远远不够。

最后时刻的一攻一守，实在是太精彩。特别有感触的一件事：在女足扳平比分之后，无论是身边一起看球的朋友，大家都觉得女足能绝杀。

中国女足在不被人看好的情况下，以让人信服的方式强势重返亚洲杯之巅，其顽强的拼搏精神只是表象。用专业人做专业的事——用对人——才是女足关键时刻能够拼下日、韩两大劲敌，夺回这个冠军的根本原因。

关于微博爬取和词云图代码，公众号后台回复**《女足》**

中国女足绝地大逆转，爬取了微博评论区，评论很精彩相关推荐

一口气实现交通大数据爬取与Python可视化（含数据分享）
今天的文章呢主要目的不是爬虫,而是爬虫的同时顺便实现实时可视化.上次爬摩拜单车数据的文章使用的是传统的ArcGIS进行自定义可视化,硬核 | Python多线程爬取摩拜单车数据与ArcGIS可视化,今 ...
python爬虫，2020年《财富》中国500强排行榜数据爬取源码
一个简单的demo,python爬虫,其实是以前的存货,很久很久没有写爬虫了,渣渣更渣了啊! 爬取财富中文网,2020年<财富>中国500强排行榜相关数据,数据都在网页源码里,结构也比较清 ...
中国500强排行榜数据爬取，看看都有哪些大佬
前言一个简单的demo,python爬虫,其实是以前的存货,很久很久没有写爬虫了,渣渣更渣了啊! ( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传 ...
2020年《财富》中国500强排行榜数据爬取，看看都有哪些
前言一个简单的demo,python爬虫,其实是以前的存货,很久很久没有写爬虫了,渣渣更渣了啊! 爬取财富中文网,2020年<财富>中国500强排行榜相关数据,数据都在网页源码里,结构也 ...
大数据爬取网站并分析数据
大数据+爬取前程无忧校园招聘+flume+hive+mysql+数据可视化自己搭建的hadoop博客 1.爬取前程无忧网页和校园招聘 1.1用scrapy爬取前途无忧网站,我爬了10w多条数据,在存 ...
基于python大数据爬取房价数据可视化
基于python大数据爬取房价数据可视化
中国大学MOOC课程信息爬取与数据存储
版权声明:本文为博主原创文章,转载请注明出处: https://blog.csdn.net/sc2079/article/details/82016583 10月18日更:MOOC课程信息D3.js ...
考研大数据爬取与分析工具3.0需求分析文档
3.0开发文档 3.0需求分析文档 3.0运行结果 2.0及1.0 文章目录 1. 版本信息(徐可可) 2. 文档说明(王玮娟) 2.1. 文档简介 2.2. 文档读者 3. 产品简介(王玮娟) 3. ...
python爬虫淘宝评论_Python爬取淘宝店铺和评论
1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...

中国女足绝地大逆转，爬取了微博评论区，评论很精彩

中国女足绝地大逆转，爬取了微博评论区，评论很精彩相关推荐

最新文章

热门文章