昨晚,女足16年后重夺亚洲杯,决赛落后两球,依然能保持对比赛的观察和思考,下半场从容调度人手,最后完成逆转。

打开微博一看,WC,微博推给我的第一条就是一篇瓜文。

这几天正好有的瓜,于是就爬了一下微博上女足夺冠的评论区,分析一下高频词汇什么的,分析大众心理哈哈哈…

爬取的链接:https://weibo.com/1749990115/LegA0AG9A

网页端前端页面比较复杂,还有加密数据,比较难操作。相对的来说,手机端和移动端比较好爬。

weibo.com // 网页端
m.weibo.cn // 手机端
weibo.cn // 移动端

将对应网页端的链接转化到了移动端:https://m.weibo.cn/detail/4734003288741850

特意去Google了一下, 获取评论数据的旧API接口url是这个样子滴:https://m.weibo.cn/api/comments/show?id={id}&page={page},此处的id表示要爬的微博的id,page表示第几页的评论数据,同时惊奇的发现,目前这个接口还是可用的。

由于是热门微博,在不断Google后,找了相关接口信息

https://m.weibo.cn/comments/hotflow?id=4734003288741850&mid=4734003288741850&max_id_type=0

接下来就是json解析的事情了。

# 爬取第一页的微博评论
def first_page_comment(weibo_id, url, headers):global commentListsurl = url + str(weibo_id) + '&mid=' + str(weibo_id) + '&max_id_type=0'print(url)web_data = requests.get(url, headers=headers,cookies=Cookie)js_con = web_data.json()max_id = js_con['data']['max_id']print(max_id)max = js_con['data']['max']comments_list = js_con['data']['data']print(comments_list)extract_data(comments_list)write_in('1-1')print("已获取第1页的评论")return max_id, max, commentLists

爬取的第一页评论如下:

关于下一页爬取,这里不展开说明

在爬取评论中一共爬取了500页评价,大约7000多条

其中,点赞非常高的评论

  • 凭什么只有1000万!?每场600万,同工同酬!!为什么国家要歧视女性?
  • 应把男足的工资砍一半给女足奖励!这样,奖罚分明!
  • 男足一人一千万年薪?
  • 男足可以因为辱华而解散吗
  • 一个球队1千万多吗?请给一个人一千万,谢谢。
  • 解散男足吧
  • 建议男足2000月薪,赢一场加20w奖金

最后就是到了评论可视化词云图的环节:

词云图中解散男足字眼大量出现,可见对男足的失望。奖励女足,一千万远远不够。

最后时刻的一攻一守,实在是太精彩。特别有感触的一件事:在女足扳平比分之后,无论是身边一起看球的朋友,大家都觉得女足能绝杀。

中国女足在不被人看好的情况下,以让人信服的方式强势重返亚洲杯之巅,其顽强的拼搏精神只是表象。用专业人做专业的事——用对人——才是女足关键时刻能够拼下日、韩两大劲敌,夺回这个冠军的根本原因。

关于微博爬取和词云图代码,公众号后台回复**《女足》**

中国女足绝地大逆转,爬取了微博评论区,评论很精彩相关推荐

  1. 一口气实现交通大数据爬取与Python可视化(含数据分享)

    今天的文章呢主要目的不是爬虫,而是爬虫的同时顺便实现实时可视化.上次爬摩拜单车数据的文章使用的是传统的ArcGIS进行自定义可视化,硬核 | Python多线程爬取摩拜单车数据与ArcGIS可视化,今 ...

  2. python爬虫,2020年《财富》中国500强排行榜数据爬取源码

    一个简单的demo,python爬虫,其实是以前的存货,很久很久没有写爬虫了,渣渣更渣了啊! 爬取财富中文网,2020年<财富>中国500强排行榜相关数据,数据都在网页源码里,结构也比较清 ...

  3. 中国500强排行榜数据爬取,看看都有哪些大佬

    前言 一个简单的demo,python爬虫,其实是以前的存货,很久很久没有写爬虫了,渣渣更渣了啊! ( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传 ...

  4. 2020年《财富》中国500强排行榜数据爬取,看看都有哪些

    前言 一个简单的demo,python爬虫,其实是以前的存货,很久很久没有写爬虫了,渣渣更渣了啊! 爬取财富中文网,2020年<财富>中国500强排行榜相关数据,数据都在网页源码里,结构也 ...

  5. 大数据 爬取网站并分析数据

    大数据+爬取前程无忧校园招聘+flume+hive+mysql+数据可视化 自己搭建的hadoop博客 1.爬取前程无忧网页和校园招聘 1.1用scrapy爬取前途无忧网站,我爬了10w多条数据,在存 ...

  6. 基于python大数据爬取房价数据可视化

    基于python大数据爬取房价数据可视化

  7. 中国大学MOOC课程信息爬取与数据存储

    版权声明:本文为博主原创文章,转载 请注明出处: https://blog.csdn.net/sc2079/article/details/82016583 10月18日更:MOOC课程信息D3.js ...

  8. 考研大数据爬取与分析工具3.0需求分析文档

    3.0开发文档 3.0需求分析文档 3.0运行结果 2.0及1.0 文章目录 1. 版本信息(徐可可) 2. 文档说明(王玮娟) 2.1. 文档简介 2.2. 文档读者 3. 产品简介(王玮娟) 3. ...

  9. python爬虫淘宝评论_Python爬取淘宝店铺和评论

    1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...

最新文章

  1. Ubuntu 下配置 SSH服务全过程及问题解决
  2. [转自scott]ASP.NET MVC框架 (第二部分): URL路径选择
  3. @staticmethod用法
  4. LeetCode 322. Coin Change
  5. python可以开多少线程_python爬虫可以开多少线程?
  6. 归并排序执行次数_一文了解C/C++经典排序算法
  7. uos系统安装教程_统一操作系统UOS下载&安装图文教程:尝鲜记(一)
  8. 基于PHP的SQL注入防御
  9. 职场动物进化手册(转自天涯)
  10. 华硕服务器怎么装win7系统教程,华硕win7系统重装教程
  11. JavaScript前端数据呈现——Table会拐弯的column,数据分多列展示
  12. 2020年,最优秀的大数据公司有哪些?
  13. 怎么修复网站漏洞 骑士cms的漏洞修复方案
  14. 插入移动硬盘时出现Synaptics.exe - 损坏的映像错误的解决办法
  15. 模式识别与人工智能官网,人工智能模式识别技术
  16. HALCON数组的插入和删除
  17. 阿里巴巴分布式数据库服务DRDS
  18. 围棋博弈程序的实现与思考(5)——提子算法
  19. mysql的1055以及group by和order by
  20. FT232R驱动问题-解决已安装驱动,却不能正常使用的问题

热门文章

  1. protobuf 下载、安装、编译
  2. linux socket API / bind
  3. 尹成python爬虫百度云_Python爬虫实战:抓取并保存百度云资源
  4. 百度可观测系列 | 采集亿级别指标,Prometheus 集群方案这样设计
  5. 网易云音乐:基于分布式图学习PGL的推荐系统优化之路
  6. python restful服务部署_用python为mysql实现restful接口
  7. Nginx命令与配置详解
  8. spring 学习 requestMapping
  9. [No000035]操作系统Operating System之OS Interface操作系统接口
  10. Firefox火狐浏览器自用技巧汇总--以备使用--13.5.16