爬取了陈奕迅新歌《我们》10万条评论数据发现:原来,有些人只适合遇见
点击上方“程序人生”,选择“置顶公众号”
第一时间关注程序猿(媛)身边的故事
最近就有一部“怀旧”题材的电影,未播先火,那就是刘若英的处女作——《后来的我们》。青春,爱情,梦想,一直是“怀旧”题材的核心要素,虽然电影现在还未上映,但先行发布的主题曲《我们》,已经虐哭了不少人。在MV里,歌声清清浅浅,诉说着那些年关于爱情里的遗憾。
“我最大的遗憾,就是你的遗憾,与我有关”,下面就和「恋习Python」一起来感受一下吧。
class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.7666666666666666" data-w="848" data-src="http://v.qq.com/iframe/player.html?vid=a00264ynwif&width=670&height=376.875&auto=0" style="display: block; width: 670px !important; height: 376.875px !important;" width="670" height="376.875" data-vh="376.875" data-vw="670" src="http://v.qq.com/iframe/player.html?vid=a00264ynwif&width=670&height=376.875&auto=0"/>
这首歌是《后来的我们》中的主题曲,网易云音乐上线当天便席卷千万+播放量,现如今光是网易云上面的评论就马上突破了10万条。
网易云音乐一直是我向往的“神坛“,听音乐看到走心的评论的那一刻,高山流水。于是今天恋习Python来抓取一下歌曲的热门评论。并做成图表、词云来展示,看看相对于这首歌最让人有感受的评论内容是什么。
一、抓数据
要想做成词云图表,首先得有数据才行。于是需要一点点的爬虫技巧。
基本思路为:抓包分析、加密信息处理、抓取热门评论信息
1.抓包分析
我们首先用浏览器打开网易云音乐的网页版,进入陈奕迅《我们》歌曲页面,可以看到下面有评论。接着F12进入开发者控制台(审查元素)。
接下来就要做的是,找到歌曲评论对应的url,并分析验证其数据跟网页现实的数据是否吻合,步骤如下图:
那我们的思路就很清晰了,只需要分析这个api并模拟发送请求,获取json进行解析就好了。
2.加密信息处理
然后经过我的测试,直接把浏览器上这俩数据拿过来就可以。但是要想真正的解决这个加密处理,还需要有点加解密的只是存储。关于这两个参数如何解密,强大的知乎上其实已经有答案的了,感兴趣的朋友可以进去看一下
如何爬网易云音乐的评论数?www.zhihu.com
我们在这里就只需要用我们这种偷懒的办法就可以完成需求了。这里我就使用这么个临时的方法好了,而且对于不同的歌曲是可以重用的,待会我们可以验证一下。
3.抓取热门评论信息
代码块如下:
import requestsimport json
url = 'http://music.163.com/weapi/v1/resource/comments/R_SO_4_551816010?csrf_token=568cec564ccadb5f1b29311ece2288f1'
headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36', 'Referer':'http://music.163.com/song?id=551816010', 'Origin':'http://music.163.com', 'Host':'music.163.com'}#加密数据,直接拿过来用user_data = { 'params': 'vRlMDmFsdQgApSPW3Fuh93jGTi/ZN2hZ2MhdqMB503TZaIWYWujKWM4hAJnKoPdV7vMXi5GZX6iOa1aljfQwxnKsNT+5/uJKuxosmdhdBQxvX/uwXSOVdT+0RFcnSPtv', 'encSecKey': '46fddcef9ca665289ff5a8888aa2d3b0490e94ccffe48332eca2d2a775ee932624afea7e95f321d8565fd9101a8fbc5a9cadbe07daa61a27d18e4eb214ff83ad301255722b154f3c1dd1364570c60e3f003e15515de7c6ede0ca6ca255e8e39788c2f72877f64bc68d29fac51d33103c181cad6b0a297fe13cd55aa67333e3e5'}
response = requests.post(url,headers=headers,data=user_data)
data = json.loads(response.text)hotcomments = []for hotcommment in data['hotComments']: item = { 'nickname':hotcommment['user']['nickname'], 'content':hotcommment['content'], 'likedCount':hotcommment['likedCount'] } hotcomments.append(item)
#获取评论用户名,内容,以及对应的获赞数content_list = [content['content'] for content in hotcomments]nickname = [content['nickname'] for content in hotcomments]liked_count = [content['likedCount'] for content in hotcomments]
二、数据
在获得相关评论数据后,我们将其做成图表与词云图,将让人看起来更直观。
接下来需要在自己电脑上安装需要相关的安装包: pyecharts(图表包)、matplotlib(绘图功能包)、 WordCloud(词云包)
其中,pyecharts 是一个用于生成 Echarts 图表的类库。 Echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化,同时pyecharts 兼容 Python2 和 Python3。安装非常简单,只需:
pip install pyecharts
关于WordCloud(词云包)安装过程中出现问题,可以看看我之前这篇文章:
菜鸟分析:手把手|教你将Windows环境下Python中安装wordcloud的雷排除掉zhuanlan.zhihu.com
https://zhuanlan.zhihu.com/p/33507393
接下来就是代码的实现:
利用之前获得评论用户名和对应的点赞数,将其制作成图表图:
from pyecharts import Bar
bar = Bar("热评中点赞数示例图")bar.add( "点赞数",nickname, liked_count, is_stack=True,mark_line=["min", "max"],mark_point=["average"])bar.render()
由此可以看出,获得最高赞数(95056)评论是:
@鱼大叔Uncle:后来的我,离开了他,永远的离开了他,十年的感情不过寥寥几句话。后来的我,嫁给了一个很普通的人,没有他的浪漫,却有不一样的温暖。
大多数赞数为20000-30000之间,最低都达到7000+,(基本与网页里评论中数据吻合)。
最后,我们将所有的热门评论内容,制作成词云图展示出来,代码块如下:
from wordcloud import WordCloudimport matplotlib.pyplot as plt
content_text = " ".join(content_list)wordcloud = WordCloud(font_path=r"C:\simhei.ttf",max_words=200).generate(content_text)plt.figure()plt.imshow(wordcloud,interpolation='bilinear')plt.axis('off')plt.show()
结果图:
从图中可以看出,很多人感慨,后来只有你我,再无我们。
注明:所有数据,是属于当时所爬取的数据。
三、后记
曾记得,郭敬明在书里写,“我们太年轻,以致于都不知道以后的时光,竟然那么长,
长得足够让我忘记你,足够让我重新喜欢一个人,就像当初喜欢你那样。”
我们这一生,总是遇到太多的后来。从不懂爱到懂爱,从拥有到珍惜。
所幸是到了最后,无论过了多少年。后来的我们,都在对方身上,学会了如何去爱。
就像陈奕迅在歌里唱的,“有过执着,放下执着”。有些人啊,光是遇见就已经值得了。
我们确实没有了后来。
就让后来的我们,慢慢走,别回头。
不谈亏欠,感谢遇见。
只是在下一次遇见爱的时候,我们都要学会更懂得珍惜。
这才是爱的意义,也是我们为什么去爱。
- THE END -
「本文系作者投稿,若你有原创文章想与大家分享,欢迎投稿。」
作者 丁彦军 介绍 一个痴恋于Python语言的程序猿 个人专栏 https://zhuanlan.zhihu.com/p/35667053 另外,如果你身在「深圳or广州」,可扫描下方的群二维码,进群认识同城伙伴,和大家一起交流工作经验或学习心得,同时也会第一时间获得官方发布信息的及时推送。 若扫码无法进群,可加编辑微信,备注#深圳#or#广州#:程序 微信ID:druidlost 小七 微信ID:duoshangshuang ,目前已有北京、上海和杭州群,若你人在北上杭任意城市,也可加编辑微信,备注北京、上海、杭州。待编辑核实后,拉你入群。
点击图片get往期内容
爬取了陈奕迅新歌《我们》10万条评论数据发现:原来,有些人只适合遇见相关推荐
- Python 网络爬虫实战:爬取 B站《全职高手》20万条评论数据
本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据. 我们都知道,B站有很多号称"镇站之宝"的视频,拥有着数量极其恐怖的评论和 ...
- 实战 | 用Python爬取《云南虫谷》3.6万条评论,并做数据统计可视化展示分析,好看!...
最近鬼吹灯系列网剧<云南虫谷>上线,作为鬼吹灯系列作品,承接上部<龙岭迷窟>内容,且还是铁三角原班人马主演,网友直呼非常好看! 今天,我们就用Python爬取目前全部剧集的评论 ...
- 实战|用Python爬取《云南虫谷》3.6万条评论,并做数据统计可视化展示分析,好看!
大家好,我是才哥. 最近鬼吹灯系列网剧<云南虫谷>上线,作为鬼吹灯系列作品,承接上部<龙岭迷窟>内容,且还是铁三角原班人马主演,网友直呼非常好看! 今天,我们就用Python爬 ...
- 使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘"这出好戏"到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至 ...
- 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?
视频课程链接:https://edu.csdn.net/course/detail/9348 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多 ...
- 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?...
黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的. 目前<一出好戏>在猫眼上已经获得近60万个评价,评分为 ...
- python房价数据分析统计服_Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房?...
原标题:Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房? 作者 | 月小水长 责编 | 伍杏玲通过分页.线程池.代理池等技术,快速爬取链家网近4万条在售二手房信息,速度可 ...
- 用Python爬取陈奕迅新歌《我们》10万条评论的新发现
编程狗编程大牛技术分享平台 最近就有一部"怀旧"题材的电影,未播先火,那就是刘若英的处女作--<后来的我们>.青春,爱情,梦想,一直是"怀旧"题材的 ...
- 我分析了b站10万条弹幕,发现了歪嘴战神的终极奥义!(文末重磅福利)
大家好,我是小z~ 天气太热,今天文末一次性送出5本很nice商业智能可视化书籍,给大家解解暑. 最近,歪嘴战神血洗b站,靠着"耐克式微笑"成功出圈,迷倒众生. 这次,小z爬取了1 ...
最新文章
- ISCW实验:配置Cisco IOS EASY ××× Server和Cisco ××× Client
- 重装系统最关键一步:如何做好备份
- Win10开始菜单中的天气不更新问题的解决方法
- 第七课 ActionScript 3语言进阶一
- 【CodeForces - 266B 】Queue at the School (模拟)
- 【windows】windows允许 ICMP协议(允许ping)
- Docker笔记四 发布自制DockerImage 到 Dockerhub
- 体绘制的原理和Raycasting的实现
- 【OpenCV】腐蚀膨胀
- 智能语音识别转文字字幕实时上屏直播系统
- 数据库设计三范式的举例及四大特性说明
- 【数据库基础随手记】 Oracle DB及SQL语句的一些细节
- 深入理解计算机系统李秋豪,《深入理解计算机系统》第7章:重定位PC相对引用的理解...
- php 架构师之路ioc讲解
- 重要的GMaps对象与接口
- 金彩教育:选择关键词要参考哪些数据
- 0x0000007b电脑蓝屏的解决方法
- pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn pym
- 李永乐讲通信与计算机专业,哈工大通信与信息工程18考研经验分享
- 大萧条:反思1929
热门文章
- 获取root权限及破解原理分析
- 容器神话 Docker 是如何一分为二的
- opencv的图片处理:缩小尺寸为原图的一半【自己练习存档,没有参考价值,多看其他大神代码,谢谢】
- 网易博客fengqing888搬家至CSDN啦
- 开源增强型zigbee协议栈
- 攻击法国海军病毒Conficker在中国网络同步蔓延
- 高校计算机教师swto分析,教师个人SWOT分析.doc
- 基于视觉信息的网页分块算法(VIPS) - yysdsyl的专栏 - 博客频道 - CSDN.NET
- 电脑屏上出现联想炫彩鸿蒙,最欢甚!联想P50手机炫彩版升级上市
- 计算机实战项目之 论文+辩论PPT+源码等]精品微信小程序ssm校园求职系统+后台管理系统|前后分离VUE