编程狗编程大牛技术分享平台

最近就有一部“怀旧”题材的电影,未播先火,那就是刘若英的处女作——《后来的我们》。青春,爱情,梦想,一直是“怀旧”题材的核心要素,虽然电影现在还未上映,但先行发布的主题曲《我们》,已经虐哭了不少人。在MV里,歌声清清浅浅,诉说着那些年关于爱情里的遗憾。

“我最大的遗憾,就是你的遗憾,与我有关”,下面就一起来感受一下吧。

这首歌是《后来的我们》中的主题曲,网易云音乐上线当天便席卷千万+播放量,现如今光是网易云上面的评论就马上突破了10万条。

网易云音乐一直是我向往的“神坛“,听音乐看到走心的评论的那一刻,高山流水。于是来抓取一下歌曲的热门评论。并做成图表、词云来展示,看看相对于这首歌最让人有感受的评论内容是什么。

一、抓数据

要想做成词云图表,首先得有数据才行。于是需要一点点的爬虫技巧。

基本思路为:抓包分析、加密信息处理、抓取热门评论信息

1.抓包分析

我们首先用浏览器打开网易云音乐的网页版,进入陈奕迅《我们》歌曲页面,可以看到下面有评论。接着F12进入开发者控制台(审查元素)。

接下来就要做的是,找到歌曲评论对应的url,并分析验证其数据跟网页现实的数据是否吻合,步骤如下图:

通过歌曲id轻松找到评论所在的链接

查看hreaders的信息,发现浏览器使用的是POST的方式进行的请求

具体字段如上图,会发现表单中需要填两个数据,名称为params和encSecKey。后面紧跟的是一大串字符,换几首歌会发现,每首歌的params和encSecKey都是不一样的,因此,这两个数据可能经过一个特定的算法进行加密过的

服务器返回的和评论相关的数据为json格式的,里面含有非常丰富的信息(比如有关评论者的信息,评论日期,点赞数,评论内容等等),其中hotComments就是我们要找的热门评论,总共15条

那我们的思路就很清晰了,只需要分析这个api并模拟发送请求,获取json进行解析就好了。

2.加密信息处理

然后经过我的测试,直接把浏览器上这俩数据拿过来就可以。但是要想真正的解决这个加密处理,还需要有点加解密的只是存储。

我们在这里就只需要用我们这种偷懒的办法就可以完成需求了。这里我就使用这么个临时的方法好了,而且对于不同的歌曲是可以重用的,待会我们可以验证一下。

3.抓取热门评论信息

代码块如下:

  1. import requests

  2. import json

  3. url = 'http://music.163.com/weapi/v1/resource/comments/R_SO_4_551816010?csrf_token=568cec564ccadb5f1b29311ece2288f1'

  4. headers = {

  5.    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',

  6.    'Referer':'http://music.163.com/song?id=551816010',

  7.    'Origin':'http://music.163.com',

  8.    'Host':'music.163.com'

  9. }

  10. #加密数据,直接拿过来用

  11. user_data = {

  12.    'params': 'vRlMDmFsdQgApSPW3Fuh93jGTi/ZN2hZ2MhdqMB503TZaIWYWujKWM4hAJnKoPdV7vMXi5GZX6iOa1aljfQwxnKsNT+5/uJKuxosmdhdBQxvX/uwXSOVdT+0RFcnSPtv',

  13.    'encSecKey': '46fddcef9ca665289ff5a8888aa2d3b0490e94ccffe48332eca2d2a775ee932624afea7e95f321d8565fd9101a8fbc5a9cadbe07daa61a27d18e4eb214ff83ad301255722b154f3c1dd1364570c60e3f003e15515de7c6ede0ca6ca255e8e39788c2f72877f64bc68d29fac51d33103c181cad6b0a297fe13cd55aa67333e3e5'

  14. }

  15. response = requests.post(url,headers=headers,data=user_data)

  16. data = json.loads(response.text)

  17. hotcomments = []

  18. for hotcommment in data['hotComments']:

  19.    item = {

  20.        'nickname':hotcommment['user']['nickname'],

  21.        'content':hotcommment['content'],

  22.        'likedCount':hotcommment['likedCount']    

  23.    }

  24.    hotcomments.append(item)

  25. #获取评论用户名,内容,以及对应的获赞数  

  26. content_list = [content['content'] for content in hotcomments]

  27. nickname = [content['nickname'] for content in hotcomments]

  28. liked_count = [content['likedCount'] for content in hotcomments]

二、数据可视化

在获得相关评论数据后,我们将其做成图表与词云图,将让人看起来更直观。

接下来需要在自己电脑上安装需要相关的安装包: pyecharts(图表包)、matplotlib(绘图功能包)、 WordCloud(词云包)

其中,pyecharts 是一个用于生成 Echarts 图表的类库。 Echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化,同时pyecharts 兼容 Python2 和 Python3。安装非常简单,只需:

  1. pip install pyecharts

接下来就是代码的实现:

利用之前获得评论用户名和对应的点赞数,将其制作成图表图:

  1. from pyecharts import Bar

  2. bar = Bar("热评中点赞数示例图")

  3. bar.add( "点赞数",nickname, liked_count, is_stack=True,mark_line=["min", "max"],mark_point=["average"])

  4. bar.render()

由此可以看出,获得最高赞数(95056)评论是:

@鱼大叔Uncle:后来的我,离开了他,永远的离开了他,十年的感情不过寥寥几句话。后来的我,嫁给了一个很普通的人,没有他的浪漫,却有不一样的温暖。

大多数赞数为20000-30000之间,最低都达到7000+,(基本与网页里评论中数据吻合)。

最后,我们将所有的热门评论内容,制作成词云图展示出来,代码块如下:

  1. from wordcloud import WordCloud

  2. import matplotlib.pyplot as plt

  3. content_text = " ".join(content_list)

  4. wordcloud = WordCloud(font_path=r"C:\simhei.ttf",max_words=200).generate(content_text)

  5. plt.figure()

  6. plt.imshow(wordcloud,interpolation='bilinear')

  7. plt.axis('off')

  8. plt.show()

结果图:

从图中可以看出,很多人感慨,后来只有你我,再无我们。

注明:所有数据,是属于当时所爬取的数据。

三、后记

曾记得,郭敬明在书里写,“我们太年轻,以致于都不知道以后的时光,竟然那么长,

长得足够让我忘记你,足够让我重新喜欢一个人,就像当初喜欢你那样。”

我们这一生,总是遇到太多的后来。从不懂爱到懂爱,从拥有到珍惜。

所幸是到了最后,无论过了多少年。后来的我们,都在对方身上,学会了如何去爱。

就像陈奕迅在歌里唱的,“有过执着,放下执着”。有些人啊,光是遇见就已经值得了。

我们确实没有了后来。

就让后来的我们,慢慢走,别回头。

不谈亏欠,感谢遇见。

只是在下一次遇见爱的时候,我们都要学会更懂得珍惜。

这才是爱的意义,也是我们为什么去爱。

赞赏作者

作者:菜鸟分析,一个痴恋于Python语言的程序猿  

知乎专栏|恋习Python:https://zhuanlan.zhihu.com/p/35667053

最近热门文章

用Python分析苹果公司股价数据

Nginx+uwsgi部署Django应用

用文本挖掘剖析近5万首《全唐诗》

Python自然语言处理分析倚天屠龙记

Python 3.6实现单博主微博文本、图片及热评爬取

点击下方阅读原文免费成为社区会员

用Python爬取陈奕迅新歌《我们》10万条评论的新发现相关推荐

  1. Python学习-使用Python爬取陈奕迅新歌《我们》网易云热门评论

    <后来的我们>上映也有好几天了,一直没有去看,前几天还爆出退票的事件,电影的主题曲由陈奕迅所唱,特地找了主题曲<我们>的MV看了一遍,还是那个感觉.那天偶然间看到Python中 ...

  2. python数据组织存在维度吗_用Python 爬取蔡徐坤新浪微博 10 万转发数据,从数据的维度看看存在多少假流量...

    315晚会揭露各企业的造假,怎么也没看看流量明星的数据造假呢?作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新一条之外,其它的基本每条都是转发100万 ...

  3. 讲python的东哥_小伙子不讲武德,竟用Python爬取了B站上1.4万条马老师视频数据来分析...

    看到标题, 啪的一下你就进来了吧! 如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁? 印度:没错正是在下 那必须是当代大师浑元形意太极拳掌门人「马保国」先生啊! 实话讲,马保国走进大家视野 ...

  4. 网络爬虫实战(三):爬取豆瓣、猫眼流浪地球数万条评论信息

    春节如约而至,随着消费水平的提高,越来越多的人们走进电影院,观看春节档电影.去看啥电影,先看看网友们的评分评论也是非常有必要的,于是前几天遍想到用爬虫去爬取一些有用的信息. 爬取豆瓣电影评论 可以看得 ...

  5. 用Python爬取陈奕迅歌曲10万条评论的新发现

    一.抓数据 要想做成词云图表,首先得有数据才行.于是需要一点点的爬虫技巧. 基本思路为:抓包分析.加密信息处理.抓取热门评论信息 1.抓包分析 我们首先用浏览器打开网易云音乐的网页版,进入陈奕迅< ...

  6. python的歌曲评论数据分析_用Python爬取陈奕迅歌曲10万条评论的新发现

    一.抓数据 要想做成词云图表,首先得有数据才行.于是需要一点点的爬虫技巧. 基本思路为:抓包分析.加密信息处理.抓取热门评论信息 1.抓包分析 我们首先用浏览器打开网易云音乐的网页版,进入陈奕迅< ...

  7. 使用Python抓取猫眼近10万条评论并分析

    <一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘"这出好戏"到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至 ...

  8. 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?

    视频课程链接:https://edu.csdn.net/course/detail/9348 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多 ...

  9. 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?...

    黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的. 目前<一出好戏>在猫眼上已经获得近60万个评价,评分为 ...

最新文章

  1. jqueryIFrame框架内元素操作
  2. 写了 15 年代码,总结出提升 10 倍效率的三件事
  3. python 标签云_标签云算法Python实现
  4. 小程序php生成海报,小程序用canvas绘制海报的做法
  5. 跟随进度而变色进度条效果ios源码
  6. android 拖动进度,Android 可拖动的seekbar自定义进度值
  7. Python 直接赋值、浅拷贝和深度拷贝全解析
  8. 运行github上的Vue项目
  9. java在初始化过程_Java初始化和实例化顺序
  10. C#异步方法调用(四大方法详解)
  11. Servlet读取xml文件的配置参数
  12. 用户身份链接方法——DeepLink
  13. SLAM学习 | 使用小觅相机MYNTEYE-S1030收集数据集
  14. 平平淡淡的真,安安静静的情
  15. FFplay文档解读-47-多媒体过滤器一
  16. word文档中插入图片显示不全解决办法
  17. 云测 Testing 兼职众测平台题目及答案
  18. The server time zone value .. is unrecognized or represents more than one time zone
  19. 迁移学习——Transitive Transfer Learning
  20. 2022年C等级考试九月二级真题E:反反复复

热门文章

  1. unity与Gaea互导(介于高度图)在制作好的unity地形之上用gaea添加自动化地型细节
  2. “信创产业”是什么?2020“信创”脱颖而出
  3. 数据库原理之关系数据库关系运算
  4. 机器人走进日本“鬼城”
  5. 51单片机串口通信发送以及接收代码详解1
  6. centos7 安装netdata及使用
  7. 普洱熟茶可以使用玻璃茶具冲泡嘛?
  8. 收到包含无效cookie的cookie头[1597904809; JSESSIONID=410E5AB8E2E97F02AB95C8C77A896ECA]。将忽略该cookie。?注意:此错误的进一步
  9. 分布式事务原理及解决方案
  10. 编程 学习 挣钱 旅游 ing