因缘际会

八月伊始的当口,念想着:新的一个月了,是否有关于八月的歌呢,闲时也蛮想找来听下的。说来也怪,哪个月都不曾有过此念头,这回却“突发奇想”且又念念不忘,于是打开网易云音乐,傻瓜般地搜索“八月”,倒也真有不少同名歌曲,其中第一首就是八尾旅人的日文歌曲《八月》,点开听了下,还无暇看歌词描写的是什么,就看到了评论数高达9千余条,而且有8月1号当天许多“同道中人”的留言,看来在这新的一个月的当日,有此心路历程和“行迹”的人,却也不在少数哈。

也正是有感于在无从知晓的地方有那么多人曾有过如此相似的行为,且对这样一首以月份为主题的歌曲到底引发了听友哪些感慨的好奇,我打算爬取此歌曲的全部9400余条评论(截止2018-08-06晚上),并尝试进行分析和挖掘,庆幸的是很久前 Python 交友娱乐会所群(QQ 群:613176398,这不是 ads 系列)里曾有人分享过现成的爬取网易云音乐歌曲评论的爬虫,免去了破解反爬 JS 加密之苦,可以更专注于后续步骤。

若对爬虫感兴趣的可以看下这个话题:如何爬网易云音乐的评论数? 。为了更好的呈现内容,将不会放上冗长的代码,不过发现代码里太多需要在jupyter notebook里交互式讲解了,有些难搞,开源地址:github.com/DesertsX/gu…,代码还会优化调整,欢迎 star。

一个不成熟的小建议就是读者可以边听八尾旅人《八月》这歌边阅读本文。

八月的歌

评论数变化情况

《八月》这首歌曲有着近万条评论(9490条,四舍五入就是一个亿),而每条评论都有时间标记,因此首先来看看评论数的随时间的变化情况。

用 pandas 自带的 plot() 函数绘制评论数与时间戳的关系图,可知在较长一段时期内此歌曲评论数都相对较少,且最早的评论出现在2014年12月20日;

而2018年8月6日之前这段评论数增多的时期里,曲线呈现出明显的周期性,即在每年的八月前后都会有较快速的增长,之后近一年则较为平缓,这很好地反映出《八月》这首歌所带来的评论数的月份相关性,当然观察发现其他“八月”同名歌曲则评论寥寥,可见流量与“风光”已经被八尾旅人这首歌所独占。

而将时间戳转化成年月日,并首次用 pyecharts 进行可视化后,能更加直观的看到评论数的变化情况,确实如上所述,周期性、月份相关性明显。

而单日评论数破400的出现过两次,破100的较为直观的有三次。

统计出评论数 Top20 的日期后,更多的奥秘也得以揭露:对于我来说,点开《八月》这首歌的缘故在于新的月份来临时挥之不去的一些念想,这与图中2016-2018这三年里位居前列的8月1日的数据所反映出的听友的行为与现象或许相同;而之不同的则是,8月末、9月初对即将或已经结束的八月的“悼念”。

本回暂时没有对不同时期评论的文本内容进行比较和分析,可待后续补充。

词不达意之 emoji

在日常的网上聊天或评论区,emoji 表情是许多人所熟悉并频繁使用的一大“神兵利器”。较之文字的歧义性与表达的局限性,emoji 有着直观、魔性、好玩等诸多特性。

同样的在《八月》这首歌底下也有诸多听友留下的 emoji 表情,因而本回也对近万条评论里所有出现的过的 emoji 进行了统计,需要指出的是爬虫拿到的数据里 emoji 是以英文中括号及表情含义的格式表示的,如,评论区使用最多的就是:'[爱心]'(请脑补对应的 emoji 图形),因而在提取步骤也需要用相应的正则表达式来提取 emoji 并进行统计,具体代码参见:github.com/DesertsX/gu…

想来大家无一日不用表情包,不一日不斗图斗的飞起,那么请诸位将这里的60个中文含义(下面有62个,有俩是乱入的)与下图60个 emoji 匹配上吧,优胜者即可获得“emoji 大师”的称号,至于答案的话,也在代码此图的附近

{'[圈]', '[奸笑]', '[拜]', '[禁止]', '[大哭]', '[示爱]', '[痛苦]', '[外星]', '[生气]', '[月亮]', '[发怒]', '[跳舞]', '[撇嘴]', '[憨笑]', '[亲]', '[流感]', '[心碎]', '[假装看不到桌上成堆的作业]', '[礼物]', '[惶恐]', '[幽灵]', '[公鸡]', '[亲亲]', '[这边]', '[圣诞]', '[狗]', '[口罩]', '[呲牙]', '[女孩]', '[钻石]', '[流泪]', '[星星]', '[兔子]', '[惊恐]', '[爱心]', '[牵手]', '[弱]', '[晕]', '[八月]', '[吐舌]', '[皱眉]', '[嘴唇]', '[生病]', '[色]', '[猪]', '[大笑]', '[爱意]', '[汗]', '[呆]', '[哀伤]', '[开心]', '[猫]', '[钟情]', '[鬼脸]', '[蛋糕]', '[男孩]', '[强]', '[小鸡]', '[叉]', '[怒]', '[可爱]', '[便便]'}

注:'[假装看不到桌上成堆的作业]'/ '[八月]' 不是 emoji 表情,而且有人用了中括号,从而被提取出来的。 不过想到要是真有'[假装看不到桌上成堆的作业]'这个 emoji 表情,估计也蛮好玩的,就等哪位大佬开脑洞做一个吧。

另外,网易云音乐里支持60个 emoji,而评论里居然每个 emoji 都被用到了,是不是觉得很神奇,毕竟 '[便便]' 这种可不太清真。而真相就是,为了找出每个 emoji 与中文含义的对应关系,我在评论区手动输出了所有 emoji,从而算是在分析与挖掘这首歌的评论的过程中,留下了稍显莫名其妙的印记,因而也就不删除了。

而拿到对应关系后,Top10 emoji 也就非常直观了,可粗浅的分为开心与伤感两类(仿佛一句废话)。

如果选择其一进行研究,比如包含 '[流泪]' emoji 的评论里都在说些什么呢?用 jieba 提取关键词,并展示部分结果......大概是小年轻们的情情爱爱;或单身狗流窜至此;或开学在即,假期余额不足;或生活中糟糕、艰难困苦的吐露等等,不可胜计,再说我也要流泪了(此处应该有《这个杀手不太冷》那句生活是否总是如此艰难的配图)

流泪 八月 网易 ... 憨笑 开学 首歌 一年 不要 感觉 男朋友 单身 快点 没有 12 天呐 喜欢 爱情 哭腔 心碎 音乐 克里 日语 大叔 听到 就要 推荐 惊恐 大哭 希望 明明 勇气 可爱 七月 感谢 谢谢 九月 一个 评论 适合 示爱 痛苦 时候 认真 无国界 好累 奸笑 柯达 故事

再用词云可视化这部分评论里出现的高频词,相关解读还是需要结合对应评论文本进行,所以还是推荐读者看这部分代码筛选出里评论吧:

词云

最后再放一张全部近万条评论的高频词绘制而成的词云图,同样不在本文进行解读了。

最后代码开源在:github.com/DesertsX/gu…,涵盖网易云音乐歌曲评论爬虫,数据分析、挖掘和可视化的所有代码,本文提及的远不如代码里详实,不过鉴于 jupyter notebook 里代码还有些混乱,调整后会陆续放上去。

当你点开这首《八月》的歌:9400余条评论的分析与挖掘相关推荐

  1. 我们是久别重逢的朋友,还是一首完整的歌?

    那么后来, 我们是久别重逢的朋友, 还是一首完整的歌? 时隔多年, 这些并非最重要的, 重要的是两个人还能再见. 再见可能只是匆匆的见一面, 也可能是感情重新链接起来. 无论结局怎么样, 在心间那一切 ...

  2. 10000首好听的歌 qq空间背景音乐 听完不想别的歌

    每次有新歌直接发到你邮件 直接点击订阅邮箱会发送更多歌曲下载地址 按编号下载 http://www.ctdisk.com/shared/folder_1331640_1cb63190/下载地址 还在整 ...

  3. L5W1作业3 用LSTM网络创作一首爵士小歌

    欢迎来到本周最后的编程任务!在本次作业中,你将使用LSTM实现乐曲生成模型.你可以在作业结束时试听自己创作的音乐. 你将学习: 将LSTM应用于音乐生成. 通过深度学习生成自己的爵士乐曲. 请运行以下 ...

  4. 【Python实战】如果没有音乐,生活就是一个错误 :n首回味无穷的歌,总有一曲深得你心哦~

    前言 有温度 有深度 有广度   就等你来关注哦~ 哈喽!我是栗子同学,爬虫部分小案例已经可以给大家写啦! 有小伙伴儿问我这么久都去哪儿了? 当然是学习新知识去啦,黑嘿嘿,很多爬虫的小案例小编已经会了 ...

  5. Python吴恩达深度学习作业20 -- 用LSTM网络创作一首爵士小歌

    用LSTM网络创作一首爵士小歌 在本次作业中,你将使用LSTM实现乐曲生成模型.你可以在作业结束时试听自己创作的音乐. 你将学习: 将LSTM应用于音乐生成. 通过深度学习生成自己的爵士乐曲. fro ...

  6. 就是他,一首凉凉,让某平台评论区全是卧槽的人!如诗如画

    就是他,一首凉凉,让某平台评论区全是卧槽的人! 如诗如画,在这炎热的天气,听完这首歌,真的凉凉了.

  7. OpenCV-Python图像运算变换处理:开运算和闭运算以及不同核矩阵的影响分析

    ☞ ░ 前往老猿Python博客 https://blog.csdn.net/LaoYuanPython ░ 一.引言 在<OpenCV-Python图像处理:腐蚀和膨胀原理及erode.dil ...

  8. Forrester首份《低代码平台中国市场现状分析报告》哪些厂商入围了

    2014年Forrester首次提出Low-Code定义,资本的助力,数字化转型的推动,越来越多的厂商以各种方式加入到低代码市场.中国低代码市场热闹非凡.2021年底,Forrester发布了首份&l ...

  9. 2023-06-04:你的音乐播放器里有 N 首不同的歌, 在旅途中,你的旅伴想要听 L 首歌(不一定不同,即,允许歌曲重复, 请你为她按如下规则创建一个播放列表, 每首歌至少播放一次, 一首歌只有在

    2023-06-04:你的音乐播放器里有 N 首不同的歌, 在旅途中,你的旅伴想要听 L 首歌(不一定不同,即,允许歌曲重复, 请你为她按如下规则创建一个播放列表, 每首歌至少播放一次, 一首歌只有在 ...

最新文章

  1. Eclipse:定制toString()
  2. Cissp-【第3章 安全工程】-2021-2-24(322页-376页)
  3. BI-SqlServer
  4. Python(25)-单例设计模式
  5. kafka图形化管理工具kafka-manager
  6. phoneGap实现离线缓存
  7. 一文详解 Serverless 技术选型
  8. 1002. 写出这个数 (20)-PAT乙级真题
  9. codeblocks设置背景主题
  10. 在eclipse中引入mybatis和spring的约束文件
  11. leetcode 125 valid-palindrome
  12. 测试用例设计方法-思维导图
  13. html 自动切换tab栏,html 实现tab切换的示例代码
  14. 特别有趣的spyder运行程序
  15. 关于注册时验证邮箱,并实现类似安卓的吐丝效果
  16. matlab画空间直角坐标系,matlab画直角坐标系
  17. PD3.1 140W双C快充解决方案
  18. 京东2019春招商业分析试卷[题目整理]
  19. PTA 7-43 币值转换 (20 分)
  20. IBM CEO彭明盛年薪上涨11%达2090万美元

热门文章

  1. Jmeter做文件上传接口测试
  2. node-exporter问题集
  3. 2021年T电梯修理考试及T电梯修理实操考试视频
  4. JavaWeb那些事
  5. 石头剪刀布的python代码
  6. 华为交换机ssh远程登录配置命令
  7. 关于CE使用的详细教程
  8. 技术文章里那么多的问号与叹号
  9. G20峰会在印度尼西亚举行,虹膜识别身份认证让佩戴面纱、口罩和留大胡子不再困扰
  10. Python爬虫实现京东口罩到货通知,自动下单