前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

欢迎关注小编,除了分享技术文章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。

没错,还是那个B站,在520这个既浪漫且有营销价值的一天又「搞事情」了。

5月20日, B站联合毛不易发布毕业季主题曲《入海》。

这首歌主题是“献给即将或已经毕业的人们”,歌曲MV中以主人公毕业的时候为原点,追忆过去,并用大量篇幅展现普通人毕业后的社会生活。

这首歌一经发布就在B站引爆了话题点,截止到5月24日在B站播放量达到了800万+,收获了5.2万弹幕,最高全站日排行1名。

今天我们就带你来解读这首《入海》,以及背后不一样的毛不易。

一、毛不易的歌里都喜欢唱些什么?

毛不易,本名王维家。本来毕业于杭州师范大学护理专业的他一直有个歌手梦。在2017年,参加腾讯视频选秀音乐娱乐节目《明日之子》,获得全国总决赛冠军,从而正式进入演艺圈。谁又能想到最后拿到冠军是这个长相平平,没有什么优势,甚至有点害羞憨厚的毛不易了。

随着《消愁》《像我这样的人》等歌曲的大火,毛不易这个名字也被越来越多的人知晓。同时在今年鹅厂的女团选秀节目《创造营2020》中,毛不易更是以导师的身份加入,呆萌的毛老师这次也收获了不少的粉丝。

听着《消愁》里的“一杯敬朝阳,一杯敬月光“,大概是因为才华,毛不易在这个年纪能写出人生的无奈和纠葛,这是一种大的勇气。

那么毛不易的歌里都在唱些什么呢?下面让我们来盘一盘:

我们分析整理了毛不易在网易云音乐的歌曲,一共83首,歌词字数加起来45577字,我们用Python对这些歌词进行分析。

歌曲时长分布

首先在歌曲时长方面,时长为4-5分钟的最多高达43.9%,3-4分钟为29.27%,2-3分钟的为13.41%。要知道一般歌曲时长多为3分钟左右,看来毛不易的歌时长还是偏长的。

歌曲正向情感得分

我们使用boson库对每首歌的歌词的情感进行打分,分数介于0~100分,高于50分为积极,分数越高,积极倾向性越高。从分布图可以看出,在83首歌曲中,大部分的歌曲正向积极情感为主。

毛不易最喜欢的词TOP15

毛不易最喜欢的歌里最喜欢用哪些词呢?我们分析整理得出了歌词中出现频率最高的TOP15。可以看到"等待"、"生活"、"时光"等词出现频率最高,位列前三。

"慢慢"、"遇见"、"江水"、"角落"等比较文艺的词也上榜了。有意思的是"有钱"出现频率也较高,位列第四。

二、《入海》全站日排名第一 ,这首献给毕业季的歌好在哪儿?

我们使用Python获取并分析了B站上《入海》这首MV的评论数据,经过去重之后得到19099条样本,下面让我们看到评论的具体分析。

评论用户性别占比

首先,在评论用户性别占比方面,男性用户占比略高,男性用户占比54.69%,女性用户占比45.31%。

评论用户客户端分布

那么看《入海》的用户在看视频时都用的什么移动设备呢?经过分析发现,用iphone的用户占了很大的比例,远超Andrio系统的用户。第三位是使用ipad的用户。

评论用户等级分布

同时我们知道,b站上用户因为参与程度等因素,等级从0-6分布,数字越大等级越高。在《入海》这首歌的评论用户上,评论中5级的占比最高为36.1%,其次是4级占比26.31%,6级占比仅为3.24%,这也是因为毕竟要成为六级大佬实在太难了。

各时段评论人数

在评论时间段方面,《入海》是在5月20日 8:30发布的,在发布后评论的人数越来越多,在12点左右评论达到最高峰,这个时段共有2万7千余人进行评论,远高于其他时段,之后随着时间推移评论人数也越来越少,趋于平缓。

评论关键词TOP15

在评论中大家说得最多的是什么呢?

经过分析整理可以看到,"毕业"是提到最多的词,其次第二位是"后浪",毕竟作为同样聚焦在年轻人身上的话题,这次的《入海》很容易让大家联系到5月4日B站发布的《后浪》视频。

同时,"快乐"、"入海"、"大哭"等词也被频频提到。

三、Python分析:B站《入海》评论数据

我们使用Python获取并分析了B站上《入海》这首MV的评论数据。经过去重之后得到19099条样本,来分析一下这周MV的用户的评论信息。整个分析流程分为以下几步:

数据获取

数据整理

数据可视化

数据获取

在获取视频评论之前,我们首要做的就是分析其网页结构,寻找目标数据,也就是我们要评论的数据在哪里。

经过抓包分析,在network-json选项卡下,很容易找到了数据传输的地址

其中oid是视频的专属oid,pn是页面数。

由上图可看出,其评论数据是以json数据形式存在于网页端的,目前显示的页数是976页,每页20条评论,追评数据暂时不做抓取。

接下来,就爬取思路很明确,从第一页的JSON文件开始,爬完20条评论,循环pn页数,直到爬完所有的评论数据。

代码如下:

获取到的数据以DataFrame的形式存储,格式如下:

# 读入数据

df.head()

数据集有19099个样本,8个字段,字段名称为:用户名、用户性别、用户签名、用户等级、用户评论、设备名称、评论时间、点赞数。

df.info()

RangeIndex: 19099 entries, 0 to 19098

Data columns (total 8 columns):

user_name 19099 non-null object

sex 19099 non-null object

sign 9896 non-null object

current_level 19099 non-null int64

content 19099 non-null object

device 4159 non-null object

content_time 19099 non-null int64

reply_count 19099 non-null int64

dtypes: int64(3), object(5)

memory usage: 1.2+ MB

数据整理

此处我们主要对以上获取的数据集进行部分清洗工作以方便后续的处理:

重复值处理

类型转化

时间戳数据处理

评论数据jieba分词处理-(代码暂略)

数据可视化分析

此处我们将进行以下部分的数据可视化分析,首先导入所需包,其中pyecharts用于绘制动态图形,stylecloud用于绘制词云图,关键代码如下:

评论性别占比

用户客户端分布

用户等级分布

评论时间走势图

评论词云图

python歌词图表分析_Python可视化图分析毛不易的《入海》,看看听歌的人都在想些什么...相关推荐

  1. python歌词分析_Python 词云分析周杰伦新歌《说好不哭》

    周杰伦难得出新歌 ,最近终于推出了单曲<说好不哭>,然后直接把QQ音乐服务器干崩了,天王的实力可见一斑,QQ音乐还把这个当作 今天过年 看我公众号头像就知道是杰伦粉了 ,高中的时候开始喜欢 ...

  2. python生成ppt报告_python 生成 pptx 分析报告的工具包:reportgen

    reportgen v0.1.8 更新 这段时间,我对 reportgen 进行了大工程量的修改和更新.将之前在各个文章中出现的函数进行了封装,同时也对现有工具包的一些逻辑进行了调整. 1.repor ...

  3. python语音识别分析_python数据建模分析 - 语音识别

    Getting Started!首先,我们要知道语音的产生过程 voice.png 状态:由肺产生向外的气流,完全放松时声带张开,就是平时的呼吸.如果声带一张一合(振动)形成周期性的脉冲气流.这个脉冲 ...

  4. python生成分析图_Pyflame 生成火焰图分析 Python 程序

    Pyflame 生成火焰图分析 Python 程序 后台回复[入门资料] 送你十本Python电子书 文 | EarlGrey 推荐 | 编程派公众号 微信号:codingpy Pyflame 是 U ...

  5. 上海python还是很多的_Python数据采集和分析告诉你为何上海的二手房你都买不起!(一)...

    1.前言 本人是个学生党,在过两年就要研究生毕业了,面临着找工作,相信很多人也面临或者经历过工作,定居租房买房之类的 在此,我们来采集一下上海在售的二手房信息,有人想问,为啥不采集新房?快醒醒吧,新房 ...

  6. python动态图表变化_Python数据可视化 pyecharts实现各种统计图表过程详解

    Python数据可视化 pyecharts实现各种统计图表过程详解 发布时间:2020-09-10 04:53:26 来源:脚本之家 阅读:78 1.pyecharts介绍 Echarts是一款由百度 ...

  7. 如何用python进行相关性分析_Python文章相关性分析---金庸武侠小说分析

    最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来. 小说集可以百度<金庸小说全集 14部>全(TXT)作者:金庸 下载下来. 需要整理好格式,门 ...

  8. python 小说人物分析_Python文章相关性分析---金庸武侠小说分析

    最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来. 小说集可以百度<金庸小说全集 14部>全(TXT)作者:金庸 下载下来. 需要整理好格式,门 ...

  9. 如何用python绘制灰度直方图_python可视化

    基于pandas的内置可视化 基本绘图 Series和DataFrame上的这个功能只是使用matplotlib库的plot()方法的简单包装实现. %matplotlib inline import ...

最新文章

  1. FPGA之道(66)代码中的约束信息(三)存储器以及寄存器的相关约束
  2. Leetcode 190. 颠倒二进制位 解题思路及C++实现
  3. stopstart按钮怎么用_烟雾报警器一直响吵人!怎么彻底给关掉?
  4. Python入门100题 | 第059题
  5. Reading Club Questions Feedback
  6. 编程珠玑 15.3生成文本
  7. SpringCloud熔断器介绍
  8. [C++STL]仿函数用法介绍
  9. JUnit 5 –参数化测试
  10. url 参数传递的两种方式_VB编程中的传值与传址两种参数传递方式,你清楚吗?...
  11. oracle as sydba,Oracle的操作系统认证(/ as sydba 登录方式)
  12. 巧用 Nginx 快速实现 HTTPS 双向认证
  13. 【车牌识别】基于matlab GUI模板匹配车牌库识别【含Matlab源码 416期】
  14. 为你的企业建立竞争情报系统
  15. win10修改用户名/指纹无法置入/用户文件没有重命名的选项
  16. 解决MySQL报ValueError(“Could not process parameters“)错误
  17. 一次苦中作乐的追码过程(上)
  18. 数学定理【转自百度百科】
  19. day14.逻辑运算,位运算
  20. RBP系统管理之系统用户管理

热门文章

  1. Elasticsearch:《大数据集群学习笔记与实战》之es集群(2)es基本操作
  2. Utgard连接OPC Server常见故障码及解决方案
  3. 手持式水质监测仪在污水处理中的应用
  4. alios things开发板_AliOS Things开发:让你的开发板支持AliOS Studio调试-阿里云开发者社区...
  5. Mybatis【面试题】
  6. Lagrange Multiplier Theorem——候选人定理
  7. DWG中注记平移问题
  8. 2020IT从业者如何找到高薪工作
  9. 第十五周 内部排序一(2)验证交换排序
  10. WC2015简短感想