我心中最敬业的天王 刘德华|分析天王近700多首歌曲
1
音乐数据
1)数据获取
因为平时听歌都使用QQ音乐,此次分析所需数据全部来自QQ音乐网站,使用爬虫工具获取刘德华的全部歌曲列表,然后分别爬取了对应的歌曲详情和专辑信息,共得到778条歌曲数据和119条专辑数据,样式如下:
可以看到,歌曲的原始数据中有很多干扰项和空值,专辑数据也是类似的情况,所以在进行分析之前要做一些基本的数据清洗工作。
2).数据清洗
这一步的数据清洗主要目的是去除各字段数据中的干扰项,获取准确的歌曲名称、发行时间、评论数等有效信息,都是老生常谈的操作,直接上代码:
sdf = pd.read_excel(sfile)
sdf['歌曲名称'] = sdf['歌曲名称'].str.split('(').str[0].str.split('《').str[0].str.split('原 唱').str[0].str.strip()
sdf['发行时间'] = sdf['发行时间'].str.split(':').str[1]
sdf['语种'] = sdf['语种'].str.split(':').str[1]
sdf['流派'] = sdf['流派'].str.split(':').str[1]
sdf['评论数'] = sdf['评论数'].str.replace('评论', '').str.replace('(', '').str.replace(')', '') sdf.drop_duplicates(subset=['歌曲名称', '专辑'], inplace=True)
(代码可以左右滑动)
清洗后的歌曲信息和专辑信息如下:
2
统计分析
1)歌曲演唱频率
刘德华的歌曲很多,有些歌曲曾在不同的专辑、不同的演唱会中多次出现,我们以歌曲出现的频次为权重,绘制一幅歌曲名称词云图。从图中可以看出《忘情水》、《爱你一万年》、《谢谢你的爱》等歌曲演唱频率相对较高, 这几首歌曲对80年代出生的人来说真是再熟悉不过了,都是满满的回忆啊。
2).歌曲发行时间
从每年发行的歌曲数量和评论上看可以发行:
1).刘德华1985就开始发行歌曲,1985发行了5首歌曲,算算是23岁左右就发歌了。
2).黄金发歌曲的数量是在1991,2001,2010年,非常巧都是间隔10年左右。
3).平均每年发歌的数量是13首,但是2011年以后发歌的数量慢慢变少了,可能事业中心在电影上。
4).整个发歌曲的巅峰和点评数最多的是在1997年,我们看一下1997年刘德华出了那些歌曲
满满的80后的回忆啊!尤其是冰雨,这首歌的MTV我至今还印象深刻!
3).人气歌曲
看一看刘德华目前700多首歌曲里面人气最好的歌曲是"世界第一等","一起走过的日子"
从发行的时间上看大部分都是在2000年以前发布的歌曲,所以经典的歌曲还是在他40岁之前创作的。
4).歌曲的语种分布
作为歌手演唱多国语言的歌曲已经非常普遍了,刘德华是香港人,他的歌曲中以粤语居多这很正常,不过个人感觉他在国语方面还是下过一些功夫的:
很多歌曲都有国粤两个版本,国语歌曲数量占总数的45.62%,仅次于粤语歌曲的52.12%。
除了国语粤语之外,刘德华也演唱过一些其他语种的歌曲,但是体量非常小,全部加起来 也不足总数的3%。
5).唱片公司
分析完歌曲后一起来看下周边数据,先来看下唱片公司:
刘德华是东亚唱片制作公司旗下艺人,所以很正常他的76.78%的歌曲都出自这家公司,而东亚唱片作为香港本地大型唱片公司之一也确实很有实力,旗下有许 志安、任贤齐、杨千嬅、郑秀文等众多香港乐坛红星。
再来看下环球唱片,相比东亚唱片而言,环球唱片更加牛气,号称是全世界最大的唱片公司,出品刘德华歌曲数量排名第二也就没有什么好奇怪了。
这篇文章涉及爬虫和数据分析的技巧,数据可视化混合了Tableau和Pyecharts,但是Tableau真的是太方便了,有兴趣的同学可以动手试试,需要歌曲数据集的小伙伴可以获取:
链接: https://pan.baidu.com/s/1-wyChA6qEezoAnD9NMxexA
提取码: wm6e
我心中最敬业的天王 刘德华|分析天王近700多首歌曲相关推荐
- net.sz.framework 框架 ORM 消消乐超过亿条数据排行榜分析 天王盖地虎
序言 天王盖地虎, 老婆马上生孩子了,在家待产,老婆喜欢玩消消乐类似的休闲游戏,闲置状态,无聊的分析一下消消乐游戏的一些技术问题: 由于我主要是服务器研发,客户端属于半吊子,所以就分析一下消消乐排行榜 ...
- python专科就业_利用Python分析复旦大学近五年转专业失败的情况
昨天在实验室闲着无聊,看见我旦今年的转专业名单放了出来.突发奇想想用Python试着分析一下转专业的情况.说干就干. 首先得用到处理excel文件的库,常用的是xlwt, xlrd, openpyxl ...
- APP逆向分析之XX音乐客户端下载歌曲权限绕过
很长一段时间没有做逆向分析相关的研究了,最近看了一部电影,电影有首插曲名字叫不见不散,那是相当的好听啊,打开XX音乐,准备下载,额-.弹出付费才能下载-.为了一首歌,开一个包月服务,显然不是我这个搞过 ...
- 分析许嵩的175首歌曲,看看大家为什么那么喜欢听他的歌
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于罗罗攀 ,作者罗罗攀 刚接触Python的新手.小白,可以复制下面的链接去免费观看P ...
- 数据可视化分析,近5年电视机全球出货量和中国产量
随着科技的不断进步,电视机已经不再只是用来看电视节目的设备,而是成为了家庭娱乐的中心,提供了令人难以置信的视觉体验.随着4K和8K技术的引入,我们能够欣赏到前所未有的清晰度和细节还原能力.无论是观看电 ...
- python排名分析_用Python分析了近几年胡润排行榜,我酸了……
10 月 20 日,胡润研究院发布<2020 胡润百富榜>,也就是富富富豪排行榜 杭州的马云毫无悬念的再次摘下中国首富桂冠,深圳的马化腾位列第二 榜单被我翻烂了,还是没有找到我的名字,难道 ...
- 通过LRC文件分析出一首歌曲的速度
// try1.cpp : 定义控制台应用程序的入口点. // #include "StdAfx.h" #include <stdio.h> //for printf, ...
- 用Python分析了近几年富豪排行榜,我酸了...
10 月 20 日,胡润研究院发布<2020 胡润百富榜>,也就是富富富豪排行榜 杭州的马云毫无悬念的再次摘下中国首富桂冠,深圳的马化腾位列第二 榜单被我翻烂了,还是没有找到我的名字,难道 ...
- 用Python分析了近几年胡润排行榜,我酸了...
点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 移船相近邀相见,添酒回灯重开宴. ...
- 算法复杂度分析(渐近记号)
[见解]关于算法复杂度的理解不能只停留在根据代码直接凭感官或者经验直接推测其公式(例如:根据for循环直接推测出一个O(n)复杂度,关于复杂度的理解更应该深入到其所代表的函数空间中去. 1.渐进记号 ...
最新文章
- linux文件系统的链接,用户指南:Linux文件系统的链接
- TCP/IP协议分为哪四层,具体作用是什么。
- Java基础—序列化底层原理
- ArrayUtils的简单学习
- xaml_XAML或JavaFx?
- java中jdom,java – JDOM中的命名空间(默认)
- 洛谷P4782 2-SAT问题
- Sequence operation3397
- Axure RP 8 激活
- Scrapy框架爬取百度新闻
- IOS日历控件JTCalendar
- 获取微信小程序码的“47001”错误码的坑,errmsg:data format error hint
- TMS320F28335 和 VS1003B 之间的通信
- win10系统计算机如何分盘,win10新电脑怎么合理分盘?给win10电脑合理分盘的设置方法...
- HTML中属性问题以及通信问题总结
- 论文-融合机器学习与知识推理的可解释性框架-李迪媛1, 康达周2
- sql语句语法数据定义语句alter table
- python最小二乘法 实现 曲面拟合
- (三)stm32巡线小车首尝试 测速篇
- SQL语句:where条件后写上1=1是为了什么