原标题:用Python分析周杰伦6.5W字的歌词,原来他是这样的人

雷锋网按:本文作者冬鑫,原文载于作者,雷锋网已获授权。文中所有链接详见文末“阅读原文”。

前一段时间分析民谣歌词的那边文章特别火,刚好在研究使用python处理数据,就也想弄个类似东西练练手。于是乎,拉上自己亲妹妹 @张小黑 就开始分工。

一、准备歌词素材

歌词选择:杰伦至今的所有专辑(从最开始的到最新的)

由于爬虫木有学会,就只能手动收集歌词。经过一系列的 google、baidu,终于找到别人整理好的歌词全集。ok,就这样歌词文件搞定了,一共也没多大,也就207K(想想周董这么多年唱的歌词大半都在这207K的txt文件里就不免有些感慨)。

二、对歌词文件完成分词

这是最难的部分,产品汪只会跟程序猿们相爱相杀,哪会写代码呀!!!

没办法,硬着头皮也要写。网上goolge各种关键字,看博客,花了半天的时间,连蒙带猜,勉勉强强看懂了网上的代码示例,比着葫芦画瓢写了一点点写。

千难万险,终于写完调通,最终主要的部分一共也就12行,没有任何注释(简直乞丐版代码,根本看不出来哪里sexy ~~~~(>_

三、对分词的结果进行分析

好,我们终于到了正文,以上都是废话,下边才是重要结论。(如果以这种方式写邮件一定会被老板打死 ♪(^∇^*) )

结论一:杰伦最喜欢的唱的主题 --- 情歌 (我自己也知道这是废话 O(∩_∩)O)

拉了下出现频率 top20 的词语,满满的都是文艺、伤感、爱情 :

我们 / 怎么 / 没有 / 微笑 / 离开 / 爱情 / 回忆 / 不要 / 开始 / 如果 / 怎么 / 开始

我擦,感觉随机排列组合都能成歌词,方文山以后是不是就可以下岗了 ♪(^∇^*)

结论二:杰伦喜欢妈妈胜过爸爸,喜欢外婆胜过爷爷以及外公(歌词中没有出现奶奶)

大家应该都听过。

杰伦专门为外婆写了一首歌,其中也就1句歌词提到了外公。

至于爷爷,杰伦也有那首

结论三:杰伦喜欢黑色、白色胜过其他颜色

很符合周董的形象,歌词里高大上的黑色&白色力压其他颜色。看到黑白两色频率这么高,我第一时间想到的是,感觉很符合那个气质。还有就是青色出现了6次,大概率是因为吧。

结论四:杰伦最喜欢的语气词是 oh~

毋庸置疑,杰伦最喜欢 oh~ ,排除大小写的因素,[oh] 出现的频率甚至超过 [我们] 成为出现词频最高的词汇。此外杰伦经典的 "哎呦不错哦~" 中的 [哎呦] 也名列前茅,看来杰伦真的很喜欢讲这句话。

总结:只是从歌词来看,大概杰伦就是一个穿着黑白帽衫,表面上酷酷的,但是骨子里满是深情、文艺, 只喜欢喝爷爷泡的茶,听妈妈的话,爱自己外婆的 ,嘴里时不时地冒出一句‘哎呦,不错哦’ 的 五好青年 ^_^

注:以上内容纯属胡说八道,如有雷同,纯属巧合。

另,头图不是 python 生成,是使用一个国外的网站(wordart)生成的。文章中使用的分词代码、歌词文本、头图已通过有道云笔记分享(文章末尾有链接),内容如下:

有道云笔记链接:

延伸阅读:

研习社特供福利ID:OKweiwu

关注AI 研习社后,回复【1】获取

【千G神经网络/AI/大数据、教程、论文!】

百度云盘地址!

开发者专场 | 英伟达深度学习学院现场授课

英伟达 DLI 高级工程师现场指导,理论结合实践,一举入门深度学习!

课程链接:mooc.ai

责任编辑:

python歌词分析_用Python分析周杰伦6.5W字的歌词,原来他是这样的人相关推荐

  1. python 时间序列预测_使用Python进行动手时间序列预测

    python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...

  2. python 概率分布模型_使用python的概率模型进行公司估值

    python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...

  3. 用python进行营销分析_用python进行covid 19分析

    用python进行营销分析 Python is a highly powerful general purpose programming language which can be easily l ...

  4. python重定向网页_【Python网页分析】httplib库的重定向处理

    1. 网页处理 下图是实际操作抓包分析结果,其他的步骤不再描述. 1.从选定的POST /main.aspx开始 2.后面服务器回复302重定向到/cd_chose.aspx页面 3.抓包数据有GET ...

  5. python主题建模_在PYTHON中进行主题模型LDA分析

    原文链接:在PYTHON中进行主题模型LDA分析​tecdat.cn 主题建模是一种在大量文档中查找抽象主题的艺术方法.一种作为监督无的机器学习方法,主题模型不容易评估,因为没有标记的"基础 ...

  6. python 数据分析 电信_基于Python的电信客户流失分析和预测

    一.项目背景 电信服务是生活中常见的消费服务,在现代社会,凡是使用手机打电话,或者在家看电视,都必须通过电信运营商提供的通话.网络等服务才能实现.本文采用来自kaggle平台的电信客户数据集,来分析人 ...

  7. 基于python的数据爬取与分析_基于Python的网站数据爬取与分析的技术实现策略

    欧阳元东 摘要:Python为网页数据爬取和数据分析提供了很多工具包.基于Python的BeautifulSoup可以快速高效地爬取网站数据,Pandas工具能方便灵活地清洗分析数据,调用Python ...

  8. python对股票的基本面进行分析_基本面分析python

    问:如何使用Python分析大数据 毫不夸张地说,大数据已经成为任何商业交流中不可或缺的一部分.桌面和移动搜索向全世界的营销人员和公司以空前的规模提供着数据,并且随着物联网的到来,大量用以消费的数据还 ...

  9. python及格率公式_用Python编写成绩管理分析系统(故事升级版)

    目录 项目总览 生活小故事引入 微风和煦,散乱在办公桌上的测验小试卷还有几分"热度",在小学助教的小王老师刚刚批改完昨天的语文单元测评,显得有些疲惫,但脸上却是慢慢的欣慰.看来通过 ...

最新文章

  1. a java runtime envi_认识java
  2. 文件“D:\file.txt”正由另一进程使用,因此该进程无法访问该文件。
  3. Android内存泄漏总结
  4. [html] http中的301、302、307、308有什么区别?
  5. 51 SD配置-定价配置-维护定价过程
  6. 类Array对象中是否该直接使用Array的原型方法?
  7. python使用opencv保存视频_Pythone OpenCV学习笔记之:视频文件读取与保存
  8. 【原创】公司各个阶段 CTO 需要做什么?(上篇)
  9. ]Vi/Vim查找替换使用方法
  10. ida pro6.4 linux安装使用
  11. 算法导论适合c语言吗,看《算法导论》需要多好的数学基础?
  12. 第一篇:阿里数据中台之数据中台顶层设计
  13. Java学习日记(一)
  14. PS 如何去除光晕的黑色背景
  15. SQL中PIVOT的用法
  16. CSS库 Tailwind
  17. (图解)循环队列的三种判断队空、队满操作(附带源码和插入删除操作等一些基本操作)
  18. 基于Java毕业设计智能化车辆管理综合信息平台源码+系统+mysql+lw文档+部署软件
  19. 实现打印当前路径下所有文件名的命令_Linux 命令(二)
  20. 用IO口时注意是FT和TTa

热门文章

  1. php 框架注解,laravel框架常用的注解
  2. web页面设计的几个案例
  3. java swing 简单计算器_用java swing编写一个简单的计算器
  4. c++11:nlohmann::json进阶使用(三)使用basic_json模板类
  5. fis3 的安装过程
  6. 【c++递推递归算法】放苹果(详细代码+图解+解题思路)
  7. FDFS_Ubuntu部署fdfs测试上传文件不成功
  8. MFC入门基础(十二)控件 CScrollBar的使用
  9. [运维] 华为交换机使用笔记
  10. 机器视觉 手部关键点检测(手部识别)安卓应用App(Hand Tracking)基于mediapipe。