临别给《生活大爆炸》做个台词数据分析,你猜谢耳朵最爱说什么?
大数据文摘出品
作者:张弛、王奇文、蒋宝尚
2019年5月1日,美剧《生活大爆炸》最后一集正式宣布杀青,于北京时间5月17日早8点播出,时长达一个小时。这部陪伴观众成长了12年的美剧,已与全球观众告别。
如果说《老友记》是上一代的美剧青春,那《生活大爆炸》无疑是今天90后这一代人精神版图中不可或缺的部分。
12年对全球观众意味着多久?中学6年,大学4年,毕业2年,从懵懂到成熟,整个青春时代……
这12年,剧中角色遇到了各自的真爱,经历了各自的得失,我们也毕业、告别、成家、生子。
剧中人物各具特色,在他们身上,我们或多或少能够看到自己的影子。文摘菌作为多年美剧《生活大爆炸》的粉丝,抛开情感不谈,在看完生活大爆炸最后一集,我开始纳闷,到底谁是《生活大爆炸》的主角?
是虽然高智商天才但是个偏执狂谢尔顿?还是感情丰富却优柔寡断的莱纳德?又或者是一向被称为“妈妈的好孩子”却好色的霍华德?还是表面害羞客观,内心花花公子的拉杰什?
一千个读者心中有一千个哈姆雷特,每个人对于谁是主角都有不同的答案,但是文摘菌利用数据分析出,到底谁是《生活大爆炸》中的C位。
为了确定这个问题的答案,文摘菌从GitHub中下载了《生活大爆炸》九季的剧情,并且用不同的参数来找出谁是最突出的。
整个分析是使用Python完成的,数据集本身已经被处理的很好,每个场景以及每个人的对白都已经被提取了出来,并以json文件存储。文摘菌将文件转换成结构数据的过程中省了不少力气。
数据集地址:
https://github.com/skashyap7/TBBTCorpus
数据分析部分代码地址:
https://github.com/wqw547243068/Python-learning/blob/master/courses/chapter_3/big_bang_theory.ipynb?tdsourcetag=s_pcqq_aiomsg
谢耳朵助攻女友跻身主角
首先,看看每个人的台词。因为无法得到每个角色在屏幕中实际出现的时间,所以每个人的台词量可以作为一个合理的估算标准,所以究竟是哪位的台词最多呢。
谢尔顿十多万的台词数目排在第一位,而莱纳德虽然排在了第二位,但是和谢尔顿相差一倍。卡蕾·措科饰演的Penny作为唯一的女主角当仁不让的超过了霍华德和拉杰什排在了第三位。Amy出现在电视剧中第三季最后一集,虽然只是霍华德通过婚介网偷偷帮谢尔顿找的女朋友,但是作为第四季以及之后的班底人物,妥妥的跻身女主角行列。
演员们说了这么多台词,那么什么是他们口中最经常出现的台词呢?
经过分析,选出了出现频率为top30的词汇,去掉The、to、a、of等停用词,发现几“I”和“you”在每位主角的台词中出现频率最高,这也符合本剧的设置,因为大多数笑点包袱是通过对话抖出来的。
除此之外,莱纳德喜欢说Know、Penny喜欢说oh~谢尔顿喜欢也喜欢说Know,值得一提的是,在9季电视剧中,他叫了莱纳德657次。作为谢尔顿的女友,Amy当然叫谢尔顿的次数最多啦~足足有266次。另外,霍华德和拉杰什喊的台词最多也是know。
有了“I”和“you”出现的次数,完全可以假定当“I”出现的时候,角色必然会出现在荧幕上,这在一定程度上能够反映导演给的镜头数量~
数据结果非常有趣,谢尔顿仍然是冠军,其他排名和台词数量保持一致,值得注意的是,莱纳德和Penny镜头相差无几,霍华德和拉杰什的镜头数量相差不多,而作为后登场的Amy显然不如她的几位“前辈”。
那么,考虑全部的台词,各位主角的名字出现了多少次呢?显然,这也是非常能够体现各位主角地位的地方。
显然,分析结果和上面的稍微 不一样,拉杰什稍逊Amy一筹,毕竟作为谢尔顿的女友,台词之王给予的助攻是不可忽略的。
谢尔顿多榜第一霸占C位
来,快速回顾一下。
谢尔顿的台词数量最多,超过第二名将近一倍。单词数量的情况与台词量类似。
谢尔顿在银幕上的出场次数最多,莱纳德和Penny镜头相差无几,霍华德和拉杰什的镜头数量相差不多。
谢尔顿这个名字在剧情中也是出现最多的,有趣的是。他叫了莱纳德的名字657次。
综合考虑,谢尔顿是生活大爆炸中当之无愧的主角,无论是台词数目,还是镜头以及名字出现的次数都是冠军,作为后出场的Amy,导演在后几季的时候也给与了充分的戏份。
大家都是公寓控
做《生活大爆炸》的数据分析真的很有趣,除了分析谁是主角外,我发现了一些你可能会感兴趣的其他事实。
整个电视剧发生的场景非常多,对白发生最多的地方当属他们的公寓,其次是餐厅,对白发生在房间的比例也达到了4.45%。
那么,各位主角最喜欢在哪个场景发表看法呢?
从上面的热力图可以看出,大家都是公寓控。而谢尔顿先生无论是在床上,房间、餐厅、汽车都妥妥的比其他演员的台词要多。另外,可以看出整体的台词分布,基本符合场景安排,没有哪个角色钟爱哪个场景。
公寓是对白发生最多的地方,我们来瞧瞧有没有属于角色的专属词汇!
在公寓,谢耳朵爱说oh以及my
莱纳德:What?
penny:oh~
霍华德:my、do、me
Raj:my、me、was
Amy:谢耳朵!
电影中的出场人物除了这几位主角之外,其他角色也有比较多的戏份,文摘菌粗略统计了一下,发现2009年在第三季的客串角色Bernadette台词占比也有接近5% 。作为剧中三号人物霍华德的女友,台词数量虽然比不上一号人物的女朋友,但是也相差确实不多。
作为艺术学校出身,其实在刚开始出场时也是看起来怂一点的Stuart也有不少戏份,但总归不是主角,台词占比只有1.23%。
最后,用开头那张合照做了整体台词的词云可视化,算是对这部陪伴了我们12年的美剧的一个告别吧~
当然,抛开数据分析,在美剧《生活大爆炸》中你最喜欢的是谁呢?在下方留言告诉文摘菌吧!
临别给《生活大爆炸》做个台词数据分析,你猜谢耳朵最爱说什么?相关推荐
- 用Excel做一次数据分析(二)——一次简单的分析
接上一篇:用Excel做一次数据分析(一)--爬取前程无忧(51job)的招聘信息 得到了数据(截止2020-8-12)后,接下来可以开始数据清洗和分析的工作了: 总体步骤: 数据获取--这里用pyt ...
- [案例分享]根据现有产品数据,如何做一次数据分析呢?
需求分析师是否适合做数据分析?这是我最近在想的问题. 需求分析是基于业务场景的商业化分析,不是技术分析,但需求分析的过程包含了数据分析,用数据驱动产品开发这完全是可能的,从数据中找到产品运营的不足,从 ...
- 做BI财务数据分析,国产BI软件经验更足
不管是为了提高销售额,还是为了提高库存周转.疏通现金流,都离不开数据分析,特别是BI大数据分析可视化.因此这几年来BI软件在各行各业的接受度迅速提升,特别是在财务数据分析方面,国产BI软件更是经验.技 ...
- 利用Python和Power BI做Yelp大数据分析项目
利用Python和Power BI做Yelp大数据分析项目 项目介绍: 1.项目需求: 寻找影响用户对商户评价和评分的关键因素有哪些? 2.项目难点: 数据量比较大,数据清洗后需要重点观察的指标,如r ...
- android家长控制软件,三款家长控制软件,你猜家长更爱谁?
原标题:三款家长控制软件,你猜家长更爱谁? 孩子沉迷手机游戏?熬夜聊天看视频? 这是目前很多家长担心的问题,由于智能设备的迅速发展,手机以丰富的功能快速的俘获了孩子,使他们成为无时无刻的"低 ...
- 生活大爆炸(TBBT): 台词爬取、词云生成与NLP分析
<生活大爆炸>(英文:The Big Bang Theory 简称:TBBT)广受喜爱(据说还可以练听力练口语blabla),去年随着第12季的播出而完结,最近也算是在补.有一天闲聊的时候 ...
- 如何做简单的数据分析
有人问我该如何做数据分析.其实数据分析的过程是相对固定的,分析结论的差异性主要是分析者的视点.虽然比较固定,我还是结合了自己写文章的心得,整理出这份ppt.希望对于徘徊在数据分析门口的人有用.整理的过 ...
- 做了三年数据分析,给你的几点建议
还有一个多月,我工作就满3年了.在职场上,3年是个坎,意味着从初级转到中高级,但前提是能力跟得上工作年限. 我第一份和第二份工作,是做的数据运营,现在这份工作,title是商业分析师.因为专业不是数学 ...
- python数据分析做什么作业好_知识星球 | 说说我为什么要做『python数据分析』社群...
过去一段时间,很多人会问我: "现在的工作没有前途,该如何转行?" "我知道数据时代已经来了,我该如何学习,不让自己落伍?" "数据分析适用于生活和工 ...
- 用python-sklearn做广州房价预测——以此为例说明如何使用python做简单的数据分析
0 数据 广州市二手房价数据 大概有500条广州市二手房价数据 python数据导入 import numpy as np import pandas as p #画图包导入 import matpl ...
最新文章
- tkinter button 一个按钮第二次回复_python-tkinter使用方法
- 收藏:存储知识全面总结
- CentOS装LAMP服务器(Apache2+PHP5+MySQL)
- matlab 不同长度的向量放入一个矩阵,Matlab:将不同长度的行叠加到矩阵上
- 基于主成分分析与支持向量机的人脸识别
- SAP Spartacus Visible Focus
- 首届大湾区 DevOps/微服务秋季分享会圆满落幕!
- FindBugs和JSR-305
- 【CodeForces - 1066A~E】水题,模拟(有技巧),思维,题意难懂的模拟,二进制问题(有技巧)
- 从入门到精通进阶篇 - 设置负载阶梯式压测场景(详解教程)
- 页面内部DIV让点击外部DIV 事件不发生(阻止冒泡事件)
- 通俗易懂理解Attention机制
- MySQL 5.5.31 procedure 的语法规则细节
- WEBQQ登陆综合帖
- 最全面计算机英语单词列表(二)
- 关闭NV显卡的优化功能
- c语言曲率计算,曲率及其曲率半径及计算.ppt
- (转载)七剑下天山,独领自动化测试技术
- python图像拼接_python实现两张图片拼接为一张图片并保存
- html标签:表格、列表、图片、文字、表单、以及h5新增特性
热门文章
- mac虚拟机改显存_不同mac虚拟机下性能表现对比
- 第39级台阶--递归
- python row_python – 用于getrow的Scipy稀疏矩阵替代()
- 每日哲学与编程练习3——无重复数字(Python实现)
- 德州大学达拉斯分校计算机专业博士,德克萨斯大学达拉斯分校计算机科学理科硕士入学条件及实习就业...
- 第二部分 项目管理标准
- 谷歌浏览器 performance 详解
- Winedit 下载第三方库
- 搜索与问答——【NeurIPS 2021】BEIR:信息检索模型零样本评估的异构基准
- ExtJS界面设计工具 Ext Designer