大数据文摘出品

作者:张弛、王奇文、蒋宝尚

2019年5月1日,美剧《生活大爆炸》最后一集正式宣布杀青,于北京时间5月17日早8点播出,时长达一个小时。这部陪伴观众成长了12年的美剧,已与全球观众告别。

如果说《老友记》是上一代的美剧青春,那《生活大爆炸》无疑是今天90后这一代人精神版图中不可或缺的部分。

12年对全球观众意味着多久?中学6年,大学4年,毕业2年,从懵懂到成熟,整个青春时代……

这12年,剧中角色遇到了各自的真爱,经历了各自的得失,我们也毕业、告别、成家、生子。

剧中人物各具特色,在他们身上,我们或多或少能够看到自己的影子。文摘菌作为多年美剧《生活大爆炸》的粉丝,抛开情感不谈,在看完生活大爆炸最后一集,我开始纳闷,到底谁是《生活大爆炸》的主角?

是虽然高智商天才但是个偏执狂谢尔顿?还是感情丰富却优柔寡断的莱纳德?又或者是一向被称为“妈妈的好孩子”却好色的霍华德?还是表面害羞客观,内心花花公子的拉杰什?

一千个读者心中有一千个哈姆雷特,每个人对于谁是主角都有不同的答案,但是文摘菌利用数据分析出,到底谁是《生活大爆炸》中的C位。

为了确定这个问题的答案,文摘菌从GitHub中下载了《生活大爆炸》九季的剧情,并且用不同的参数来找出谁是最突出的。

整个分析是使用Python完成的,数据集本身已经被处理的很好,每个场景以及每个人的对白都已经被提取了出来,并以json文件存储。文摘菌将文件转换成结构数据的过程中省了不少力气。

数据集地址:

https://github.com/skashyap7/TBBTCorpus

数据分析部分代码地址:

https://github.com/wqw547243068/Python-learning/blob/master/courses/chapter_3/big_bang_theory.ipynb?tdsourcetag=s_pcqq_aiomsg

谢耳朵助攻女友跻身主角

首先,看看每个人的台词。因为无法得到每个角色在屏幕中实际出现的时间,所以每个人的台词量可以作为一个合理的估算标准,所以究竟是哪位的台词最多呢。

谢尔顿十多万的台词数目排在第一位,而莱纳德虽然排在了第二位,但是和谢尔顿相差一倍。卡蕾·措科饰演的Penny作为唯一的女主角当仁不让的超过了霍华德和拉杰什排在了第三位。Amy出现在电视剧中第三季最后一集,虽然只是霍华德通过婚介网偷偷帮谢尔顿找的女朋友,但是作为第四季以及之后的班底人物,妥妥的跻身女主角行列。

演员们说了这么多台词,那么什么是他们口中最经常出现的台词呢?

经过分析,选出了出现频率为top30的词汇,去掉The、to、a、of等停用词,发现几“I”和“you”在每位主角的台词中出现频率最高,这也符合本剧的设置,因为大多数笑点包袱是通过对话抖出来的。

除此之外,莱纳德喜欢说Know、Penny喜欢说oh~谢尔顿喜欢也喜欢说Know,值得一提的是,在9季电视剧中,他叫了莱纳德657次。作为谢尔顿的女友,Amy当然叫谢尔顿的次数最多啦~足足有266次。另外,霍华德和拉杰什喊的台词最多也是know。

有了“I”和“you”出现的次数,完全可以假定当“I”出现的时候,角色必然会出现在荧幕上,这在一定程度上能够反映导演给的镜头数量~

数据结果非常有趣,谢尔顿仍然是冠军,其他排名和台词数量保持一致,值得注意的是,莱纳德和Penny镜头相差无几,霍华德和拉杰什的镜头数量相差不多,而作为后登场的Amy显然不如她的几位“前辈”。

那么,考虑全部的台词,各位主角的名字出现了多少次呢?显然,这也是非常能够体现各位主角地位的地方。

显然,分析结果和上面的稍微 不一样,拉杰什稍逊Amy一筹,毕竟作为谢尔顿的女友,台词之王给予的助攻是不可忽略的。

谢尔顿多榜第一霸占C位

来,快速回顾一下。

  • 谢尔顿的台词数量最多,超过第二名将近一倍。单词数量的情况与台词量类似。

  • 谢尔顿在银幕上的出场次数最多,莱纳德和Penny镜头相差无几,霍华德和拉杰什的镜头数量相差不多。

  • 谢尔顿这个名字在剧情中也是出现最多的,有趣的是。他叫了莱纳德的名字657次。

综合考虑,谢尔顿是生活大爆炸中当之无愧的主角,无论是台词数目,还是镜头以及名字出现的次数都是冠军,作为后出场的Amy,导演在后几季的时候也给与了充分的戏份。

大家都是公寓控

做《生活大爆炸》的数据分析真的很有趣,除了分析谁是主角外,我发现了一些你可能会感兴趣的其他事实。

整个电视剧发生的场景非常多,对白发生最多的地方当属他们的公寓,其次是餐厅,对白发生在房间的比例也达到了4.45%。

那么,各位主角最喜欢在哪个场景发表看法呢?

从上面的热力图可以看出,大家都是公寓控。而谢尔顿先生无论是在床上,房间、餐厅、汽车都妥妥的比其他演员的台词要多。另外,可以看出整体的台词分布,基本符合场景安排,没有哪个角色钟爱哪个场景。

公寓是对白发生最多的地方,我们来瞧瞧有没有属于角色的专属词汇!

在公寓,谢耳朵爱说oh以及my

莱纳德:What?

penny:oh~

霍华德:my、do、me

Raj:my、me、was

Amy:谢耳朵!

电影中的出场人物除了这几位主角之外,其他角色也有比较多的戏份,文摘菌粗略统计了一下,发现2009年在第三季的客串角色Bernadette台词占比也有接近5% 。作为剧中三号人物霍华德的女友,台词数量虽然比不上一号人物的女朋友,但是也相差确实不多。

作为艺术学校出身,其实在刚开始出场时也是看起来怂一点的Stuart也有不少戏份,但总归不是主角,台词占比只有1.23%。

最后,用开头那张合照做了整体台词的词云可视化,算是对这部陪伴了我们12年的美剧的一个告别吧~

当然,抛开数据分析,在美剧《生活大爆炸》中你最喜欢的是谁呢?在下方留言告诉文摘菌吧!

临别给《生活大爆炸》做个台词数据分析,你猜谢耳朵最爱说什么?相关推荐

  1. 用Excel做一次数据分析(二)——一次简单的分析

    接上一篇:用Excel做一次数据分析(一)--爬取前程无忧(51job)的招聘信息 得到了数据(截止2020-8-12)后,接下来可以开始数据清洗和分析的工作了: 总体步骤: 数据获取--这里用pyt ...

  2. [案例分享]根据现有产品数据,如何做一次数据分析呢?

    需求分析师是否适合做数据分析?这是我最近在想的问题. 需求分析是基于业务场景的商业化分析,不是技术分析,但需求分析的过程包含了数据分析,用数据驱动产品开发这完全是可能的,从数据中找到产品运营的不足,从 ...

  3. 做BI财务数据分析,国产BI软件经验更足

    不管是为了提高销售额,还是为了提高库存周转.疏通现金流,都离不开数据分析,特别是BI大数据分析可视化.因此这几年来BI软件在各行各业的接受度迅速提升,特别是在财务数据分析方面,国产BI软件更是经验.技 ...

  4. 利用Python和Power BI做Yelp大数据分析项目

    利用Python和Power BI做Yelp大数据分析项目 项目介绍: 1.项目需求: 寻找影响用户对商户评价和评分的关键因素有哪些? 2.项目难点: 数据量比较大,数据清洗后需要重点观察的指标,如r ...

  5. android家长控制软件,三款家长控制软件,你猜家长更爱谁?

    原标题:三款家长控制软件,你猜家长更爱谁? 孩子沉迷手机游戏?熬夜聊天看视频? 这是目前很多家长担心的问题,由于智能设备的迅速发展,手机以丰富的功能快速的俘获了孩子,使他们成为无时无刻的"低 ...

  6. 生活大爆炸(TBBT): 台词爬取、词云生成与NLP分析

    <生活大爆炸>(英文:The Big Bang Theory 简称:TBBT)广受喜爱(据说还可以练听力练口语blabla),去年随着第12季的播出而完结,最近也算是在补.有一天闲聊的时候 ...

  7. 如何做简单的数据分析

    有人问我该如何做数据分析.其实数据分析的过程是相对固定的,分析结论的差异性主要是分析者的视点.虽然比较固定,我还是结合了自己写文章的心得,整理出这份ppt.希望对于徘徊在数据分析门口的人有用.整理的过 ...

  8. 做了三年数据分析,给你的几点建议

    还有一个多月,我工作就满3年了.在职场上,3年是个坎,意味着从初级转到中高级,但前提是能力跟得上工作年限. 我第一份和第二份工作,是做的数据运营,现在这份工作,title是商业分析师.因为专业不是数学 ...

  9. python数据分析做什么作业好_知识星球 | 说说我为什么要做『python数据分析』社群...

    过去一段时间,很多人会问我: "现在的工作没有前途,该如何转行?" "我知道数据时代已经来了,我该如何学习,不让自己落伍?" "数据分析适用于生活和工 ...

  10. 用python-sklearn做广州房价预测——以此为例说明如何使用python做简单的数据分析

    0 数据 广州市二手房价数据 大概有500条广州市二手房价数据 python数据导入 import numpy as np import pandas as p #画图包导入 import matpl ...

最新文章

  1. tkinter button 一个按钮第二次回复_python-tkinter使用方法
  2. 收藏:存储知识全面总结
  3. CentOS装LAMP服务器(Apache2+PHP5+MySQL)
  4. matlab 不同长度的向量放入一个矩阵,Matlab:将不同长度的行叠加到矩阵上
  5. 基于主成分分析与支持向量机的人脸识别
  6. SAP Spartacus Visible Focus
  7. 首届大湾区 DevOps/微服务秋季分享会圆满落幕!
  8. FindBugs和JSR-305
  9. 【CodeForces - 1066A~E】水题,模拟(有技巧),思维,题意难懂的模拟,二进制问题(有技巧)
  10. 从入门到精通进阶篇 - 设置负载阶梯式压测场景(详解教程)
  11. 页面内部DIV让点击外部DIV 事件不发生(阻止冒泡事件)
  12. 通俗易懂理解Attention机制
  13. MySQL 5.5.31 procedure 的语法规则细节
  14. WEBQQ登陆综合帖
  15. 最全面计算机英语单词列表(二)
  16. 关闭NV显卡的优化功能
  17. c语言曲率计算,曲率及其曲率半径及计算.ppt
  18. (转载)七剑下天山,独领自动化测试技术
  19. python图像拼接_python实现两张图片拼接为一张图片并保存
  20. html标签:表格、列表、图片、文字、表单、以及h5新增特性

热门文章

  1. mac虚拟机改显存_不同mac虚拟机下性能表现对比
  2. 第39级台阶--递归
  3. python row_python – 用于getrow的Scipy稀疏矩阵替代()
  4. 每日哲学与编程练习3——无重复数字(Python实现)
  5. 德州大学达拉斯分校计算机专业博士,德克萨斯大学达拉斯分校计算机科学理科硕士入学条件及实习就业...
  6. 第二部分 项目管理标准
  7. 谷歌浏览器 performance 详解
  8. Winedit 下载第三方库
  9. 搜索与问答——【NeurIPS 2021】BEIR:信息检索模型零样本评估的异构基准
  10. ExtJS界面设计工具 Ext Designer