作者 | AJ-Gordon

责编 | 刘静

项目背景

上个月笔者的一个同学开了间影视投资公司,出于对创业人员的仰慕和影视投资行业的好奇,我就跟他寒暄了几句,聊天当中他提及到国庆节有部《攀登者》即将上映,预计票房会大好,因为吴京是这部片的主演。然后我就想,目前吴京在国内演员中位列几何呢?正好之前爬了猫眼电影数据,基于python数据分析的方式,分析中国演员排名情况。

数据导入

导入之前爬取到的猫眼数据,由于爬取过程不是本文的主要内容,所以简单描述下数据情况:20110101至20191019年在中国上映,并且有用户评分和票房的影片,总共是2923部。

import pandas as pdfrom sklearn.preprocessing import StandardScalerfrom sklearn.cluster import KMeanspd.set_option('display.max_columns', None)pd.set_option('display.max_rows', None)# 加载数据defload_data():# 加载电影票房open_filepath = 'D:\pythondata\\3、猫眼电影\\box_result.csv' movie_box = pd.read_csv(open_filepath) movie_box = movie_box[['电影id', '电影名称','首映日期','总票房']].drop_duplicates()# 加载电影信息 open_filepath = 'D:\pythondata\\3、猫眼电影\\maoyan_movie.xlsx' movie_message = pd.read_excel(open_filepath,sheet_name='maoyan_movie') movie_message.columns = ['电影url','电影名称','电影题材','国家','上映时间','用户评分','电影简介','导演/演员/编剧'] movie_message = movie_message[['电影url','电影题材','国家','用户评分','导演/演员/编剧']].copy() movie_message.drop_duplicates(inplace=True) movie_message['电影id'] = movie_message.apply(lambda x:x['电影url'].replace('https://maoyan.com/films/',''),axis=1) movie_message[['电影id']] = movie_message[['电影id']].apply(pd.to_numeric)# 合并电影信息和票房 data = pd.merge(movie_box,movie_message,how='inner',on=['电影id'])return data

数据处理

由于此次只分析中国演员,所以需要剔除国外影片,并将每部影片的演员列表从字段“导演/演员/编剧”中分割出来。

# 只筛选中国的电影data = data[data['国家'].str.contains('中国')]# 剔除空值data = data.dropna(subset=["导演/演员/编剧"])# 将演员列表从字段“导演/演员/编剧”中分割出来data['演员'] = data.apply(lambda x:x['导演/演员/编剧'] if'演员'in x['导演/演员/编剧'] else None,axis=1)data['演员list'] = data.apply(lambda x: ','.join(x['演员'].split('yyyyy')[1].split('xxxxx')[2:]) if pd.notnull(x['演员']) else None,axis=1)# 剔除无演员列表的行data = data.dropna(subset=["演员list"])# 剔除无用字段data.drop(['导演/演员/编剧'],axis=1,inplace=True)data.drop(['演员'],axis=1,inplace=True)

因为考虑到配音类型的影片是看不到演员本人的,所以需要剔除配音类型影片。再将演员列表从行转置列,使得每行电影名称和演员是一一对应的。由于猫眼电影已经按照演员的出场频率进行排序,所以每部影片取前四名演员,作为影片主演,其中多明星合拍的影片,如《我和我的祖国》就改为取前十名。

# 拆分演员列表,并转置成一列data = data.drop("演员list", axis=1).join(data["演员list"].str.split(",", expand=True).stack().reset_index(level=1, drop=True).rename("演员"))# 剔除配音演员data = data[~data['演员'].str.contains('配音')]data['演员'] = data.apply(lambda x: x['演员'].split('饰:')[0] if'饰:'in x['演员'] else x['演员'], axis=1)# 剔除分割演员名称错误的行data = data[~data['演员'].str.contains('uncredited')]data = data[~data['演员'].str.contains('voice')]data = data[~data['演员'].str.contains('Protester')]# 取每部电影的前四名演员,部分影片特殊data_actor = data[['电影id','电影名称','演员']].drop_duplicates()data_actor_top4 = data_actor[data_actor['电影名称']!='我和我的祖国'].groupby(['电影id','电影名称']).head(4)data_actor_top10 = data_actor[data_actor['电影名称']=='我和我的祖国'].groupby(['电影id','电影名称']).head(10)data_actor_top4 = pd.concat([data_actor_top4,data_actor_top10])# 剔除外国演员data_actor_top4['演员名字长度'] = data_actor_top4.apply(lambda x: len(x['演员']),axis=1)data_actor_top4 = data_actor_top4[(data_actor_top4['演员名字长度']<=3)].copy()data_actor_top4.drop("演员名字长度",axis = 1,inplace=True)# 匹配data = pd.merge(data,data_actor_top4,how='inner',on=['电影id','电影名称','演员'])

然后,拆分每部电影的电影题材类型并进行转置,再汇总每个演员出演过的电影题材,排序后取前三个类型,作为演员的拿手题材。

# 拆分电影题材data = data.join(data["电影题材"].str.split(",",expand = True).stack().reset_index(level = 1,drop = True).rename("题材"))# 取每位演员最擅长的电影题材TOP3data_type_actor = data[['电影id','电影名称','演员','题材']].drop_duplicates().groupby(['演员', '题材']).agg({'电影id': 'count'}).reset_index().sort_values(['演员','电影id'],ascending=False)data_type_actor = data_type_actor.groupby(['演员']).head(3)data_type_actor = data_type_actor.groupby(['演员'])['题材'].apply(list).reset_index()data_type_actor['题材'] = data_type_actor['题材'].apply(lambda x: ','.join(str(i) for i inlist(set(x)) ifstr(i) != 'nan'))data_type_actor.rename(columns={'题材': '演员_拿手题材'}, inplace=True)data = pd.merge(data,data_type_actor,how='left',on=['演员'])

数据分析

目前只有“演员总票房”和“影片平均评分”两个字段,可用作描述一个演员综合能力,所以需要衍生一些字段:

电影数量:统计演员主演过的影片数量;

大于10亿票房影片数量:汇总单部影片票房大于10亿的数量;

大于10亿票房影片计分:按照不同票房区间赋予分值,再汇总;

由于部分演员只出演过一部影片,属于单样本,若不剔除,会影响各项指标的数值分布。

actor = result[['演员','总票房','用户评分']].drop_duplicates()# 衍生字段:平均票房、大于10亿票房影片、大于10亿票房影片计分actor['用户评分'] = actor.apply(lambda x:0if x['用户评分']=='暂无评分'else x['用户评分'],axis=1)actor['大于10亿票房影片数量'] = actor.apply(lambda x:1if x['总票房']>100000else0,axis=1)# 按照票房赋予分值defgoal(x):if x['总票房']<=100000:division_goal = 0elif x['总票房']<=200000: division_goal = 1elif x['总票房'] <= 300000: division_goal = 2elif x['总票房'] <= 400000: division_goal = 3elif x['总票房'] <= 500000: division_goal = 4else: division_goal = 5return division_goalactor['大于10亿票房影片计分'] = actor.apply(goal,axis=1)actor['电影数量'] = 1actor['用户评分'] = pd.to_numeric(actor['用户评分'])actor['大于10亿票房影片数量'] = pd.to_numeric(actor['大于10亿票房影片数量'])actor['大于10亿票房影片计分'] = pd.to_numeric(actor['大于10亿票房影片计分'])# 汇总actor2 = actor.groupby(['演员']).agg({'总票房': 'sum','大于10亿票房影片数量': 'sum','大于10亿票房影片计分': 'sum','电影数量': 'count','用户评分':'mean',}).reset_index()# 筛选影片数量大于1的行——只有一部影片的演员设为单样本,会影响标准化的结果actor2 = actor2[actor2['电影数量']>1].reset_index(drop=True)

最后,由于数值字段之间的量纲不同,需要进行标准化处理后才可以进行比较。“演员总票房”的高低是衡量一个演员能力的重要因素,这里笔者将“大于10亿票房影片数量”和“大于10亿票房影片计分”也作为两点重要因素,而“影片平均评分”和“电影数量”作为次要因素,最终标准化处理后的计算公式:

总分=演员总票房+大于10亿票房影片数量+大于10亿票房影片计分+0.5*影片平均评分+0.5*电影数量

这里笔者曾用K-means聚类算法将演员划分为四个集群,通过查看集群的分布情况后发现,划分结果与上述公式计算后的总分排名情况十分相似(比如,总分1-20名划分成集群1,21-50名划分成集群2),所以取消了用聚类算法的方式划分演员档次。

# 复制一份副本actor_copy = actor2.copy()# 标准化处理scaler = StandardScaler()numeric_features = actor2.dtypes[actor2.dtypes != 'object'].indexscaler.fit(actor2[numeric_features])scaled = scaler.transform(actor2[numeric_features])for i, col in enumerate(numeric_features):actor2[col] = scaled[:, i]# 划分演员档次:权重求和,根据分值排序result = actor2.apply(lambda x: x['总票房']+x['大于10亿票房影片数量']+x['大于10亿票房影片计分']+0.5*x['电影数量']+0.5*x['用户评分'],axis=1)# # 划分演员档次——方法2:采用聚类算法,自动分成4个组# actor_model = actor2[['总票房', '大于10亿票房影片数量', '大于10亿票房影片计分','电影数量','用户评分']].values# y_pred = KMeans(n_clusters=4, random_state=9).fit_predict(actor_model)# result2 = pd.Series(y_pred)# 合并两种结果model_actor_reuslt = pd.concat([actor_copy, result], axis=1)model_actor_reuslt.rename(columns={0: '总分'},inplace=True)model_actor_reuslt = model_actor_reuslt.sort_values('总分',ascending=False).reset_index(drop=True)

数据描述

由于工作上经常使用BI工具tableau进行图表制作,因此下列的图表均用tableau绘制。其实pyecharts生成的图表也十分美观,为了方便这里就不用这个库画图了,有兴趣的小伙伴也可以了解下这个库。

先从整体上对电影的概况进行描述分析,才能更好地理解演员各项指标高低的优劣程度。首先,2011年至今,国内上映的影片总共是2129部,其中10亿票房以上的影片只有39部,占了总体的0.02%。

图1-1 电影总数

目前国内影片最高票房已经到50-60亿之间,只有一部。40-50亿只有两部,大部分10亿以上的票房都集中在10-20亿之间。

图1-2 电影票房区间

整体上,剧情、喜剧和爱情类型的电影题材拍得最多,而灾难类型的电影最少。从热门和冷门的电影题材中,很好地诠释了“报喜不报忧”这句成语,毕竟每个走进电影院的人都希望能轻松愉快地度过这两个小时。所以10亿以上票房的影片中,喜剧类型的电影题材反而排在了第一位。

图1-3 电影题材

从电影上映时间轴中可以看出,整体上,17年之前上映的影片逐年增加,但在17年之后有所下降。而10亿以上票房的影片每年都在增加,侧面说明近几年国内电影影片质量有所上升。

图1-4 电影上映时间轴

最后,将全部图表放到同一个仪表板中,可以很方便地看到10亿以上票房的影片分布情况,以及具体的影片名称。其中,2012年的《人在囧途之泰囧》是国内第一部10亿+票房影片,2015年的《捉妖记》是首部20亿+票房影片,2016年的《美人鱼》是首部30亿+票影片,2017年的《战狼2》是首部50亿+票房影片,而2019年的《流浪地球》和《哪吒之魔童降世》是唯一两部40亿+票房影片。从这个时间轴可以看出,自2015年起,每年最高票房都比前年多出10亿以上。

图1-5 电影概况

根据上述的计算公式得到总分TOP10的名单,前三名分别是黄渤、吴京和沈腾。这也难怪笔者的同学会对吴京出演的影片信心那么高。

图2-1 演员总分排名

汇总每个演员主演的电影票房后,得到总票房TOP10的名单,目前国内百亿票房均是男演员,分别是吴京、黄渤、杜江和沈腾。其中吴京已经是150亿票房冠军,而让笔者比较意想不到的是杜江也上了百亿榜,虽然他参演的几部热门影片,如《红海行动》、《我和我的祖国》和《中国机长》都不是第一主演,但这几部都是10亿+票房影片,是不是能说明他存在某些旺票房特质呢?

图2-2 演员总票房

再来看看演员电影数量TOP10的分布情况,可以看到前几名都是香港演员,其中古天乐在7年内主演了36部影片,位列榜首。除了影片数量位列榜首外,其实平平无奇的古仔已经默默地捐赠了100多所学校,这也许就是他当上电影“劳模”的原因吧。

图2-3 演员电影数量

最后,将上述三张图表和详细列表放到同个仪表板中,就可以清楚地知道,能够位列前茅的演员都是主演过多部影片,并且拥有多部10亿+票房影片。其中有一个比较有趣的地方是王宝强的影片平均评分是6.3,但他仍然能够排到第七名,原因是他主演过几部评分在5分以下的影片,才导致他平均评分会这么低。

图2-4 演员概况

结语

本文旨在让大家了解一下国内电影的整体概况和演员概况,所以只是简单地对数据进行描述性分析,并没有运用到机器学习这方面的知识。一般地,描述性分析是做数据分析必不可少的一步,通过简单的几个图表就能直观地对数据有整体上的认知。最后也要谢谢同事Yan姐的一些指导。

作者简介:AJ-Gordon,数据分析师一枚,对爬虫、机器学习、数据可视化、数据建模均有所涉猎。

声明: 本文为作者原创投稿,未经允许请勿转载。

python排名分析_如何通过 Python 分析中国演员排名?相关推荐

  1. 程序员用 Python 分析中国演员排名,票房最高的是意料之中的他

    @项目背景 一个同学开了间影视投资公司,出于对创业人员的仰慕和影视投资行业的好奇,我就跟他寒暄了几句,聊天当中他提及到国庆节有部<攀登者>即将上映,预计票房会大好,因为吴京是这部片的主演. ...

  2. 如何通过Python分析中国演员排名?他第一你认可吗?

    项目背景 上个月笔者的一个同学开了间影视投资公司,出于对创业人员的仰慕和影视投资行业的好奇,我就跟他寒暄了几句,聊天当中他提及到国庆节有部<攀登者>即将上映,预计票房会大好,因为吴京是这部 ...

  3. 软科2018大学计算机,2018中国大学排名新发:软科2018中国大学排名结果

    [导语]教育要使人愉快,要让一切的教育带有乐趣.无忧考网为大家准备了以下内容,希望对大家有所帮助! 2018年2月26日,作为全球四大大学排名系统之一,拥有15年历史的"世界大学学术排名(A ...

  4. python股票数据分析_如何使用Python进行股票的金融数据量化分析

    Python作为一门高ji语言是很好用的,语法简单,通俗易懂,非chang容易上手,丰富的第三方库支持使得开发速度快,相对于其他编程语言来说,初学者入门并不困难.它只是一门语言工具,zui终还是要将这 ...

  5. python 算法设计与分析_算法设计与分析(黄建军)

    spContent=本课基于主讲教师在北京大学讲授数据结构与算法课(Python版)的多年教学实践经验,面向具有Python语言程序设计基础的大学生和社会公众,介绍常见的基本数据结构以及相关经典算法, ...

  6. python彩票结果分析_天啦噜!Python多线程居然是骗人的?

    Python解释执行原理 我是一个Python线程,我的工作就是解释执行程序员编写的Python代码. 之所以说是解释执行,是因为Python是高级语言,CPU那家伙不认识Python代码,需要运行的 ...

  7. python智能机器人原理_人工智能和Python是什么关系?详细分析!

    提及到人工智能很多人都会想到Python语言,对于很多人来说Python和人工智能几乎为等号模式,那么Python和人工智能属于什么关系呢?为大家简单的介绍一下. Python是一种计算机程序设计语言 ...

  8. python基因差异分析_差异表达基因的分析(2)

    应学生及个别博友的要求,尽管专业博文点击率和反应均很差,但在去San Diego参加PAG会议之前,还是抽时间给出[R高级教程]的第二专题.专题一给出了聚类分析的示例,本专题主要谈在表达谱芯片分析中如 ...

  9. 自助分析_为什么自助服务分析真的不是一回事

    自助分析 That title probably got your attention and now you think I have some explaining to do! The key ...

最新文章

  1. 急招 Golang 熟手,来做 5G 事业。
  2. Python爬虫小实践:寻找失踪人口,爬取失踪儿童信息并写成csv文件,方便存入数据库...
  3. 专家称 AI 可以在 120 年内接管人类的所有工作
  4. Greenplum5单机部署连接报错 System was started in master-only utility mode问题修复
  5. python乐观锁代码实现_Django的乐观锁与悲观锁实现
  6. 深度学习之卷积神经网络CNN理论与实践详解
  7. 免杀需要的基本汇编知识
  8. java泛型 之 入门(interface)
  9. 【优化调度】基于matlab粒子群算法求解梯级水电站调度优化问题【含Matlab源码 065期】
  10. oracle erp 用户手册,oracleerp用户手册-mrp
  11. linux vim -b详解,linux vim
  12. 如何进行 JVM 调优
  13. Notes Twenty one days-渗透攻击-红队-权限提升
  14. 【专题5: 硬件设计】 之 【62.案例四:简易空气净化器,完整原理图】
  15. 关于mysql的mysqlAccess denied for user'root'@'IP地址'
  16. CSDN周赛第32期:赢图书《金融级IT架构:数字银行的云原生架构解密》 和定制周边
  17. ENVI制作土壤干旱墒情专题图/地域干旱分布
  18. 蒙特卡洛模拟电动汽车充电matlab,基于蒙特卡洛模拟的电动汽车充电负荷预测
  19. 现实环境中,关于Teb Local Planner 参数调试总结
  20. python批量添加qq好友_python实现QQ批量登录功能

热门文章

  1. Cifar-10训练记录
  2. 微软之行总结(删节稿)
  3. Android ios
  4. 解决Office Excel文档打开显示空白
  5. 上机管理系统java_机房上机安排管理系统,基于B/S模式下的JAVA系统
  6. POI解析03版07版Word
  7. 浪潮NF5280M5服务器配置RAID
  8. 全世界最著名的经济金融学网站
  9. android word转html标签,移动端html展示word文档转换方法
  10. origin作图 基础中的基础 一图一opj