Kaggle TMDB电影数据分析项目实战
分析步骤
- Kaggle TMDB电影数据分析项目实战
- 数据集
- 分析结果
Kaggle TMDB电影数据分析项目实战
注:该项目为博主第一次数据分析项目,代码部分参考了:这篇文章。
希望大家支持一下原作者。从下一篇开始将全部为原创项目。请大家多多支持。
数据集
在分析之前,首先要将拿到的数据处理成可以分析的格式。本项目使用kaggle的开源数据集:TMDB 5000 Movie Dataset 它是kaggle官方从IMDB的数据中截取出来供研究者们发掘究竟是什么元素决定着电影业的盈利与亏损的。
数据集总共由两个文件组成:tmdb_5000_credits.csv和tmdb_5000_movies.csv。
分析结果
第一个文件包含了电影的名称、演员阵容以及拍摄队伍。后者则是其他的内容。通过Python分析过后,我们得到了:不同电影类型的数量随时间变化的曲线图以及1916-2017年间不同类型电影数量的统计图:
从两个图可知自电影产业兴起以来Drama(剧情片)一直是被制作最多的电影类型,紧随其上的还有Comedy(喜剧片)、Thriller(惊悚片)以及Action(动作片)。
之后还可以分析每种类型电影的收益,因为虽然剧情片的数量要占据第一,但是一般他们都不是最盈利的片种:
由图可知我们的常识是正确的,剧情片虽然数量可观,但观众们更愿意为冒险、动作这类的电影买账。
接下来我们可以分析究竟是什么因素影响着电影的收益呢,毕竟这个问题的答案也是数据集被创造的原因。我们可以利用pandas提供的corr方法输出数据集的相关系数矩阵,并查看与利润最相关的几个特征:
revenue | 1.000000 |
---|---|
vote_count | 0.781487 |
budget | 0.730823 |
popularity | 0.644724 |
runtime | 0.251201 |
vote_average | 0.197150 |
release_year | 0.090074 |
id | -0.050425 |
可知预算是和盈利最相关的特征了。那么我们可以通过绘制散点图来直观的看到预算和盈利的线性相关性:
接下来我们还可以分析这几年的原创电影与改编电影的数量变化:
那么电影的盈利也有可能和发行它的国家有关系。我们都知道全球最庞大的电影产业就是美国的好莱坞了。那么各个国家发行的电影数量在这么多年里的占比是什么样的呢:
除了国家外,可能和企业也有关系:
那么光把数据输出成python还不够美观,而且也没法利用,所以我们利用pandas提供的方法,将其导入到excel中,再通过ppt调用excel的数据:
首先将数据置入excel(运行以下代码可能需要xlrd、xlwt或openpyxl。请读者自行尝试。)
excel = os.path.join(folder,'TMDB.xlsx')writer = pd.ExcelWriter(excel)
sheetlist = [year_cnt,genre_total,revenue,pd.DataFrame(full_image.loc[:, ('budget','revenue')]),pd.DataFrame(novel_per_year),pd.DataFrame(novel_rate,index=(range(len(novel_rate)))),countries_top6,companies_top10]
for i in range(len(sheetlist)):sheetlist[i].to_excel(writer, sheet_name='sheet'+str(i+1))writer.save()
置入后,就可以通过excel画图表了。最后在PPT上的成效如下所示:
Kaggle TMDB电影数据分析项目实战相关推荐
- 【数据分析项目实战】Python爬取BOSS直聘岗位和数据分析
说明:这是一个数据分析项目全流程(附带项目实例),本篇教程来源于网络,胖哥对此进行了完整的梳理,并把用到的数据+代码完全奉上.如需数据+完整代码可以直接到文章最后获取. 这里面的数据,我只爬取了部分, ...
- 福布斯系列之数据采集 | Python数据分析项目实战
1 数据采集概述 开始一个数据分析项目,首先需要做的就是get到原始数据,获得原始数据的方法有多种途径.比如: 获取数据集(dataset)文件 使用爬虫采集数据 直接获得excel.csv及其他数据 ...
- 【项目实战】Python基于波动率模型(ARCH和GARCH)进行股票数据分析项目实战
说明:这是一个机器学习实战项目(附带数据+代码+文档+代码讲解),如需数据+代码+文档+代码讲解可以直接到文章最后获取. 1.项目背景 在衍生产品定价和风险管理中,对当前波动率是很感兴趣的,这是因为需 ...
- 数据分析项目实战 --(kaggle中下载的TikTok最流行音乐分析)
- kaggle—HousePrice房价预测项目实战
房价预测是kaggle官网的一个竞赛项目,算是机器学习的一个入门项目.kaggle官网链接: link. 关于kaggle竞赛项目的操作流程可以参看这篇博客: link. 一.kaggle介绍 kag ...
- 数据分析项目实战项目一:CPC广告优化以及bilibili订单分析(下)
第一章:电商平台数据分析思路与bilibili会员购介绍 1.1互联网电商平台数据分析的一般思路 互联网电商平台数据分析的一般思路一般分为以下三步:找出问题,分析问题,解决问题.其中,找出问题包括描述 ...
- 数据分析项目实战day1
目录 针对股票数据的项目分析实战 1.数据预处理 2.调用to_dsv方法把数据保存到本地 3.删除unnamed列 4.找出所有收盘比开盘上涨超过3%的日期 5. 找出所有收盘比开盘 ...
- 第十一篇|基于SparkSQL的电影分析项目实战
在之前的分享中,曾系统地介绍了Spark的基本原理和使用方式,感兴趣的可以翻看之前的分享文章.在本篇分享中,将介绍一个完整的项目案例,该案例会真实还原企业中SparkSQL的开发流程,手把手教你构建一 ...
- 福布斯系列之数据分析思路篇 | Python数据分析项目实战
福布斯每年都会发布福布斯全球上市企业2000强排行榜(Forbes Global 2000),这个排行榜每年发布的时候,国内外总有新闻会热闹的讨论一番,但很少见到比较全面的分析. 因此才有了这样一个想 ...
- 最新高清仿驴妈妈旅行网大数据分析项目实战
目录 第1章 大数据基本技能储备 1.1.项目介绍.mp4 1.2.hadoop介绍.mp4 1.3.SSH免密码登录.mp4 1.4.JAVA安装.mp4 1.5.Hadoop安装及验证.mp4 1 ...
最新文章
- MAC下的反编译、反汇编和调试神器Hopper Disassembler
- 玩转SpringCloud Spring Cloud 微服务
- 通过Scroller.js制作上拉加载和下拉刷新
- 图像亮度、对比度调节(伽马校正)
- 吴恩达专访 Yann LeCun:是的我们曾经历黑暗时刻,但我始终抱有信念
- 邮件头解析=?utf-8?Q?乱码
- 边学习新技术边工作的重要性
- 3、java中的数据类型和运算符
- 处理大并发之二 对epoll的理解,epoll客户端服务端代码
- ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set
- python中的关键函数_Python关键要素
- 3.工作组环境下的应用
- 拥有PMP/ITIL/Prince2证书,你将享受这些国家福利
- php mysql免安装版_资源共享:免安装版nginx+php+mysql+phpmyadmin+memcache开发环境包
- 公司对公回单如何补打
- 在java程序中实现发送邮件的功能
- 为什么有些大公司的技术弱爆了?
- html在抽奖图片自动效果图,jQuery实现图片随机切换、抽奖功能(实例代码)
- 根据银行卡获取发卡行信息
- rhel8安装libpcap-devel包
热门文章
- 计量经济学第6章计算机c4,伍德里奇计量经济学第6章部分计算机习题详解STATA.pdf...
- mysql创建数据库的语法_mysql创建数据库语法
- SQL Server 2012 数据库可疑问题解决
- 基于Ymodem协议的IAP上位机(C#)
- [Java]利用itextpdf将多个多页的PDF合并为一个
- NI视觉视觉软件简介
- Flexsim——初学AGV必看的知识点(如何解决AGV在不同区域speed不同)
- 中兴机顶盒服务器地址大全,中兴机顶盒安装配置
- 自然语言处理--基于规则(AIML)的问答机器人
- vcpkg安装库时异常解决