TMDB电影数据分析
这是关于TMDB5000条电影数据的分析报告
数据来源于Kaggle https://www.kaggle.com/tmdb/tmdb-movie-metadata
报告分为:
(1)提出问题
(2)认识数据
(3)清洗数据
(4)分析数据
(5)总结
(一)提出问题
(1)对电影类型的分析,电影类型主要有哪些,哪些电影类型数量最多,电影类型随时间的变化,哪些电影的票房/利润多,观众更喜欢那种类型的电影
(2)电影票房与哪些因素相关,电影受欢迎程度的分析
(3)UniversalPictures和Paramount Pictures这两个公司产出电影的情况对比
(4)对电影导演,突出关键字,电影时长,电影产出地的情况进行分析
(5)原创电影和非原创电影的分析
(二)认识数据
从https://www.kaggle.com/tmdb/tmdb-movie-metadata 下载数据集
有tmdb_5000_credits.csv和tmdb_5000_movies.csv这两个数据集,描述电影演员相关信息和每部电影的基本信息
可以看出credits有4803行4列数据
可以看出movies有4803行20列数据
2.数据清洗
(1)格式转化
credits数据中,cast、crew都是json的格式,需要将演员、导演读取出来,以字符串格式显示
movies数据中genres、keywords、production_companies、spoken_languages也是json格式,需要转化成字符串
(a).credits json解析
(b).movies json解析
(2)合并数据
credits和movies中都有movie_id和title,检查这两个字段是否是相同的
可以看出这两个字段是相同的,将movies的title删掉
方法一:直接del DF['column-name']
方法二:采用drop方法,有下面三种等价的表达式:
1. DF= DF.drop('column_name', 1);
2. DF.drop('column_name',axis=1, inplace=True)
3. DF.drop(DF.columns[ : ], axis=1,inplace=True)
df中有22个字段,分别为:
movie_id : TMDB电影标识号
title : 电影名称
cast :演员列表
director :导演
budget :预算(美元)
genres :风格列表,电影类型
homepage :电影首页的 URL
id :标识号
original_language :电影语言
original_title :电影名称
overview :剧情摘要
popularity :在 Movie Database 上的相对页面查看次数
production_companies :制作公司
production_countries :制作国家
release_date :上映时间
revenue :收入
runtime :电影时长
spoken_languages :口语
status :状态
tagline :电影的标语
vote_average :平均评分
vote_count :评分次数
(3)字段及缺失值处理
可以看出director、release_date、runtime分别有30、1、2个缺失值,这里只处理release_date、runtime的缺失值
(三)数据分析及可视化
1.关于电影类型的分析
(1)获取电影类型
可以看出电影的类型主要是这20种
(2)转化日期格式
(3)电影类型与数量的关系
(1)分类型判断每部电影属于的类型
可以得到如果每行中包含哪个类型的就返回1,否则0
(2)建立包含电影类型和年份的数据框
可以看出电影的拍摄数量是从1992年开始大幅增加的
统计每个类型每年的数量
电影类型随时间变化的趋势(折线图)
可以看出Drama和War这两个类型是随时间波动比较大的,增长较快,现在仍比较热门
电影类型的数量关系(各个类型的总数量)
各个电影类型的数量条形图
可以看出Drama和Comedy是数量最多的前两个
各个电影类型的比例饼图
Drama、Comedy、Thriller、Action这四个类型占了一半多比例,分别为18.9%,14.2%,10.5%,9.5%
(4)电影类型与利润的关系
(1)电影类型与利润的关系
电影类型的利润条形图
可以看出Animation和Advanture,Fantasy这三个类型的电影是盈利最好的,而Foreign和TV Movie这两个是会亏损的
(2)观众更喜欢哪种类型的电影
电影类型受欢迎的条形图
可以看出观众最喜欢的四中类型是Adventure、Animation、Science Fiction、Fantasy
2.电影票房与哪些因素相关,电影受欢迎程度的分析
(1)每年的票房统计
电影的票房也是从1992开始大幅度增长的
(2)电影预算与票房的关系
可以看出票房和预算是正相关性的,预算越高票房也越高,除去一些极值
(3)电影评分与票房的关系
可以看出评分跟票房的相关性不是很强,评分跟票房大都集中在一个区域
(4)电影时长与票房的关系
(5)评分与受欢迎的关系
评分与受欢迎之间相关性不是很明显,但是大部分受欢迎度高的,基本是评分高的
(6)电影时长与受欢迎的关系
观众喜欢的电影时长大多是90-160分钟
3.Universal Pictures和Paramount Pictures这两个公司产出电影的情况对比
(1)两家公司电影数量对比
这两个公司拍摄的电影是差不多的
(2)两家公司的电影岁时间变化的趋势对比
可以看出随着时间的推移,Universal Pictures和Paramount Pictures公司的电影发行量呈现出增长趋势,尤其是在1992年后增长迅速
(3)两个公司的利润对比
4.对电影导演,突出关键字,电影时长,电影产出地的情况进行分析
(1)对电影的导演进行分析
#direct=df['director'].value_counts()
#direct1=direct[:20]
*导演的拍摄数
拍摄电影数最多的四位导演是Steven Spielberg 、Woody Allen 、Martin Scorsese、Clint Eastwood 分别为27、21、20、20
*评分前20的导演
这些导演的评分基本都差不多的
*票房前20的导演
票房最高的三位导演是Chris Buck、Kyle Balda、Lee Unkrich
(2)关键字分析
可以看出关键字显示的主要是independent film、woman、murder这些字段
(3)电影时长的分析
可以看出评分较高的电影时长集中于80-150分钟之间
(4)电影产地分析
可以看出美国是电影产出大国,超过一半比例
5.改编电影与原创电影的分析
(1)改编电影与原创电影数量对比
可以看出原创电影占绝大部分
(2)原创电影与改编电影预算、收入、利润的对比
可以看出改编电影的预算略高于原创电影,但改编电影的票房收入和利润远远高于原创电影
TMDB电影数据分析相关推荐
- 【大数据基础】基于 TMDB 数据集的电影数据分析
https://dblab.xmu.edu.cn/blog/2400/ 实验内容 环境搭建 pip3 install bottle 数据预处理 本次项目使用的数据集来自知名数据网站 Kaggle 的 ...
- python电影数据分析报告_Python数据分析实战:TMDB电影数据可视化
一.数据预处理 本文将以项目实战的形式,对 TMDB电影数据进行数据分析与可视化实战,所使用的数据来源于 Kaggle,文末提供数据的下载方式. import json import pandas a ...
- python电影数据分析的代码_python-small-examples
Kaggle电影数据分析实战 本项目基于Kaggle电影影评数据集,通过这个系列,你将学到如何进行数据探索性分析(EDA),学会使用数据分析利器pandas,会用绘图包pyecharts,以及EDA时 ...
- 大数据项目开发案例_大数据分析技术——项目案例1(猫眼电影数据分析上)...
壹 猫眼Top100电影数据分析概述 从这一节开始,我们就综合利用已学到的一些分析技术来尝试做一些比较复杂的实际数据分析项目.在这些实际的项目案例中,我们将会看到一个完整的数据分析流程:数据清理--数 ...
- Rotten Tomatoes 电影数据分析
"烂番茄"电影数据分析 "烂番茄"电影数据分析 背景 数据采集及处理 数据可视化 得出结论 背景 一千个读者眼中有一千个哈姆雷特, 看电影也是一种艺术鉴赏活动, ...
- Tableau制作全球电影数据分析/全球超市利润混合地图
数据集,课程,作业文件打包放在github上 https://github.com/JCATHoney/tableau 作业5: 1.创建产地电影数量与评分(以此命名)的符号地图,处理未知位置信息,以 ...
- 豆瓣电影数据分析--Tableau
数据说明:原始数据为1888年-2016年上映电影数据,由于年份跨度较大且部分年份数据缺失,故抽取1990年-2015年电影数据分析. 第一部分:整体上映电影数分析 仪表盘: 感觉这个排版有点挤,显示 ...
- tmdb电影票房_TMDb Vue.js应用程序:电影数据库应用程序
tmdb电影票房 TMDb Vue.js应用 (TMDb Vue.js app) TMDb Movie Search is a responsive Vue.js app. The Movie Dat ...
- python基于爬虫技术的海量电影数据分析源码,数据处理分析可视化,GUI界面展示
基于爬虫技术的海量电影数据分析 介绍 一个基于爬虫技术的海量电影数据分析系统 系统架构 本系统主要分为四个部分,分别为后端爬虫抓取.数据处理分析可视化.GUI界面展示.启动运行,分别对应getData ...
- python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》
前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...
最新文章
- The note of Developing Innovative Ideas for New Companies Course
- 澳大利亚悉尼科技大学招收人工智能/软件工程方向全奖博士生
- 数据库高可用架构(MySQL、Oracle、MongoDB、Redis)
- 区块链 稳定币和法定数字货币简介
- 正则表达式全部符号解释
- Python实现顺序表
- 对图片对比度和亮度的理解
- 运维-替换-修改kibana徽标
- 自考那些事儿(四):软件开发工具(理论篇)
- Word转换pdf文件之好用的pdf虚拟打印机
- 使用python的netCDF4库读取.nc文件 和 创建.nc文件
- 思科CISCO ASA 5521 防火墙 Ipsec 配置详解
- [Vue]鼠标悬停变色
- Neo4j 图数据库高级应用系列 / 服务器扩展指南 APOC 8.8 - 图生成 完全图
- [windows]win10家庭版切换到管理员账户
- 固定资产自动盘点系统,盘点固定资产及利润更清晰
- python 类属性函数,python_30期【类包含属性和函数】
- ASPWEB编程开发常用的代码
- GZIP中的LZ77压缩算法
- vue 首屏优化加载(三)(CND引用)