一、提出问题

作为一名业务分析师顾问,客户是一个电影制作新公司,他们将制作一部新电影。客户想确保电影能成功,从而使新公司立足市场。他们希望我能帮助他们了解电影市场趋势,使他们能做出正确的决策。他们提供了指导,希望我能研究以下三大领域:问题 1:电影类型是如何随着时间的推移发生变化的?

问题 2: Universal Pictures 和 Paramount Pictures 之间的对比情况如何?

问题 3: 改编电影和原创电影的对比情况如何?(通过keywords变量中的based on novel字段来判断)

更重要的是,客户请我根据提供的数据,额外回答第四个问题。

二、理解数据

1)获取数据

本次项目选用Movie Database,一个可以公开使用的电影数据。TMDB 5000 Movie Dataset​www.kaggle.com

2)导入数据

3)理解数据

moviedf数据集中,有20个字段,以下是每个字段的含义介绍:

● id:标识号

● imdb_id:IMDB 标识号

● popularity:在 Movie Database 上的相对页面查看次数

● budget:预算(美元)

● revenue:收入(美元)

● original_title:电影名称

● cast:演员列表,按 | 分隔,最多 5 名演员

● homepage:电影首页的 URL

● director:导演列表,按 | 分隔,最多 5 名导演

● tagline:电影的标语

● keywords:与电影相关的关键字,按 | 分隔,最多 5 个关键字

● overview:剧情摘要

● runtime:电影时长

● genres:风格列表,按 | 分隔,最多 5 种风格

● production_companies:制作公司列表,按 | 分隔,最多 5 家公司

● release_date:首次上映日期

● vote_count:评分次数

● vote_average:平均评分

● release_year:发行年份

● budget_adj:根据通货膨胀调整的预算(2010 年,美元)

● revenue_adj:根据通货膨胀调整的收入(2010 年,美元)

3)数据清洗

3.1选择子集

3.2缺失数据处理

3.3数据类型转换

3.4数据格式转换

4)数据分析及可视化

问题 一:电影类型是如何随着时间的推移发生变化的?

解决思路:

1、取出所有的电影类型

2、对电影涉及到的电影类型进行ONE-HOT编码,并生成按年份汇总的电影类型数据,同时汇总历年来各电影类型的总量并作图

3、对前5的电影类型数量进行时间走势分析

问题 二: Universal Pictures 和 Paramount Pictures 之间的对比情况如何?

解决思路

1、查看两家公司电影发行总数并做图分析

2、查看两家公司历年的电影发行数量,并比较分析

问题 三: 改编电影和原创电影的对比情况如何?

解决思路

1、查看改编和原创的电影数量

5)总结

5.1从历史数据来看,拍摄的电影风格类型最多的五种为:Drama、Comedy、Thriller、Action、Romance

5.2 Action、Comedy、Drama、Horror 和 Thriller 等五种类型的电影由少变多,1990年以后电影发行数量增长迅速。

5.3Universal Pictures 和 Paramount Pictures 两家公司在电影的发行数量分别为314,285,超出10%。

5.4从公司电影发行量时间走势上看,2005年以后Universal Pictures公司 一直比 Paramount Pictures公司发行的数量多,处于竞争优势。

5.5原创电影很少,仅占整个电影市场4%的份额。

6)不足之处

时间有限,分析的字段比较少,后续会把更多的字段加入,进行更全面的分析。

python电影数据分析报告_Python进行电影数据分析及可视化相关推荐

  1. 如何撰写一篇有价值的数据分析报告(若有对数据分析感兴趣的同学可以看《数据分析业务思维培养》专栏相关内容快速入门)

    ​ 一.思考问题 什么是数据分析报告? 数据分析报告的价值点在哪里? 怎样撰写数据分析报告? 二.数据分析报告 数据分析报告从字面意思进行拆解,等于数据+分析+报告这三部分.但是这三部分重点在于分析. ...

  2. python电影数据分析报告_Python数据分析实战:TMDB电影数据可视化

    一.数据预处理 本文将以项目实战的形式,对 TMDB电影数据进行数据分析与可视化实战,所使用的数据来源于 Kaggle,文末提供数据的下载方式. import json import pandas a ...

  3. python综合实验报告_Python程序设计实验报告五:综合运用三种基本结构进行程序设计(综合性实验)...

    安徽工程大学 Python程序设计 实验报告 班级 物流191 姓名姚彩琴学号3190505129 成绩 日期 2020.4.22 指导老师修宇 [实验名称]综合运用三种基本结构进行程序设计(综合性实 ...

  4. python上机编程报告_Python程序设计实验报告六:函数

    安徽工程大学 Python程序设计 实验报告 班级:物流191 姓名:徐丹丹 学号:3190505132 成绩: 日期:2020年5月4日 指导老师:修宇 [实验目的] 掌握函数的定义与使用方法:掌握 ...

  5. python综合实验报告_Python程序设计 实验报告

    安徽工程大学 Python程序设计 实验报告 班级:物流192       姓名:刘马汉卿学号:319005211 成绩:            日期:2020年4月29日        指导老师:修 ...

  6. python程序项目报告_python程序设计实验报告

    安徽理工大学Python编程实验报告类物流192名陆代学生号码3190505207年级日期教师秀于实验名称实验一个熟悉闲置和在线编程平台实验目的1.掌握python闲置的安装和使用集成开发环境2.熟悉 ...

  7. python结课报告_Python数据分析课程到底是学什么内容的?

    2020年12月4日,博为峰旗下学掌门召开了<Python 商业(大)数据分析师>新课程发布会.据悉,此次发布会上发布的<Python 商业(大)数据分析师>课程是在原< ...

  8. python爬虫实践报告_Python 爬虫实践:浅谈数据分析岗位

    原标题:Python 爬虫实践:浅谈数据分析岗位 转自:法纳斯特 讲道理,pyspider确实是一款优秀的爬虫框架,我们可以利用它快速方便地实现一个页面的抓取. 不过带来便捷性的同时,也有它的局限性, ...

  9. python金融大数据分析视频_Python金融大数据分析 PDF 全书超清版

    给大家带来的一篇关于Python相关的电子书资源,介绍了关于Python金融.大数据分析方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小47.8 MB,希尔皮斯科编写,目前豆瓣.亚马逊. ...

  10. python金融数据分析电子版_python 金融大数据分析 pdf

    书籍:Python金融大数据分析 Python for Finance_ Mastering Data-Driven Finance 2nd - 2019.pdf 简介 金融业最近以极高的速度采用了P ...

最新文章

  1. SSM实现大学生综合素质评测系统
  2. python里面的之前打过的记忆信息-Python关键语句备忘录,拯救你的记忆
  3. JS浮点数运算Bug的解决办法(转自百度文库)
  4. DFN封装系列ESD静电保护器件
  5. 计算机技术咨询包括哪些,技术咨询合同有哪些分类
  6. Windows 7安装到虚拟磁盘VHD文件中
  7. 传播路径图调查2013年初
  8. 修改Code Blocks默认代码格式
  9. 【优化算法】人工蜂鸟算法(AHA)【含Matlab源码 1543期】
  10. 【模糊控制器】基于simulink的模糊控制器设计
  11. 【浏览器兼容性问题解决方案】
  12. 2011 imac 固态_iMac (27 英寸, 2011 年中) - 技术规格
  13. idou教你学Istio10 : 如何用Istio实现K8S Egress流量管理
  14. One PUNCH Man——线性回归算法
  15. Nood.js C++ 模块 addon插件(二)
  16. 5.9.1_P163《C++ Primer Plus (6th)》编程练习 答案
  17. 如果用java实现app的热更新操作
  18. mysql怎么定位cpu高_Mysql数据库服务器CPU冲高问题定位及分析
  19. Python 螺旋正方形
  20. 【宏观经济学】01-GDP乘数效应

热门文章

  1. 龙芯CPU芯片介绍说明
  2. 美团点评2020年秋季校园招聘启动啦
  3. git报错warning: Clone succeeded, but checkout failed
  4. 边缘计算与深度学习——初读研究生的迷茫
  5. 数控车床 刀尖补偿用法 G41 G42 G40
  6. 三维重建 | 单张彩色图像三维重建学习框架
  7. 3万字细说数据仓库体系(建议收藏)
  8. 【matplotlib】plot()kind参数表
  9. 关于电脑开启热点手机却无法连接的解决方法(关于网络连接的问题)
  10. 如何卸载Vmware Workstation虚拟机