我的其他数据分析报告:求职指南——数据分析职位解析
【Python3】Requests+正则表达式+multiprocessing爬虫并存入MySQL数据库

一、分析背景及目的

豆瓣对Top250电影的定义:
豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。

本报告旨在对这250部电影(下称“好评电影”)的上映年代、电影导演、制作国家、电影类型进行分析,以期为 电影制作方 以及 渴望寻找优秀电影观看的观影者 对电影的选择提供若干参考建议。

二、数据可视化分析

1、上映年代分析

好评电影多集中在1990年之后。在1990年之前以及1990年之后两部分中,好评电影数量波动不大。电影艺术会随着时代的变化而变化,如今的观影者会更加接受现代的电影艺术。

进入21世纪之后,好评电影数量较多。好评电影出现最多的年代处于2000~2009年之间。

2、导演情况分析

在好评电影中,有多位导演的不止一部影片上榜,其中上榜电影数最多的两位导演是:克里斯托弗·诺兰 和 宫崎骏。在其后也有多位中国籍导演。导演对于一部影片的影响巨大,可以说好的导演能决定一部电影的成功与否。

3、制作国家分析

好评电影的制作国家由美国领衔,占比近50%。在其后日本、香港、中国大陆、英国也占了较大份额。美国的电影产业较为成熟,引领着这个时代的电影艺术潮流。

4、电影类型分析

在好评电影中,剧情类型电影一骑绝尘,有高达186部电影带有“剧情”标签。其后,爱情、喜剧、冒险等类型也有多部电影。电影类型决定了电影的基调和主旨,是决定电影内容的重要因素之一。

将上述分析元素做成词云可以直观的看出来词条出现的频率:

三、结论与建议

根据此前对豆瓣Top250影片的数据分析,本报告对电影制作方以及迷茫的观影者几点建议:
1、电影艺术是随着时代而转变的,大部分观影者更加接受于此时相近年代的电影,21世纪第一个十年内的电影是好评最多的时期。电影制作方可以选择10年前到20年前区间内的影片重制推出,用口碑吸引观影者。观影者也可以选择这期间的电影在休息时观看。
2、导演是一部影片好坏的关键因素之一,一个好的导演可以成就一部电影。电影制作方在选择导演时可以选择榜上作品多的导演。观影者可以选择克里斯托弗·诺兰 和 宫崎骏 两位导演的影片观看。
3、好的电影一般出自好的电影氛围,制作国家可以对影片造成影响。好评电影中,美国电影占到近一半。电影制作方或可借鉴学习美国电影的流行趋势,观影者可以选择美国电影来观看。
4、电影类型是观影者选择是否观看此影片的重要因素之一。“剧情”、“爱情”、“喜剧”是受众主流,电影制作方可以将其作为口碑的保守选择,观影者可以选择这些类型观看。

豆瓣Top250电影数据分析报告相关推荐

  1. 数据分析与挖掘案例之使用python抓取豆瓣top250电影数据进行分析

    使用python抓取豆瓣top250电影数据进行分析 抓取豆瓣Top250电影数据的链接和电影名称 代码如下: import urllib.request as urlrequest from bs4 ...

  2. 在分析了豆瓣Top250电影的数据后,我发现了这些不为人知的规律(附源代码和详情讲解)

    这一段时间都在学习数据分析的相关知识,包括numpy.pandas.matplotlib.seaborn.ploty这些工具的使用和一些统计学的相关知识.有了这些基础,我就非常迫不及待的想操练操练.于 ...

  3. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  4. scrapy mysql 豆瓣_Python爬虫之Scrapy+Mysql+Mongodb爬豆瓣top250电影

    学习python时,爬虫是一种简单上手的方式,应该也是一个必经阶段.本项目用Scrapy框架实现了抓取豆瓣top250电影,并将图片及其它信息保存下来.爬取豆瓣top250电影不需要登录.没有JS解析 ...

  5. 爬取豆瓣top250电影并分析

    爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓 爬取数据 需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...

  6. python爬虫——爬取豆瓣TOP250电影

    相信很多朋友在看一部电影的时候喜欢先去豆瓣找一下网友对该片的评价.豆瓣作为国内最权威的电影评分网站,虽然有不少水军和精日精美分子,但是TOP250的电影还是不错的,值得一看. 爬取目标 本文将爬取豆瓣 ...

  7. 学习爬虫之Scrapy框架学习(3)---豆瓣top250电影完整版信息获取及如何存储到mysql数据库;Scrapy shell和Scrapy选择器;使用到日志的学习!

    **豆瓣项目已完结!项目源码: 链接:https://pan.baidu.com/s/1DOnXwXZKiBcJbzHwDJuw5A 提取码:u8xi ** 1.昨天简单爬取了豆瓣Top250电影的一 ...

  8. scrapy爬取豆瓣top250电影数据

    scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...

  9. 豆瓣Top250电影爬虫

    目录 摘要 1 引言 4 1.1 背景 4 1.2 意义 4 1.3 实现的功能 4 1.3.1 爬虫程序 4 1.3.2 可视化界面 4 2 系统结构 5 2.1 系统整体结构 5 2.2 使用的技 ...

最新文章

  1. Coreseek:indexer crashed神秘
  2. linux各版本使用率,Windows10系统各版本份额出炉:十月更新占有率不高。
  3. 浏览器事件循环与node事件循环
  4. 利用flask将opencv实时视频流输出到浏览器
  5. 2020-11-13(c++下JNI开发不同点)
  6. 微信看一看实时相关推荐介绍
  7. pline加点lisp_用Autolisp 在AutoCAD中实现多种曲线的绘制
  8. gns3中两个路由器分别连接主机然后分析ip数据转发报文arp协议_ARP协议在同网段及跨网段下的工作原理...
  9. 【算法】赫夫曼编码 解码
  10. Yii2.0修改默认控制器
  11. 植物病害分类的深度可解释体系结构(github源码)
  12. 微信小程序电商实战-购物车(上)
  13. c语言编写成绩管理系统代码,C语言学生成绩管理系统源代码
  14. 黑马程序员—银行调度系统
  15. java fastjson 格式化_json的格式化展示(基于 fastjson)
  16. python xgboost建模过程_python - Dask中的XGBoost建模 - SO中文参考 - www.soinside.com
  17. jzoj 4638. 第三条跑道
  18. leelen可视对讲怎么接线_电子门铃怎么安装 电子对讲门铃安装方法【详细介绍】...
  19. 看板的作用是什么?任务看板如何跟进
  20. 数据结构(王道版本,主讲人:闲鱼学长)P19-P31

热门文章

  1. Python2.7获取QQ空间部分好友
  2. 硬盘里常听到的SATA和IDE是什么?它们又有何区别?
  3. matplotlib: 绘制平面图/表格
  4. Amcharts--Chart with scroller
  5. avplayer学习笔记
  6. 启动Oracle报错:本地计算机上的OracleOraDb11g_homeTNSListener服务启动后停止。某些服务在未由其他服务或程序使用时将自动停止。
  7. cnpm : 无法加载文件 D:\mydriver\node-install\nodejs\node_global\cnpm.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/g
  8. linux如deepin manjaro对笔记本电脑电池的伤害解决方案:TLP:一个可以延长 Linux 笔记本电池寿命的高级电源管理工具
  9. 火狐浏览器手动安装插件“组件未验证无法安装”问题解决
  10. 兰州商学院正式更名为兰州财经大学