分析背景及目的

豆瓣电影 Top 250定义:豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。

本文对于"好评电影"(豆瓣电影top250)的影片评分,上映时间,评论人数,制作国家,电影类型,影片描述进行分析,期望为渴望寻找 优秀影片的观影者 以及 电影制片方 对电影的选择提供若干参考建议。

数据可视化分析

本文数据来源:scrapy爬取豆瓣top250电影数据
1.电影评分分析
好评电影评分主要集中在8.5-9.5分,9分以上电影相对少一些,8.5-9.0分电影居多。
2.评论人数分析

好评电影评论人数主要集中在10万到70万之间,个别电影评论人数可达200多万,可以看出评论人群基数较大,可信度相对较高。

评论数与电影评分存在一定相关性,总体上看评分高的电影评论人数也相对多一些,但也存在部分高分电影评论人数较少,说明一部好电影并不取决于观影量。
3. 上映年份分析:

从上图可以看出好评电影大多集中在1992年之后,1992年之前好评电影数量波动不大,基本稳定在一到两部,1992年之后好评电影数量开始明显上升,也呈现不小幅度波动。随着时代进步,电影艺术也呈现出蓬勃发展的姿态,同时好评电影数量也会随之增加。

从上图可以看出好评电影主要集中21世纪之后,好评电影出现最多的年代是2000—2010年。

4、导演情况分析

从图中可以看出多为导演不至一部影片上榜top250,其中上榜次数最多是宫崎骏和克里斯托弗·诺兰,每人上榜7部电影。可见导演对一部电影影响巨大,可以说一位好的导演能决定一部电影的成功与否。
5.电影类型

在好评电影中,剧情类型电影一骑绝尘,有高达186部电影带有“剧情”标签。其后,爱情、喜剧、冒险等类型也有多部电影。电影类型决定了电影的基调和主旨,是决定电影内容的重要因素之一。
6.制作国家


美国的好评电影数量遥遥领先与其他国家,占比近40%(共有135部)。在其后英国、日本、香港、中国大陆、也占了较大份额。美国的电影产业较为成熟,引领着这个时代的电影艺术潮流。
7.电影描述简介

从影片描述中我们可以看出自由,希望,人,等词出现频率较高,说明反映这一类主题的电影更容易被喜爱,可以引起共鸣,也更容易得高分。

三、结论与建议

根据上述对豆瓣Top250影片的数据分析,本报告观影者选择电影及电影制片方提供以下几点建议:
1、豆瓣8.5分以上的电影基本可以看做优质电影,观影者选中观影可以选择豆瓣分数较高,评论数较多电影来观看。
2、电影艺术是随着时代而转变的,21世纪第一个十年内的电影是好评最多的时期,也是中国电影发展重要时期,电影制作方重视品质,用心制作电影,故事出尘创新,电影制作商可以学习这个时段电影,用口碑吸引观影者。观影者也可以选择这期间的电影在休息时观看。
3、导演是决定一部影片好坏的关键因素之一,一个好的导演可以成就一部电影。电影制作方在制作电影是可以选择上榜次数多的导演。观影者可以选择选择著名(作品多次上榜)导演的作品进行观看。
4、好的电影一般出自好的电影氛围,制作国家可以对影片造成影响。好评电影中,美国电影占到近一半。电影制作方或可借鉴学习美国电影的流行趋势,观影者可以选择美国电影来观看。
5、电影类型是观影者选择是否观看此影片的重要因素之一。“剧情”、“爱情”、“喜剧”是受众主流,电影制作方可以将其作为口碑的保守选择,观影者可以选择这些类型观看。

豆瓣top250电影数据分析相关推荐

  1. 豆瓣Top250电影数据分析报告

    我的其他数据分析报告:求职指南--数据分析职位解析 [Python3]Requests+正则表达式+multiprocessing爬虫并存入MySQL数据库 一.分析背景及目的 豆瓣对Top250电影 ...

  2. 数据分析与挖掘案例之使用python抓取豆瓣top250电影数据进行分析

    使用python抓取豆瓣top250电影数据进行分析 抓取豆瓣Top250电影数据的链接和电影名称 代码如下: import urllib.request as urlrequest from bs4 ...

  3. 在分析了豆瓣Top250电影的数据后,我发现了这些不为人知的规律(附源代码和详情讲解)

    这一段时间都在学习数据分析的相关知识,包括numpy.pandas.matplotlib.seaborn.ploty这些工具的使用和一些统计学的相关知识.有了这些基础,我就非常迫不及待的想操练操练.于 ...

  4. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  5. scrapy mysql 豆瓣_Python爬虫之Scrapy+Mysql+Mongodb爬豆瓣top250电影

    学习python时,爬虫是一种简单上手的方式,应该也是一个必经阶段.本项目用Scrapy框架实现了抓取豆瓣top250电影,并将图片及其它信息保存下来.爬取豆瓣top250电影不需要登录.没有JS解析 ...

  6. 爬取豆瓣top250电影并分析

    爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓 爬取数据 需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...

  7. python爬虫——爬取豆瓣TOP250电影

    相信很多朋友在看一部电影的时候喜欢先去豆瓣找一下网友对该片的评价.豆瓣作为国内最权威的电影评分网站,虽然有不少水军和精日精美分子,但是TOP250的电影还是不错的,值得一看. 爬取目标 本文将爬取豆瓣 ...

  8. 学习爬虫之Scrapy框架学习(3)---豆瓣top250电影完整版信息获取及如何存储到mysql数据库;Scrapy shell和Scrapy选择器;使用到日志的学习!

    **豆瓣项目已完结!项目源码: 链接:https://pan.baidu.com/s/1DOnXwXZKiBcJbzHwDJuw5A 提取码:u8xi ** 1.昨天简单爬取了豆瓣Top250电影的一 ...

  9. scrapy爬取豆瓣top250电影数据

    scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...

  10. 豆瓣Top250电影爬虫

    目录 摘要 1 引言 4 1.1 背景 4 1.2 意义 4 1.3 实现的功能 4 1.3.1 爬虫程序 4 1.3.2 可视化界面 4 2 系统结构 5 2.1 系统整体结构 5 2.2 使用的技 ...

最新文章

  1. 使用 PyTorch 时,最常见的 4 个错误
  2. CircleDisplay
  3. ubuntu中pycharm打不开的的处理方法
  4. NetBeans 7 Python 又回来了
  5. vue-cli起的webpack项目 用localhost可以访问,但是切换到ip就不可以访问
  6. modbus 0x06 连续写_这篇很实用,看完学会MODBUS的应用及编程
  7. es6 数组合并_对比 ES5,学习 ES6(一)
  8. 高品质静物空间海报模板PSD分层素材
  9. 量子计算机迷宫,工程杰作诞生可编程的光学量子计算机
  10. Linux下的socket网络编程
  11. 惯性导航系统--百科笔记
  12. 一个佛系程序员的年终总结
  13. [copypaste]各种渐进表示法
  14. 池化层MaxPool函数详解及反向传播的公式推导
  15. 分布式技术(6) 后端接口设计方案
  16. 业界首款 ACAP 自适应计算加速平台——Xilinx Versal Premium 系列
  17. 10个免费的PHP编辑器/开发工具推荐
  18. 齐次线性方程组的基础解系
  19. java二维数组的长度问题
  20. Linux云服务器:MySQL安装失败、多种错误总结

热门文章

  1. f分布表完整图a=0.01_SQL数据库完整性
  2. f分布表完整图_如何用Excel制作频率(频数)分布表(图)?
  3. excel表格坐标导入cad怎样操作?
  4. iOS实现音频和视频播放-运用AVPlayer
  5. android桌面小工具,超好用的手机桌面小组件,一键美化桌面,实用又美观
  6. Live 2D所有模型展示图
  7. 从智能门锁,看3D视觉的安全性突围
  8. 【论文解读】MV3D-Net、AVOD-Net用于自动驾驶的多视图3D目标检测网络
  9. Linux驱动之串口驱动配置
  10. 计算机原理视频教程星火,计算机组成原理及汇编语言(中央广播电视大学)