我做了一个,并且把豆瓣上的电影遍历了一次,一共抓取了19w+数据,去重复之后有6.6w+。

此次抓取的电影数据包括:电影的ID,名称、上映时间、导演、编剧、时长、语言、评论数量、豆瓣总评分、国家/地区。利用以上这几个维度,下面做一些分析。

(一)国家与电影

数据都出来之后,我想做的第一件事情是想看看各个国家地区的电影的总体评分情况,然后得到了下面的这张图片:地图颜色越深,表示该国家/地区的电影得分平均值越高,相反颜色越浅,得分平均值越低,简而言之:颜色深-电影质量总体高|颜色浅、电影质量总体低。

通过上图,可以看出在地图上颜色比较深的几个国家和地区分别是:

美国:毕竟有一个好莱坞,平均评分很高也是很正常的

尼日利亚(nigerial):尼日利亚电影业始于20世纪60年代,在1990年前后逐步走向顶峰,由此拉开了“尼莱坞”电影爆发式增长序幕。截止到2012年,“尼莱坞”每年生产超过1500部电影,贡献产值近5亿美元,直接或间接创造了近40万个工作岗位。从电影年产量看,“尼莱坞”仅次于“宝莱坞”,居世界第二;从年产值来看,它排在“好莱坞”和“宝莱坞”之后,居世界第三。

英国:英国的高质量电影很多:《无路可逃:一部关于模糊乐队的电影》、《憨豆先生》、《Starshaped》、《炼狱 The Crucible》等等

日本、冰岛、赞比亚...

那么问题来了,这些电影评分平均值如此高的国家/地区为什么有这么高分数,有两种假设:

  • 有一部分超高质量评分电影拉动整体
  • 整体电影质量评分较高

带着这个问题,我们研究一下英国的电影评分详情。

竖轴表示:该分数的数量|横轴:表示电影的评分每一个柱形图代表着某个评分的电影的数量是多少。

可以看出,英国电影的总体水平集中在7.5-9.3分,超高评分段(9.5以上)也有部分电影,当然也有少部分烂电影(6分以下的),的出的结论是:整体电影质量评分较高。

(二)时间与电影

我们同样好奇的是,电影的质量与数量是否与年份有关呢?历史上是否某一年的电影质量以及数量都特别高呢?带着这个问题,我们来到此片的分析。

以上有两条线:上面一条是上映年份的电影数量、下面一条是上映年份的电影平均分。

获得的最早的年份为1888年从《利兹大桥 Traffic Crossing Leeds Bridge》《朗德海花园场景 Roundhay Garden Scene》的2s无声短片开始。

从1888-1951年左右,电影发展一直处于一个不稳定的时期。可以看一下这其中评分比较高的几个时间点:1900-1904、1925-1927、1935、1938

经过查阅大量资料发现1900-1904年为世界电影的发明阶段的后期以及电影普及阶段的前期,这间产生了几部比较出色的电影比如:《月球旅行记 Le voyage dans la lune》、“西部电影”类型的开山作《火车大劫案 The Great Train Robbery》《梅里爱的魔术》

值得一提的是1905年中国第一部电影《定军山》上映。

根据《西方电影史概论》一书,形成期(1895年——1927年),1925-1927年正处于形成期后期以及发展期的前期,电影作为一种艺术走向成熟。值得一提的是1927年5月11日,美国电影艺术与科学学院宣告成立。

这期间有一些比较出色的电影:查理·卓别林的《淘金记 The Gold Rush》、《宾虚 Ben-Hur: A Tale of the Christ》、《七次机会 Seven Chances》、《将军号 The General》

从1951-2015电影的发展比较平衡,质量评分没有较大的波动,其中2016可能因为很多影片没有在豆瓣展示,所以暂时数据不全。

我们继续看上面的一条线配合下面的这个评分8.0以上的电影上映时间分布图:年份与电影数量的关系:从1993年开始,进入一个高速增长的时期,一直持续到现在。很多人认为 认为93-98是好电影最多的一个时期,这个时期一些代表作品包括:

98年:《海上钢琴师》、《两杆大烟枪》、《拯救大兵瑞恩》、《楚门的世界》、《追随》

97年:《美丽人生》、《泰坦尼克号》、

95年:《大话西游之大圣娶亲 西遊記大結局之仙履奇緣》、《七宗罪》

94年:《肖申克的救赎》、《这个杀手不太冷 Léon》、《阿甘正传》、《活着》

(三)看完年份与时间的关系之后看一下季度与电影数量的关系

以上图表展示的是季度与电影质量以及数量之间的关系,每一个条线表示的是当年的四个季度之间的电影数量或者质量的变换情况。看上图(暂时忽略2016年的相关数据):不难发现每年的第三或者第四季度是电影上映的高峰期,就电影质量而言第三季度上映的电影的电影质量相对高出于其他的时期上映的电影。

如果把上映的时间精确到月份会是什么样子的呢?我们继续看下面的这张图片

通过详细的月份图可以看出,就电影数量方面,每年的九月份和十月份是电影上映的高峰期~各个月份上映的电影质量基本上与时间没有关系。

(四)导演与电影

接下来是导演的作品数量大PK,取出了作品数量在35部以上的导演。所有导演的作品的中位数是1,35部以上作品导演作品数量的平均值是50。

看到高居榜首的导演王晶,其导演的作品包括:

有多少你熟悉的电影呢?那么这么多的作品是否有较高的电影质量呢?电影质量是一个非常重要的考量。那么我们接着看。以下蓝色的柱形图表示导演的作品的豆瓣平均得分,黑色的线代表的是导演的作品的数量。

注明:筛选的是作品数量大于等于5并且评分不低于8.5的导演展示。

(五)时长与电影

一部电影一个怎样的时长比较适合?一个小时?一个半小时?还是两个小时呢?以下的图表选择了总计数量在前几位的时长的电影统计。

可以看出,在历史的场长河中电影时间多数集中在80-120分钟,其中90-100占大多数:90分钟为最适宜的电影时长。同时我们也看到在卡头的有一个25分钟的柱状图,那么为什么25分钟这个时长会有这么多电影:25分钟是微电影的最佳时长之一。

(六)榜单

最后是一个榜单,一个是历史的TOP电影,另一个是2016的TOP电影。

2016的TOP电影选取的规则是

  • 豆瓣评论数 > 100,000
  • 豆瓣评分 >= 7.5分

2016符合上述选取规则的电影包括

第二个是历史的TOP电影,这里我们把要求放的更加严格一点

  • 豆瓣评论数 > 100,000
  • 豆瓣评分 >= 8.5

所抓取的电影符合上述要求如下:

爬取6.6w+豆瓣电影之后,分析他们的故事相关推荐

  1. 爬取6.6w+豆瓣电影之后的分析故事

    上周看到 @笑虎 虎哥的豆瓣的爬虫很有趣.按照他的方法(随机bid值)我也模仿做了一个,并且把豆瓣上的电影遍历了一次,一共抓取了19w+数据,去重复之后有6.6w+. 此次抓取的电影数据包括:电影的I ...

  2. python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)

    Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...

  3. python爬取豆瓣电影并分析_爬取豆瓣电影top250提取电影分类进行数据分析

    标签(空格分隔):python爬虫 一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250 页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入 ...

  4. 请访问豆瓣电影网站,爬取4~10部电影信息(电影名、导 演、演员、海报url链接,预报片视频链接),并结合GUI界面展现电影信息,并可以根据选择的电影名, 下载指定预告片视频到本地并显示预告片。GUI

    请访问豆瓣电影网站,爬取4~10部电影信息(电影名.导 演.演员.海报url链接,预报片视频链接),并结合GUI界面展现电影信息,并可以根据选择的电影名, 下载指定预告片视频到本地并显示预告片.GUI ...

  5. 豆瓣电影评分分析(数据分析)

    本文主要通过对豆瓣电影爬取的数据进行的简要分析,观察得出各部分之间对应的关系影响. 一.数据抓取 我们要想进行数据分析,首先就要通过爬虫对分析对象网页的数据爬取保存,可以保存到数据库或者文件形式到本地 ...

  6. Python爬取视频之爱情电影及解密TS文件和两种合并ts的方法

    俗话说,兴趣所在,方能大展拳脚.so结合兴趣的学习才能事半功倍,更加努力专心,apparently本次任务是在视频网站爬取一些好看的小电影,地址不放(狗头保命)只记录过程. 实现功能: 从网站上爬取采 ...

  7. 基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据

    基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据 参考资料: 黑马程序员爬虫教程 静觅爬虫教程 mac下anaconda安装selenium+PhantomJS scrapy下载中间件结 ...

  8. Python爬取2022春节档电影信息

    Python爬取2022春节档电影信息 前提条件 相关介绍 实验环境 具体步骤 确定目标网站 分析网站 按F12打开浏览器操作台 按Ctrl+Shift+C快捷键,用鼠标找到目标元素 按Ctrl+F快 ...

  9. Python爬虫爬取ok资源网电影播放地址

    #爬取ok资源网电影播放地址#www.okzy.co #入口一:http://okzy.co/index.php?m=vod-search&wd={关键字}&submit=search ...

最新文章

  1. vue自定义组件 → 场馆预约の小时范围控件【手到擒来】
  2. 判定是否互为字符重排
  3. R语言主成分分析(Principle Component Analysis、PCA)
  4. AJAX 缓存问题的两种解决方法(IE
  5. 关于IB_DESIGNABLE / IBInspectable的那些事
  6. 【Java集合系列】---ArrayList
  7. php如何获取常量的值,php – 如何获取常量的名称?
  8. 2021牛客多校1 - Journey among Railway Stations(线段树区间合并)
  9. 恢复出厂设置android手机号码,安卓手机怎么恢复出厂设置
  10. html5+css3第一次作业_老娘我,饿死也不要陪孩子做手工作业,高考陪考真香!...
  11. nginx的高级配置(1)——为某个虚拟主机添加用户验证
  12. 编写build.xml的12个原则
  13. Linux的系统程序包管理
  14. 解决趋势OfficeScan11自动显示隐藏文件等问题
  15. 国家科技管理信息系统构建及其对科技情报工作的影响
  16. 测试理论----软件测试四大测试过程
  17. 高校邮箱账号盗用监控及钓鱼邮件检测-上海交通大学
  18. 手机做web服务器 无限流量,想要无限流量套餐?别做梦了!
  19. 快速学习四步法:如何用20小时,快速学习?
  20. OpenWrt之IPTV单线复用详细教程

热门文章

  1. 用nodejs配合python破解X-Ca-Signature,抓取博客积分数据
  2. UI层自动化测试框架(三):基础层
  3. 学位论文和论文的区别是什么?
  4. SQL Server 2008 R2 中英文 开发版/企业版/标准版 下载
  5. php 制作骰子游戏,C/C++实现投骰子游戏
  6. modelsim使用protect加密verilog代码
  7. Debian11之Docker稳定版本安装
  8. 文件缓冲区和inode详解
  9. linux下载流量和上传流量,通过linux的tc工具简单实现上传和下载的流量控制
  10. 微型计算机中将运算器和芯片,微机的重要特点之一是将计算机硬件中的运算器和控制器集成在一块芯片上,称为微处理器。 - 试题答案网问答...