上周看到 @笑虎 虎哥的豆瓣的爬虫很有趣。按照他的方法(随机bid值)我也模仿做了一个,并且把豆瓣上的电影遍历了一次,一共抓取了19w+数据,去重复之后有6.6w+。

此次抓取的电影数据包括:电影的ID,名称、上映时间、导演、编剧、时长、语言、评论数量、豆瓣总评分、国家/地区。利用以上这几个维度,下面做一些分析。

(一)国家与电影

数据都出来之后,我想做的第一件事情是想看看各个国家地区的电影的总体评分情况,然后得到了下面的这张图片:地图颜色越深,表示该国家/地区的电影得分平均值越高,相反颜色越浅,得分平均值越低,简而言之:颜色深-电影质量总体高|颜色浅、电影质量总体低。

通过上图,可以看出在地图上颜色比较深的几个国家和地区分别是:

美国:毕竟有一个好莱坞,平均评分很高也是很正常的

尼日利亚(nigerial):尼日利亚电影业始于20世纪60年代,在1990年前后逐步走向顶峰,由此拉开了“尼莱坞”电影爆发式增长序幕。截止到2012年,“尼莱坞”每年生产超过1500部电影,贡献产值近5亿美元,直接或间接创造了近40万个工作岗位。从电影年产量看,“尼莱坞”仅次于“宝莱坞”,居世界第二;从年产值来看,它排在“好莱坞”和“宝莱坞”之后,居世界第三。

英国:英国的高质量电影很多:《无路可逃:一部关于模糊乐队的电影》、《憨豆先生》、《Starshaped》、《炼狱 The Crucible》等等

日本、冰岛、赞比亚...

那么问题来了,这些电影评分平均值如此高的国家/地区为什么有这么高分数,有两种假设:

  • 有一部分超高质量评分电影拉动整体
  • 整体电影质量评分较高

带着这个问题,我们研究一下英国的电影评分详情。

竖轴表示:该分数的数量|横轴:表示电影的评分每一个柱形图代表着某个评分的电影的数量是多少。

可以看出,英国电影的总体水平集中在7.5-9.3分,超高评分段(9.5以上)也有部分电影,当然也有少部分烂电影(6分以下的),的出的结论是:整体电影质量评分较高。

(二)时间与电影

我们同样好奇的是,电影的质量与数量是否与年份有关呢?历史上是否某一年的电影质量以及数量都特别高呢?带着这个问题,我们来到此片的分析。

以上有两条线:上面一条是上映年份的电影数量、下面一条是上映年份的电影平均分。

获得的最早的年份为1888年从《利兹大桥 Traffic Crossing Leeds Bridge》《朗德海花园场景 Roundhay Garden Scene》的2s无声短片开始。

从1888-1951年左右,电影发展一直处于一个不稳定的时期。可以看一下这其中评分比较高的几个时间点:1900-1904、1925-1927、1935、1938

经过查阅大量资料发现1900-1904年为世界电影的发明阶段的后期以及电影普及阶段的前期,这间产生了几部比较出色的电影比如:《月球旅行记 Le voyage dans la lune》、“西部电影”类型的开山作《火车大劫案 The Great Train Robbery》《梅里爱的魔术》

值得一提的是1905年中国第一部电影《定军山》上映。

根据《西方电影史概论》一书,形成期(1895年——1927年),1925-1927年正处于形成期后期以及发展期的前期,电影作为一种艺术走向成熟。值得一提的是1927年5月11日,美国电影艺术与科学学院宣告成立。

这期间有一些比较出色的电影:查理·卓别林的《淘金记 The Gold Rush》、《宾虚 Ben-Hur: A Tale of the Christ》、《七次机会 Seven Chances》、《将军号 The General》

从1951-2015电影的发展比较平衡,质量评分没有较大的波动,其中2016可能因为很多影片没有在豆瓣展示,所以暂时数据不全。

我们继续看上面的一条线配合下面的这个评分8.0以上的电影上映时间分布图:年份与电影数量的关系:从1993年开始,进入一个高速增长的时期,一直持续到现在。很多人认为 认为93-98是好电影最多的一个时期,这个时期一些代表作品包括:

98年:《海上钢琴师》、《两杆大烟枪》、《拯救大兵瑞恩》、《楚门的世界》、《追随》

97年:《美丽人生》、《泰坦尼克号》、

95年:《大话西游之大圣娶亲 西遊記大結局之仙履奇緣》、《七宗罪》

94年:《肖申克的救赎》、《这个杀手不太冷 Léon》、《阿甘正传》、《活着》

看完年份与时间的关系之后看一下季度与电影数量的关系。

以上图表展示的是季度与电影质量以及数量之间的关系,每一个条线表示的是当年的四个季度之间的电影数量或者质量的变换情况。看上图(暂时忽略2016年的相关数据):不难发现每年的第三或者第四季度是电影上映的高峰期,就电影质量而言第三季度上映的电影的电影质量相对高出于其他的时期上映的电影。

如果把上映的时间精确到月份会是什么样子的呢?我们继续看下面的这张图片

通过详细的月份图可以看出,就电影数量方面,每年的九月份和十月份是电影上映的高峰期~各个月份上映的电影质量基本上与时间没有关系。

(四)导演与电影

接下来是导演的作品数量大PK,取出了作品数量在35部以上的导演。所有导演的作品的中位数是1,35部以上作品导演作品数量的平均值是50。

看到高居榜首的导演王晶,其导演的作品包括:

有多少你熟悉的电影呢?那么这么多的作品是否有较高的电影质量呢?电影质量是一个非常重要的考量。那么我们接着看。以下蓝色的柱形图表示导演的作品的豆瓣平均得分,黑色的线代表的是导演的作品的数量。

注明:筛选的是作品数量大于等于5并且评分不低于8.5的导演展示。

(五)时长与电影

一部电影一个怎样的时长比较适合?一个小时?一个半小时?还是两个小时呢?以下的图表选择了总计数量在前几位的时长的电影统计。

可以看出,在历史的场长河中电影时间多数集中在80-120分钟,其中90-100占大多数:90分钟为最适宜的电影时长。同时我们也看到在卡头的有一个25分钟的柱状图,那么为什么25分钟这个时长会有这么多电影:25分钟是微电影的最佳时长之一。

(六)榜单

最后是一个榜单,一个是历史的TOP电影,另一个是2016的TOP电影。

2016的TOP电影选取的规则是

  • 豆瓣评论数 > 100,000
  • 豆瓣评分 >= 7.5分

2016符合上述选取规则的电影包括

第二个是历史的TOP电影,这里我们把要求放的更加严格一点

  • 豆瓣评论数 > 100,000
  • 豆瓣评分 >= 8.5

所抓取的电影符合上述要求如下:

学习编程,欢迎关注专栏:学习编程 - 知乎专栏

爬取6.6w+豆瓣电影之后的分析故事相关推荐

  1. 爬取6.6w+豆瓣电影之后,分析他们的故事

    我做了一个,并且把豆瓣上的电影遍历了一次,一共抓取了19w+数据,去重复之后有6.6w+. 此次抓取的电影数据包括:电影的ID,名称.上映时间.导演.编剧.时长.语言.评论数量.豆瓣总评分.国家/地区 ...

  2. python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)

    Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...

  3. 请访问豆瓣电影网站,爬取4~10部电影信息(电影名、导 演、演员、海报url链接,预报片视频链接),并结合GUI界面展现电影信息,并可以根据选择的电影名, 下载指定预告片视频到本地并显示预告片。GUI

    请访问豆瓣电影网站,爬取4~10部电影信息(电影名.导 演.演员.海报url链接,预报片视频链接),并结合GUI界面展现电影信息,并可以根据选择的电影名, 下载指定预告片视频到本地并显示预告片.GUI ...

  4. 基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据

    基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据 参考资料: 黑马程序员爬虫教程 静觅爬虫教程 mac下anaconda安装selenium+PhantomJS scrapy下载中间件结 ...

  5. Python爬取视频之爱情电影及解密TS文件和两种合并ts的方法

    俗话说,兴趣所在,方能大展拳脚.so结合兴趣的学习才能事半功倍,更加努力专心,apparently本次任务是在视频网站爬取一些好看的小电影,地址不放(狗头保命)只记录过程. 实现功能: 从网站上爬取采 ...

  6. Python3简单爬虫:爬取猫眼评分top100电影

    Python3:用xpath库爬取猫眼评分top100电影 在看<Python3 网络爬虫开发实战中>一书学习时,书中第三章例子用re正则匹配来爬取电影的所需数据,虽然爬取速度快,效率好, ...

  7. Py之Crawler:基于requests库+json库实现爬取刘若英2018导演电影《后来的我们》的插曲《再见》张震岳的几十万热评+词云:发现“再见”亦是再也不见

    Py之Crawler:基于requests库+json库实现爬取刘若英2018导演电影<后来的我们>的插曲<再见>张震岳的几十万热评+词云:发现"再见"亦是 ...

  8. Python爬取2022春节档电影信息

    Python爬取2022春节档电影信息 前提条件 相关介绍 实验环境 具体步骤 确定目标网站 分析网站 按F12打开浏览器操作台 按Ctrl+Shift+C快捷键,用鼠标找到目标元素 按Ctrl+F快 ...

  9. Python爬虫爬取ok资源网电影播放地址

    #爬取ok资源网电影播放地址#www.okzy.co #入口一:http://okzy.co/index.php?m=vod-search&wd={关键字}&submit=search ...

最新文章

  1. docker容器 cpu memory 资源限制
  2. python3的float数精度_Python3 - 执行精确的浮点数运算
  3. 2016rMBP登录后自动关机、帐户数据丢失
  4. POJ 2823 Sliding Window
  5. vue-cli生成项目时你应当知道的
  6. observable_Java Observable notifyObservers()方法与示例
  7. React学习整理(一):React 安装
  8. 币安选择InfStones作为以太坊2.0 Staking基础设施服务商
  9. CSS浏览器兼容性的4个解决方案
  10. Jackson初次学习
  11. Settings 笔记整理
  12. 云周刊】第177期:马云见证!蚂蚁金服推出全球首个区块链跨境汇款服务
  13. jenkins+git+gradle配置自动打apk包
  14. 伺服电机向前三秒,向后三秒,循环往复
  15. chrom如何安装axure 插件,解决chrom浏览器不能打开原型设计文件的问题
  16. 搜罗21个设计好的Css和Ajax表格!
  17. 我第一台电子管计算机哪一年,第一台电子管计算机出现在哪一年?
  18. MES制造执行系统中数据采集方式介绍
  19. QGIS管网水力模型inp文件制图初探
  20. python run什么都没有_求助大佬问题:运行代码之后什么都没有显示什么情况?...

热门文章

  1. 《血源诅咒》次时代 写实 3D角色模型
  2. 李宏毅深度强化学习笔记
  3. shellctf2022-writeup
  4. 云计算及Openstack云平台技术图解
  5. C++ - 使用ffmpeg读取视频旋转角度并使用OpenCV根据旋转角度对视频进行旋转复原
  6. Deepin15.11安装NVIDIA RTX2070显卡驱动(此方法也适用于其他NVIDIA显卡驱动)
  7. 解决Mac深色模式下文字颜色问题
  8. 虚拟机Ubuntu16.04连不上网解决办法(最简单的总结)
  9. 长沙哪家有python培训机构
  10. 一篇解双链表(0基础看)(C语言)《数据结构与算法》