豆瓣Top250电影python数据分析

  1. 使用python爬虫获取豆瓣电影数据
  2. 清洗和处理数据
  3. 使用方差、皮尔斯相关系数分析,plot进行数据可视化分析

python爬虫爬取豆瓣电影数据

首先,我们百度搜索豆瓣电影250,排名第一的就是我们想要的,点击进去。下面分别是首页和详细页

由于我们需要爬去所有有价值的数据,所以,我们要进入每一个详情页进行数据提取,下面是我打算获取的数据:

导演、编剧、主演、类型、制作地区、语言、上映时间、片长、评分、评价人数、观看人数、想看人数、短评条数

具体如何找数据的位置,如何爬取数据详细的步骤大家可以看我之前爬起虎扑贴吧的博客

这里我的思路是:

  1. 获取每一部电影的详情页地址,并将其存储到csv文件中
  2. 读取csv文件中的地址,并一一进行数据爬取。
  3. 将爬取的数据存储到csv文件中,方便之后进行数据分析。

这里有几点需要注意的地方:

  • 在你进行多次数据爬取后,豆瓣会进行ip限制,所以这时候你需要登录你的豆瓣账号,这里也就是使用cookie模拟登录。
  • 大家可以采用多线程或多进程进行数据爬取,速度会快很多。我这里没有使用这些
  • 在数据全部爬取完毕之后,我才将这些数据统一写入到文件中。但是一旦出现程序错误,比如没有找到某一个元素,程序就会报错,就前功尽弃了。所以 我们要加入异常处理。

数据清洗和相关处理

从上面两种图可以看到,出版时间和片长时间格式有点问题。所以,出版时间我只提取了年份,片长时间只保留数字。

当然,在我做完数据分析的时候,其实出版时间可以保留月份,用来分析哪些月份出版的电影最多等等,大家实战的时候可以试一下。

开始进行分析

  • 对出版国家的数量进行统计分析


    这里需要注意一下,很多电影都是好几个国家联合出版的。

从结果中我们发现,出版电影最多的前四名分别是

  1. 美国 138部,占比37.3%
  2. 日本 34部,占比9.19%
  3. 英国 33部,占比8.92%
  4. 中国香港 27部,占比7.3%

美国占比遥遥领先这个我们都不意外,毕竟像这些 《肖申克的救赎》、《阿甘正转》、《泰坦尼克号》都是我们非常喜欢也非常熟悉的经典电影。
日本排名第二得益于日本动漫的优势。在这个top250中,有许多日本动漫电影。我不是一个动漫迷,但是我周围有一些朋友是,平常偶尔也会看一下,也能够看得出来,日本动漫做的确实很好。

  • 对电影类型进行分析


结果中,我们发现,电影类型最多的前四位是剧情爱情喜剧犯罪。电影类型最少的前四位是:情色灾难恐怖运动
与前面的出版国家情况类似,每一部电影都有许多类型。

博主也趁着疫情在家这一段时间,刷了几部这里面的电影。给我最大的感触就是我能够与情节产生共鸣。无论是《海上钢琴师》男主1900 碰见心动女生时的不知所措、开心、懊悔,还是《肖申克的救赎》安迪逃出监狱时的激动、咆哮;我们就像是电影里的角色,情感上就感觉特别的真实。

这个结果我们也不会有太大意外。

  • 对电影上映时间进行分析



从图1来看,出版电影最多的年份是2004年,其次是2010、2013、2015.

从图2的近31年出版电影数量分析结果来看,呈现一个山峰形状。也就是每隔一年,都会涌现出比较多的好电影。从2000之后,电影的数量相较于之前有了比较大的提升,也得益于电影行业在近二十年的快速发展,从业人数越来越多,每年上映的电影基数越来越多,好电影也会相应的越来越多。

从图3的饼状图分析结果来看,2000-2010年出版的电影所占的比例最大,其次是2010-2020年、1990-2000年。这里每隔十年进行分析,由于2020年刚开始,又受疫情影响,还没有很多电影上映,可能会造成近十年电影数量小于前一个十年。

  • 对电影时长进行分析

从饼状图我们可以看到,电影时长集中在90分钟-140分钟的电影占6成,其次是集中在140分钟-180分钟的电影,占16.4%。这也符合我们平常的认知,大部分电影时长都是在一个半小时到两个小时左右。

从散点图我们可以看到,超过200分钟的电影共有4部,其中时长最长的是238分钟;最少时长的电影只有45分钟。从整体趋势来看,近些年的电影时长越来越集中在100分钟-150分钟这个区间内,这可能也是电影行业的共识吧,时间太短事情讲不清楚,时间太长有显得剧情太拖拉。(哈哈,自己猜测的

数据分析-豆瓣电影Top250相关推荐

  1. Python数据分析豆瓣电影Top250

    初学数据分析,这次就来分析一下电影信息.豆瓣电影的实战项目网上文章也不少,不过还是要自己操作一下才能理解得更深刻一点,也顺便了解一下这些电影的特点. 项目涉及的是一个特殊的电影排行榜,能上榜的想必都是 ...

  2. python pandas 豆瓣电影 top250 数据分析

    python pandas 豆瓣电影 top250 数据分析 豆瓣电影top250数据分析 数据来源(豆瓣电影top250) 爬虫代码比较简单 数据较为真实,可以进行初步的数据分析 可以将前面的几篇文 ...

  3. python 豆瓣评论数据分析_Python数据可视化分析--豆瓣电影Top250

    Python数据分析–豆瓣电影Top250 利用Python爬取豆瓣电影TOP250并进行数据分析,对于众多爬虫爱好者,应该并不陌生.很多人都会以此作为第一个练手的小项目.当然这也多亏了豆瓣的包容,没 ...

  4. python爬取豆瓣电影并分析_爬取豆瓣电影top250提取电影分类进行数据分析

    标签(空格分隔):python爬虫 一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250 页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入 ...

  5. 爬虫(豆瓣电影Top250数据分析)学习笔记

    学习了有关python爬虫的内容,也算有所收获,写下第一篇博客来对所学进行一个总结,也算督促自己进行主动研究学习的第一步. 主要内容: 首先总结一下学习的主要内容: 从豆瓣获取数据 建立SQLite数 ...

  6. 爬取豆瓣电影top250提取电影分类进行数据分析

    标签(空格分隔):python爬虫 一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250 页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入 ...

  7. Python大数据分析实战:豆瓣电影Top250中的最佳导演是谁?

    在之前写的一篇文中中,已经采用urllib和BeautifulSoup的方式抓取了豆瓣电影TOP250的导演.编剧.演员.上映时间和地区.语言.短评数.影评数.多少人想看.多少人看过等22个字段. 接 ...

  8. python 豆瓣电影top250_[python爬虫]豆瓣电影Top250简单数据分析绘图

    一:简介 通过抓取豆瓣电影Top250的数据,分别进行了三个数据统计,分别是:上榜的电影上映的年份,该年份总共上榜的电影数量,数量为0的就没有统计了:各个国家地区出品的电影数量:250部电影的各个类型 ...

  9. 爬虫小小实战——豆瓣电影top250

    这就是豆瓣电影top250的首页,本次小小实战就是将电影名.年代.评分以及评分人数存到csv文件中以便进行后续的数据分析. 一.基础 先贴代码及结果 import re import requests ...

最新文章

  1. oracle中decode函数用法及应用
  2. 供SAPI中TTS功能用使的Win8.1语言包安装
  3. vs2010 调试窗口debugger UTF8 显示汉字 乱码
  4. Python-函数递归调用
  5. 腾讯云黑石TStack一体机柜斩获2019数博会领先科技成果双重“优秀项目奖”
  6. 【操作系统】进程调度的不同层次
  7. 简单英文题 37 Prime(python)
  8. SpringSecurity框架【详解】
  9. ai带来的革命_Covid-19将加速AI医疗保健革命
  10. 剑指offer 29 多于一半的数
  11. EnableViewState=true
  12. Windows Server 2008 R2 安装及配置
  13. ios带嗅探器的浏览器_浏览器嗅探器——WhichBrowser
  14. linux系统属于操作系统吗,linux属于什么操作系统
  15. ps裁剪和裁切的区别_PS图片的裁剪和裁切的含义和应用
  16. 计算机用word做贺卡,利用word制作贺卡
  17. Linux九阴真经之大伏魔拳残卷4 nginx(模型,安装配置,模块)
  18. ssh Key exchange was not finished sshd
  19. 三种照片保存形式 :JPEG、TIFF、RAW
  20. 明日之后各个服务器的信息,明日之后三个字的和四个字的区什么不同 服务器区别详解...

热门文章

  1. ptapython答案第四章_ptapython答案
  2. Firefox扩展安装
  3. 位置关系C语言,C++/STL实现判断平面内两条线段的位置关系代码示例
  4. Android开发:adb调试显示adb.e unknown command device解决方法
  5. html能转换成axure,axure里面文件如何变成html
  6. 新能源汽车充电桩的相关标准
  7. Ubuntu18.04安装QT5
  8. 石墨烯在各个领域的应用前景
  9. Xwidget1.9.2超级桌面工具
  10. 目标检测20年(Object Detection in 20 Years)