数据分析-豆瓣电影Top250
豆瓣Top250电影python数据分析
- 使用python爬虫获取豆瓣电影数据
- 清洗和处理数据
- 使用方差、皮尔斯相关系数分析,plot进行数据可视化分析
python爬虫爬取豆瓣电影数据
首先,我们百度搜索豆瓣电影250,排名第一的就是我们想要的,点击进去。下面分别是首页和详细页
由于我们需要爬去所有有价值的数据,所以,我们要进入每一个详情页进行数据提取,下面是我打算获取的数据:
导演、编剧、主演、类型、制作地区、语言、上映时间、片长、评分、评价人数、观看人数、想看人数、短评条数
具体如何找数据的位置,如何爬取数据详细的步骤大家可以看我之前爬起虎扑贴吧的博客
这里我的思路是:
- 获取每一部电影的详情页地址,并将其存储到csv文件中
- 读取csv文件中的地址,并一一进行数据爬取。
- 将爬取的数据存储到csv文件中,方便之后进行数据分析。
这里有几点需要注意的地方:
- 在你进行多次数据爬取后,豆瓣会进行ip限制,所以这时候你需要登录你的豆瓣账号,这里也就是使用cookie模拟登录。
- 大家可以采用多线程或多进程进行数据爬取,速度会快很多。我这里没有使用这些
- 在数据全部爬取完毕之后,我才将这些数据统一写入到文件中。但是一旦出现程序错误,比如没有找到某一个元素,程序就会报错,就前功尽弃了。所以 我们要加入异常处理。
数据清洗和相关处理
从上面两种图可以看到,出版时间和片长时间格式有点问题。所以,出版时间我只提取了年份,片长时间只保留数字。
当然,在我做完数据分析的时候,其实出版时间可以保留月份,用来分析哪些月份出版的电影最多等等,大家实战的时候可以试一下。
开始进行分析
- 对出版国家的数量进行统计分析
这里需要注意一下,很多电影都是好几个国家联合出版的。
从结果中我们发现,出版电影最多的前四名分别是
- 美国 138部,占比37.3%
- 日本 34部,占比9.19%
- 英国 33部,占比8.92%
- 中国香港 27部,占比7.3%
美国占比遥遥领先这个我们都不意外,毕竟像这些 《肖申克的救赎》、《阿甘正转》、《泰坦尼克号》都是我们非常喜欢也非常熟悉的经典电影。
日本排名第二得益于日本动漫的优势。在这个top250中,有许多日本动漫电影。我不是一个动漫迷,但是我周围有一些朋友是,平常偶尔也会看一下,也能够看得出来,日本动漫做的确实很好。
- 对电影类型进行分析
结果中,我们发现,电影类型最多的前四位是剧情、爱情、喜剧、犯罪。电影类型最少的前四位是:情色、灾难、恐怖、运动。
与前面的出版国家情况类似,每一部电影都有许多类型。
博主也趁着疫情在家这一段时间,刷了几部这里面的电影。给我最大的感触就是我能够与情节产生共鸣。无论是《海上钢琴师》男主1900 碰见心动女生时的不知所措、开心、懊悔,还是《肖申克的救赎》安迪逃出监狱时的激动、咆哮;我们就像是电影里的角色,情感上就感觉特别的真实。
这个结果我们也不会有太大意外。
- 对电影上映时间进行分析
从图1来看,出版电影最多的年份是2004年,其次是2010、2013、2015.
从图2的近31年出版电影数量分析结果来看,呈现一个山峰形状。也就是每隔一年,都会涌现出比较多的好电影。从2000之后,电影的数量相较于之前有了比较大的提升,也得益于电影行业在近二十年的快速发展,从业人数越来越多,每年上映的电影基数越来越多,好电影也会相应的越来越多。
从图3的饼状图分析结果来看,2000-2010年出版的电影所占的比例最大,其次是2010-2020年、1990-2000年。这里每隔十年进行分析,由于2020年刚开始,又受疫情影响,还没有很多电影上映,可能会造成近十年电影数量小于前一个十年。
- 对电影时长进行分析
从饼状图我们可以看到,电影时长集中在90分钟-140分钟的电影占6成,其次是集中在140分钟-180分钟的电影,占16.4%。这也符合我们平常的认知,大部分电影时长都是在一个半小时到两个小时左右。
从散点图我们可以看到,超过200分钟的电影共有4部,其中时长最长的是238分钟;最少时长的电影只有45分钟。从整体趋势来看,近些年的电影时长越来越集中在100分钟-150分钟这个区间内,这可能也是电影行业的共识吧,时间太短事情讲不清楚,时间太长有显得剧情太拖拉。(哈哈,自己猜测的
数据分析-豆瓣电影Top250相关推荐
- Python数据分析豆瓣电影Top250
初学数据分析,这次就来分析一下电影信息.豆瓣电影的实战项目网上文章也不少,不过还是要自己操作一下才能理解得更深刻一点,也顺便了解一下这些电影的特点. 项目涉及的是一个特殊的电影排行榜,能上榜的想必都是 ...
- python pandas 豆瓣电影 top250 数据分析
python pandas 豆瓣电影 top250 数据分析 豆瓣电影top250数据分析 数据来源(豆瓣电影top250) 爬虫代码比较简单 数据较为真实,可以进行初步的数据分析 可以将前面的几篇文 ...
- python 豆瓣评论数据分析_Python数据可视化分析--豆瓣电影Top250
Python数据分析–豆瓣电影Top250 利用Python爬取豆瓣电影TOP250并进行数据分析,对于众多爬虫爱好者,应该并不陌生.很多人都会以此作为第一个练手的小项目.当然这也多亏了豆瓣的包容,没 ...
- python爬取豆瓣电影并分析_爬取豆瓣电影top250提取电影分类进行数据分析
标签(空格分隔):python爬虫 一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250 页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入 ...
- 爬虫(豆瓣电影Top250数据分析)学习笔记
学习了有关python爬虫的内容,也算有所收获,写下第一篇博客来对所学进行一个总结,也算督促自己进行主动研究学习的第一步. 主要内容: 首先总结一下学习的主要内容: 从豆瓣获取数据 建立SQLite数 ...
- 爬取豆瓣电影top250提取电影分类进行数据分析
标签(空格分隔):python爬虫 一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250 页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入 ...
- Python大数据分析实战:豆瓣电影Top250中的最佳导演是谁?
在之前写的一篇文中中,已经采用urllib和BeautifulSoup的方式抓取了豆瓣电影TOP250的导演.编剧.演员.上映时间和地区.语言.短评数.影评数.多少人想看.多少人看过等22个字段. 接 ...
- python 豆瓣电影top250_[python爬虫]豆瓣电影Top250简单数据分析绘图
一:简介 通过抓取豆瓣电影Top250的数据,分别进行了三个数据统计,分别是:上榜的电影上映的年份,该年份总共上榜的电影数量,数量为0的就没有统计了:各个国家地区出品的电影数量:250部电影的各个类型 ...
- 爬虫小小实战——豆瓣电影top250
这就是豆瓣电影top250的首页,本次小小实战就是将电影名.年代.评分以及评分人数存到csv文件中以便进行后续的数据分析. 一.基础 先贴代码及结果 import re import requests ...
最新文章
- oracle中decode函数用法及应用
- 供SAPI中TTS功能用使的Win8.1语言包安装
- vs2010 调试窗口debugger UTF8 显示汉字 乱码
- Python-函数递归调用
- 腾讯云黑石TStack一体机柜斩获2019数博会领先科技成果双重“优秀项目奖”
- 【操作系统】进程调度的不同层次
- 简单英文题 37 Prime(python)
- SpringSecurity框架【详解】
- ai带来的革命_Covid-19将加速AI医疗保健革命
- 剑指offer 29 多于一半的数
- EnableViewState=true
- Windows Server 2008 R2 安装及配置
- ios带嗅探器的浏览器_浏览器嗅探器——WhichBrowser
- linux系统属于操作系统吗,linux属于什么操作系统
- ps裁剪和裁切的区别_PS图片的裁剪和裁切的含义和应用
- 计算机用word做贺卡,利用word制作贺卡
- Linux九阴真经之大伏魔拳残卷4 nginx(模型,安装配置,模块)
- ssh Key exchange was not finished sshd
- 三种照片保存形式 :JPEG、TIFF、RAW
- 明日之后各个服务器的信息,明日之后三个字的和四个字的区什么不同 服务器区别详解...
热门文章
- ptapython答案第四章_ptapython答案
- Firefox扩展安装
- 位置关系C语言,C++/STL实现判断平面内两条线段的位置关系代码示例
- Android开发:adb调试显示adb.e unknown command device解决方法
- html能转换成axure,axure里面文件如何变成html
- 新能源汽车充电桩的相关标准
- Ubuntu18.04安装QT5
- 石墨烯在各个领域的应用前景
- Xwidget1.9.2超级桌面工具
- 目标检测20年(Object Detection in 20 Years)