对猫眼T100进行简单数据分析

  • 前言
  • 可视化分析
    • TOP100最多的国家或地区
    • TOP10电影
    • 影产量年份趋势
    • 演员出演TOP100电影情况
    • 结语

前言

上一次,我们爬取了猫眼电影的Top100数据,并将它存放在了csv文件中。今天,我们就将数据取出,来进行个简单的分析吧!

可视化分析

TOP100最多的国家或地区

首先,我们看一下拥有Top100最多的国家或者地区:

代码如下:

import pandas as pd
from matplotlib import pyplot as plt
from matplotlib import font_managermy_font = font_manager.FontProperties(fname='C:/Windows/Fonts/msyh.ttc',size = 14)#加载数据
index = ['index','name','actor','releasetime','country','score']
data = pd.read_csv('./MoviesTop100.csv',header=None,names=  index)  #从第0行开始读取,索引为 index#print(data.shape)
#查看电影分布情况
country_count = data.groupby('country')['country'].count().sort_values(ascending = False)
plt.figure(figsize=(10,8),dpi=80)
country_count.plot(kind='bar',color='blue',width = 0.8)
plt.xticks(rotation=0)
plt.ylabel('数量(部)',fontproperties=my_font)
plt.xlabel('国家/地区',fontproperties=my_font)
plt.title('国家/地区电影数量排名',fontproperties=my_font)
for x,y in enumerate(list(country_count.values)):   #将其组合成一个索引,例如[(0,44),(1,17)]plt.text(x,y+0.5,y,ha='center')
plt.show()

结果如下图:

可以看到除了网站中没有显示国家/地区的电影外,美国以17部占了绝大优势,其次是韩国,而中国内地一部电影也没有上榜。。。

TOP10电影

接下来,我们看一下评分最高的10部电影是哪几部

代码如下:

top10_movies = data.sort_values('score',ascending=False)
name = top10_movies['name'][:10]
score = top10_movies['score'][:10]
plt.figure(figsize=(10,8),dpi = 80)
plt.bar(range(10),score,width=0.6,color='red')
plt.xticks(range(10),name,rotation=45)
plt.ylim((9,9.7))   #设置y轴坐标
plt.ylabel('评分')
plt.xlabel('电影名称')
plt.title('TOP10电影名称')
for x,y in enumerate(list(score)):   plt.text(x,float(y)+0.01,y,ha='center')
#plt.show()
plt.savefig('./绘图/Top10电影名称.jpg')

结果如下:

让我有点意外的是,大话西游之月光宝盒竟然排到了第一名,高达9.6的评分,星爷的电影还是十分经典的。嗯,幸好其中大部分电影还是都看过的

影产量年份趋势

接下来,我们站在时间的维度上去看下,哪一年盛产了最多的Top100电影

代码如下:

year_data = pd.Series()  #创建一个Series对象,用于后面赋值
for i,item in data.iterrows():   #遍历每一行year = item['releasetime'].split('/')[0]dict_obj = {}   #创建一个空字典dict_obj['time'] = yearyear_df = pd.Series(dict_obj)  year_data = year_data.append(year_df)
year_moviesnum = year_data.groupby('time').count()
plt.figure(figsize=(10,8),dpi = 80)
year_moviesnum.plot(kind = 'line',color='red',marker='o')
plt.ylabel('数量(部)')
plt.xlabel('年份')
plt.title('电影产量趋势')
#plt.show()
plt.savefig('./绘图/电影产量趋势.jpg')

结果如下:

可以看出,在11年的时候,产出了9部Top100。11年,貌似那时候还是使用的DVD吧,那时候的网络也没有现在这么发达,也想不起有哪些电影是那年上映的。

演员出演TOP100电影情况

最后,我们再来看一下,哪些演员出演的Top100电影最多

代码如下:

ctor_data = pd.Series()  #创建一个Series对象,用于后面赋值
actor_dict = {}
for i,item in data.iterrows():  actor = item['actor'].split(',')for name_item in actor:actor_dict['actor_name'] = name_item actor_df= pd.Series(actor_dict)  #转换为Series类型actor_data = actor_data.append(actor_df)
actor_moviesnum = actor_data.groupby('actor_name').count().sort_values(ascending=False)[:12]plt.figure(figsize=(10,8),dpi = 80)
actor_moviesnum.plot(kind = 'bar',color='brown',width= 0.6)
plt.ylabel('数量(部)')
plt.xlabel('姓名')
plt.title('出演Top100电影演员情况')
plt.xticks(rotation=45)
for x,y in enumerate(list(actor_moviesnum)): plt.text(x,float(y)+0.1,y,ha='center')
#plt.show()
plt.savefig('./绘图/演员情况.jpg')

从上图可以看出,张国荣拥有6部Top100电影,其次是星爷。最可惜的是感觉是张国荣,英年早逝。

结语

由于数据量太小,所以做的分析并不是很全面。

对猫眼T100进行简单数据分析相关推荐

  1. python实战(一)Python爬取猫眼评分排行前100电影及简单数据分析可视化python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化

    python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化 一.抓取数据 需要的库 request库 响应http请求 json库 将文本保存成json形式 pyquery 类似JQ ...

  2. python实战(一)Python爬取猫眼评分排行前100电影及简单数据分析可视化

    python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化 一.抓取数据 需要的库 request库 响应http请求 json库 将文本保存成json形式 pyquery 类似JQ ...

  3. 基于ELK的简单数据分析

    原文链接: http://www.open-open.com/lib/view/open1455673846058.html 环境 CentOS 6.5 64位 JDK 1.8.0_20 Elasti ...

  4. 简单python数据获取分析_python学习——简单数据分析

    引入 斜杠青年:即跨界青年 做一个不可替代的数据分析师 介绍几个包: 用于web开发的包:django,flask 包 数据分析常用包:NumPy(数学计算),Pandas(基于NumPy的分析工具) ...

  5. SPSS简单数据分析之分类汇总数据

    数据分析,重点是运用各种统计方法对数据进行处理分析,简单地浏览数据并不能获得很多有价值的洞察.对于初学者来说,使用平均值.最大值.方差等函数能帮助我们获得一些初步的结论,对于简单的数据分析来说相当实用 ...

  6. python公园售票小程序(身份证获取简单信息+简单数据分析+简单多线程)

    1.文件目录 2.main.py主文件 from utils import welcome,examineIdCard,playMusic,dataAnalysis import _thread th ...

  7. python多线程爬取世纪佳缘女生资料并简单数据分析

    一. 目标 ​ 作为一只万年单身狗,一直很好奇女生找对象的时候都在想啥呢,这事也不好意思直接问身边的女生,不然别人还以为你要跟她表白啥的,况且工科出身的自己本来接触的女生就少,即使是挨个问遍,样本量也 ...

  8. b站《双城之战》主题曲《孤勇者》视频评论爬取+简单数据分析+基本可视化(条形图,饼图,词云图)

    双城之战更新啦!!!!!<孤勇者>也在b站上线了!!!! <孤勇者> 是真的好听!!!!没听的快给我去听:<双城之战>也是真的好看,没看到快给我去看!!!! 今天我 ...

  9. 计算机考试spss数据分析,SPSS怎么进行分类汇总数据?SPSS简单数据分析之分类汇总数据方法-电脑自学网...

    SPSS怎么进行分类汇总数据?许多用户在工作或者学习的时候都需要使用数据分析,而数据分析中就有一个分类汇总操作,那么我们只用spss怎么进行分类汇总数据呢?下面小编就带着大家一起学习一下吧! 操作方法 ...

最新文章

  1. keras 的 example 文件 class_activation_maps.py 解析
  2. 为什么小批量会可以使模型获得更大的泛化
  3. The user specified as a definer ('root'@'%') does not exist
  4. pytorch 反卷积 可视化_手推反卷积
  5. cuda学习笔记1 - hello world实战
  6. (转)虚函数和纯虚函数区别
  7. Linux 学习和教训
  8. caffe调用的一个例子
  9. SQL解析引擎Apache Calcite
  10. select、bash函数初识及rpm命令详解
  11. python控制台小游戏代码_python小游戏实现代码
  12. python秒网课_利用python完成大学刷课(从0到完成的思路)
  13. 你不能错过的超赞色彩组合
  14. PHP微信公众号开发之:获得和缓存access_token,原理及代码
  15. Docker 命令基础及进阶
  16. 【前端】解决盒子被撑大问题 box-sizing
  17. 用C++实现强化学习,速度不亚于Python,这里有个框架可用
  18. app 登录成功后 保存登录账号 密码 以及读取
  19. vscode怎样新建项目和文件
  20. 【YOLOv5 数据集划分】训练和验证、训练验证和测试(train、val)(train、val、test)

热门文章

  1. [TED]丹·吉尔伯特:我们为什么快乐?
  2. 解决vue3中echarts的tooltip组件不显示的问题
  3. smb连接错误“请检查服务器名称或IP地址,然后再试一次,如果问题持续发生,请联系系统管理员“
  4. 神奇宝贝java_我的世界下载 1.25神奇宝贝整合包_单机游戏下载
  5. linux关闭内存插槽,linux 统管理中的查看内存插槽数、最大容量和频率
  6. 【机器学习|数学基础】Mathematics for Machine Learning系列之线性代数(10):向量组及其线性组合
  7. 如何通过ssh远程访问Unix/Linux服务器上的html
  8. 科普 | 继Wi-Fi 6之后的Wi-Fi 6E
  9. Serpent.AI - 游戏代理框架(Python)
  10. 根据sitemap一键推送给百度收录的python小脚本