kaggle数据分析入门之---视频游戏销售分析
1、明确分析需求
1.1数据介绍
项目介绍:由vgchartz.com的一个刮版生成的,有一份综合的游戏行业销售数据,希望产生一份综合的游戏行业报告
数据介绍:包含游戏名称、类型、发行时间、发布者以及在全球各地的销售额数据。
字段包括
RANK-总销售额的排名
Name-游戏的名字
Platform-游戏发布平台(即PC,PS4等)
Year-游戏发行的年份
Genre-游戏的类型
Publisher-游戏的出版者
NA_Sales -北美销售额(百万)
EU_Sales -欧洲销售额(百万)
JP_Sales -日本销售额(百万)
Other_Sales—世界其他地区销售额(百万)
Global_Sales—全球销售总额。
适用场景:电商、游戏销售,常规销售数据。
1.2明确分析思路
我们看到这些数据,到底有什么用呢,如何去分析呢?
首先明确目的:这批销售数据,我们用来干嘛,是分析游戏行业的发展趋势呢,还是分析各地区的销量,以及各游戏平台的发售情况等,这时需要结构化的去思考,去考虑,也就是数据分析最基础的部分。明确分析目的和思路,我们可以用思维导图的方式去思考。
目的:1.查看受欢迎的游戏类型、平台、发行商(前五名)
2.按地区,查看受欢迎的游戏类型、平台、发行商(前五名)
3.各地区销量变化趋势
4.各地区不同类型的游戏的销量变化趋势
好了接下来就让我们进行数据分析吧。
2.数据分析
2.1数据查看和清洗
import pandas as pd
import numpy as npSales_data = pd.read_csv('C:\\Users\\Administrator\\Desktop\\kaggle\\videogamesales\\vgsales.csv')
Sales_data.info()
Sales_data
通过查看,Year-游戏发行的年份,Publisher-游戏的出版者两个字段有缺失,那我们再来判断一下哪些有缺失的。
Sales_data.isnull().sum()
可以看到Year缺失271个,Publisher-游戏的出版者缺失58个。考虑到相对总体,缺失的值比较小,我们采取直接删除的方式。
Sales_data_new=Sales_data_new.dropna()
2.2数据分析
1.查看受欢迎的游戏类型、平台、发行商(前五名)
# 1.查看受欢迎的游戏类型、平台、发行商(前五名)
# 使用pandas数据透视表的功能:pivot_table()# 获取游戏类型的排序
Genre_data = Sales_data_new.pivot_table(index = 'Genre',values='Global_Sales',aggfunc=np.sum).sort_values('Global_Sales',ascending=False)
# 获取平台类排序
Platform_data = Sales_data_new.pivot_table(index = 'Platform',values='Global_Sales',aggfunc=np.sum).sort_values('Global_Sales',ascending=False)
# 获取发行商类排序
Publisher_data = Sales_data_new.pivot_table(index = 'Publisher',values='Global_Sales',aggfunc=np.sum).sort_values('Global_Sales',ascending=False).iloc[0:15]
# 进行画图
fig,(ax1,ax2)=plt.subplots(1,2,figsize=(15,3))
Genre_data.plot.bar(color='r',ax=ax1)
Platform_data.plot.bar(ax=ax2)
Publisher_data.plot.bar()
Publisher_data
从图中我们可以看到动作类和运动类最受欢迎,还有PS2发行平台也是最受欢迎的发行平台。
同时也可以看出最受欢迎的发行商是Nintendo和Electronic Arts。
2.按地区,查看受欢迎的游戏类型、平台、发行商(前五名)
# 2.按地区,查看受欢迎的游戏类型、平台、发行商(前五名)Genre_data_NA = Sales_data_new.pivot_table(index = ['Genre',],values='NA_Sales',aggfunc=np.sum).sort_values('NA_Sales',ascending=False)
Genre_data_EU = Sales_data_new.pivot_table(index = ['Genre',],values='EU_Sales',aggfunc=np.sum).sort_values('EU_Sales',ascending=False)
Genre_data_JP = Sales_data_new.pivot_table(index = ['Genre',],values='JP_Sales',aggfunc=np.sum).sort_values('JP_Sales',ascending=False)
Genre_data_Other = Sales_data_new.pivot_table(index = ['Genre',],values='Other_Sales',aggfunc=np.sum).sort_values('Other_Sales',ascending=False)
Genre_data_NA# Genre_data_DF = pd.concat([Genre_data_NA,Genre_data_EU,Genre_data_JP,Genre_data_Other],axis = 1)
data=Genre_data_NA
Genre_name = data._stat_axis.values.tolist()# explodes=[0.1,0.1,0.1,0.1]plt.figure(figsize=(10,10))
plt.subplot(2,2,1)
plt.pie(x=Genre_data_NA,labels=Genre_name,autopct="%0.1f%%",shadow=True)
plt.title("北美地区的不同类型游戏销售额")
plt.subplot(2,2,2)
plt.pie(x=Genre_data_EU,labels=Genre_name,autopct="%0.1f%%",shadow=True)
plt.title("欧洲地区的不同类型游戏销售额")
plt.subplot(2,2,3)
plt.pie(x=Genre_data_JP,labels=Genre_name,autopct="%0.1f%%",shadow=True)
plt.title("日本地区的不同类型游戏销售额")
plt.subplot(2,2,4)
plt.pie(x=Genre_data_Other,labels=Genre_name,autopct="%0.1f%%",shadow=True)
plt.title("其它地区的不同类型游戏销售额")
plt.show()
可以看到在北美和欧洲地区最受欢迎的游戏类型是动作型,然后是运动型,但在日本最受欢迎的是角色扮演类。
3.各地区销售额变化趋势
通过对比知道,在1995-2008年之间增长迅速,在2008-2015以后迅速下滑。
kaggle数据分析入门之---视频游戏销售分析相关推荐
- 数据分析6_视频游戏销售分析_kaggle入门
视频游戏销售分析 数据来源 kaggle数据集链接,共16598条记录,1MB. 本项目源码及数据源,提取码zahu. 采用Python+Tableau进行数据处理及可视化展示. 为减少篇幅,会尽量减 ...
- Java 入门课程视频实战-0基础 上线了,猜拳游戏,ATM实战,欢迎围观
Java 入门课程视频实战-0基础 已经上传完了.欢迎小伙伴们过来围观 直接进入: http://edu.csdn.net/course/detail/196 课程文件夹例如以下: 1 初识Java ...
- 数据分析入门 | kaggle泰坦尼克任务
这个章节主要是参加DataWhale的数据分析项目过程中的记录,希望能对感兴趣的同学有一些帮助. 目录索引 一.章节导航 二.其他集合 一.章节导航 数据分析入门 | kaggle泰坦尼克任务(一)- ...
- Python金融数据分析入门到实战-视频课程
大家好!很荣幸能够在CSDN上和各位同学分享这门课程. 本课程的核心为Python金融数据的分析,首先课程提取了数据分析工具NumPy.Pandas及可视化工具Matplotlib的关键点进行详细讲解 ...
- windows下nodejs express安装及入门网站,视频资料,开源项目介绍
windows下nodejs express安装及入门网站,视频资料,开源项目介绍,pm2,supervisor,npm,Pomelo,Grunt安装使用注意事项等总结 第一步:下载安装文件 下载地址 ...
- 探索性数据分析入门_入门指南:R中的探索性数据分析
探索性数据分析入门 When I started on my journey to learn data science, I read through multiple articles that ...
- 游戏引擎开发和物理引擎_视频游戏开发的最佳游戏引擎
游戏引擎开发和物理引擎 In this article, we'll look at some of the most popular game engines for video game deve ...
- 智能电子眼镜可监控健康,可进行脑机接口视觉刺激,控制视频游戏
点击上面"脑机接口社区"关注我们 更多技术干货第一时间送达 健身追踪器手镯和手表可提供有用的信息,例如步数和心率,但它们通常无法提供有关佩戴者健康状况的更详细数据.现在,在ACS ...
- 数据分析入门——推荐基础书以及实用网站
数据分析入门: 一开始肯定是数学基础巩固: 线性代数.统计论等.参考书成千上百,最重要还是理解透! 二就是各种软件的熟悉利用:EXCEL SPSS SAS 等,这是我桌面常用到的软件: 三便是进阶版, ...
最新文章
- php轻博客社区视频教程,轻博客主题 - SEO极致优化的ZBLOG轻博客主题
- matlab帮助_【MATLAB】使用 APP DESIGNER 模块来帮助你做参数设计
- 就地过年的年轻人都去搜索“年夜饭”外卖了
- 【FLink】Flink exactly once 每次都是产生一个新的生产者吗?
- HTML5的设计目的是为了在移动设备上支持多媒体
- 萌新关于C#委托一点见解
- PHP水仙花问题解法之一
- asp.net mvc redis同步mysql_Mysql和Redis数据同步策略 - 元思 - 博客园
- 【转】[演讲口才]成功沟通100招
- java网络编程Socket客户端给服务器端通信
- git runner 配置_GitLab Runner 入门及常见问题
- Ridge和Lasso回归代码实现--Tensorflow部分
- 实验2:MIPS指令系统和MIPS体系结构
- 3.JAVAEE-电子商城-用户管理模块
- SASE(什么是SASE)
- Qt 错误 The process was ended forcefully(无法定位程序输入点 于动态链接库)
- Chrome浏览器查看网页源代码的几种方法
- GFE2022第43届广州特许连锁加盟展览会
- Path常用方法,不积硅步无以至千里
- Github标星5.3K,进阶学习工作最全指南
热门文章
- hbase bulkload java,HBase Bulkload 失败问题处理以及改进
- 网络引流平台都有哪些?推荐5种引流获客方式!
- Boost.Locale 之字符转换 gbk utf8 big5 string wstring等
- SpringBoot2.0集成Shiro
- css–sprit_CSS速记与速记–使用哪个
- 微信电脑版无法获取二维码
- 企业知识管理的重要性
- API Promise化
- 计算机文件丢失系统无法启动,因文件的丢失或者损坏导致系统无法启动的解决方法...
- js拦截弹窗广告原理及方法