1、明确分析需求

1.1数据介绍

项目介绍:由vgchartz.com的一个刮版生成的,有一份综合的游戏行业销售数据,希望产生一份综合的游戏行业报告
数据介绍:包含游戏名称、类型、发行时间、发布者以及在全球各地的销售额数据。
字段包括
RANK-总销售额的排名
Name-游戏的名字
Platform-游戏发布平台(即PC,PS4等)
Year-游戏发行的年份
Genre-游戏的类型
Publisher-游戏的出版者
NA_Sales -北美销售额(百万)
EU_Sales -欧洲销售额(百万)
JP_Sales -日本销售额(百万)
Other_Sales—世界其他地区销售额(百万)
Global_Sales—全球销售总额。
适用场景:电商、游戏销售,常规销售数据。

1.2明确分析思路

我们看到这些数据,到底有什么用呢,如何去分析呢?
首先明确目的:这批销售数据,我们用来干嘛,是分析游戏行业的发展趋势呢,还是分析各地区的销量,以及各游戏平台的发售情况等,这时需要结构化的去思考,去考虑,也就是数据分析最基础的部分。明确分析目的和思路,我们可以用思维导图的方式去思考。

目的:1.查看受欢迎的游戏类型、平台、发行商(前五名)
2.按地区,查看受欢迎的游戏类型、平台、发行商(前五名)
3.各地区销量变化趋势
4.各地区不同类型的游戏的销量变化趋势

好了接下来就让我们进行数据分析吧。

2.数据分析

2.1数据查看和清洗

import pandas as pd
import numpy as npSales_data = pd.read_csv('C:\\Users\\Administrator\\Desktop\\kaggle\\videogamesales\\vgsales.csv')
Sales_data.info()
Sales_data


通过查看,Year-游戏发行的年份,Publisher-游戏的出版者两个字段有缺失,那我们再来判断一下哪些有缺失的。

Sales_data.isnull().sum()


可以看到Year缺失271个,Publisher-游戏的出版者缺失58个。考虑到相对总体,缺失的值比较小,我们采取直接删除的方式。

Sales_data_new=Sales_data_new.dropna()

2.2数据分析

1.查看受欢迎的游戏类型、平台、发行商(前五名)

# 1.查看受欢迎的游戏类型、平台、发行商(前五名)
# 使用pandas数据透视表的功能:pivot_table()# 获取游戏类型的排序
Genre_data = Sales_data_new.pivot_table(index = 'Genre',values='Global_Sales',aggfunc=np.sum).sort_values('Global_Sales',ascending=False)
# 获取平台类排序
Platform_data = Sales_data_new.pivot_table(index = 'Platform',values='Global_Sales',aggfunc=np.sum).sort_values('Global_Sales',ascending=False)
# 获取发行商类排序
Publisher_data = Sales_data_new.pivot_table(index = 'Publisher',values='Global_Sales',aggfunc=np.sum).sort_values('Global_Sales',ascending=False).iloc[0:15]
# 进行画图
fig,(ax1,ax2)=plt.subplots(1,2,figsize=(15,3))
Genre_data.plot.bar(color='r',ax=ax1)
Platform_data.plot.bar(ax=ax2)
Publisher_data.plot.bar()
Publisher_data


从图中我们可以看到动作类和运动类最受欢迎,还有PS2发行平台也是最受欢迎的发行平台。

同时也可以看出最受欢迎的发行商是Nintendo和Electronic Arts。
2.按地区,查看受欢迎的游戏类型、平台、发行商(前五名)

# 2.按地区,查看受欢迎的游戏类型、平台、发行商(前五名)Genre_data_NA = Sales_data_new.pivot_table(index = ['Genre',],values='NA_Sales',aggfunc=np.sum).sort_values('NA_Sales',ascending=False)
Genre_data_EU = Sales_data_new.pivot_table(index = ['Genre',],values='EU_Sales',aggfunc=np.sum).sort_values('EU_Sales',ascending=False)
Genre_data_JP = Sales_data_new.pivot_table(index = ['Genre',],values='JP_Sales',aggfunc=np.sum).sort_values('JP_Sales',ascending=False)
Genre_data_Other = Sales_data_new.pivot_table(index = ['Genre',],values='Other_Sales',aggfunc=np.sum).sort_values('Other_Sales',ascending=False)
Genre_data_NA# Genre_data_DF = pd.concat([Genre_data_NA,Genre_data_EU,Genre_data_JP,Genre_data_Other],axis = 1)
data=Genre_data_NA
Genre_name = data._stat_axis.values.tolist()# explodes=[0.1,0.1,0.1,0.1]plt.figure(figsize=(10,10))
plt.subplot(2,2,1)
plt.pie(x=Genre_data_NA,labels=Genre_name,autopct="%0.1f%%",shadow=True)
plt.title("北美地区的不同类型游戏销售额")
plt.subplot(2,2,2)
plt.pie(x=Genre_data_EU,labels=Genre_name,autopct="%0.1f%%",shadow=True)
plt.title("欧洲地区的不同类型游戏销售额")
plt.subplot(2,2,3)
plt.pie(x=Genre_data_JP,labels=Genre_name,autopct="%0.1f%%",shadow=True)
plt.title("日本地区的不同类型游戏销售额")
plt.subplot(2,2,4)
plt.pie(x=Genre_data_Other,labels=Genre_name,autopct="%0.1f%%",shadow=True)
plt.title("其它地区的不同类型游戏销售额")
plt.show()


可以看到在北美和欧洲地区最受欢迎的游戏类型是动作型,然后是运动型,但在日本最受欢迎的是角色扮演类。
3.各地区销售额变化趋势

通过对比知道,在1995-2008年之间增长迅速,在2008-2015以后迅速下滑。

kaggle数据分析入门之---视频游戏销售分析相关推荐

  1. 数据分析6_视频游戏销售分析_kaggle入门

    视频游戏销售分析 数据来源 kaggle数据集链接,共16598条记录,1MB. 本项目源码及数据源,提取码zahu. 采用Python+Tableau进行数据处理及可视化展示. 为减少篇幅,会尽量减 ...

  2. Java 入门课程视频实战-0基础 上线了,猜拳游戏,ATM实战,欢迎围观

    Java 入门课程视频实战-0基础 已经上传完了.欢迎小伙伴们过来围观 直接进入: http://edu.csdn.net/course/detail/196 课程文件夹例如以下: 1 初识Java  ...

  3. 数据分析入门 | kaggle泰坦尼克任务

    这个章节主要是参加DataWhale的数据分析项目过程中的记录,希望能对感兴趣的同学有一些帮助. 目录索引 一.章节导航 二.其他集合 一.章节导航 数据分析入门 | kaggle泰坦尼克任务(一)- ...

  4. Python金融数据分析入门到实战-视频课程

    大家好!很荣幸能够在CSDN上和各位同学分享这门课程. 本课程的核心为Python金融数据的分析,首先课程提取了数据分析工具NumPy.Pandas及可视化工具Matplotlib的关键点进行详细讲解 ...

  5. windows下nodejs express安装及入门网站,视频资料,开源项目介绍

    windows下nodejs express安装及入门网站,视频资料,开源项目介绍,pm2,supervisor,npm,Pomelo,Grunt安装使用注意事项等总结 第一步:下载安装文件 下载地址 ...

  6. 探索性数据分析入门_入门指南:R中的探索性数据分析

    探索性数据分析入门 When I started on my journey to learn data science, I read through multiple articles that ...

  7. 游戏引擎开发和物理引擎_视频游戏开发的最佳游戏引擎

    游戏引擎开发和物理引擎 In this article, we'll look at some of the most popular game engines for video game deve ...

  8. 智能电子眼镜可监控健康,可进行脑机接口视觉刺激,控制视频游戏

    点击上面"脑机接口社区"关注我们 更多技术干货第一时间送达 健身追踪器手镯和手表可提供有用的信息,例如步数和心率,但它们通常无法提供有关佩戴者健康状况的更详细数据.现在,在ACS ...

  9. 数据分析入门——推荐基础书以及实用网站

    数据分析入门: 一开始肯定是数学基础巩固: 线性代数.统计论等.参考书成千上百,最重要还是理解透! 二就是各种软件的熟悉利用:EXCEL SPSS SAS 等,这是我桌面常用到的软件: 三便是进阶版, ...

最新文章

  1. php轻博客社区视频教程,轻博客主题 - SEO极致优化的ZBLOG轻博客主题
  2. matlab帮助_【MATLAB】使用 APP DESIGNER 模块来帮助你做参数设计
  3. 就地过年的年轻人都去搜索“年夜饭”外卖了
  4. 【FLink】Flink exactly once 每次都是产生一个新的生产者吗?
  5. HTML5的设计目的是为了在移动设备上支持多媒体
  6. 萌新关于C#委托一点见解
  7. PHP水仙花问题解法之一
  8. asp.net mvc redis同步mysql_Mysql和Redis数据同步策略 - 元思 - 博客园
  9. 【转】[演讲口才]成功沟通100招
  10. java网络编程Socket客户端给服务器端通信
  11. git runner 配置_GitLab Runner 入门及常见问题
  12. Ridge和Lasso回归代码实现--Tensorflow部分
  13. 实验2:MIPS指令系统和MIPS体系结构
  14. 3.JAVAEE-电子商城-用户管理模块
  15. SASE(什么是SASE)
  16. Qt 错误 The process was ended forcefully(无法定位程序输入点 于动态链接库)
  17. Chrome浏览器查看网页源代码的几种方法
  18. GFE2022第43届广州特许连锁加盟展览会
  19. Path常用方法,不积硅步无以至千里
  20. Github标星5.3K,进阶学习工作最全指南

热门文章

  1. hbase bulkload java,HBase Bulkload 失败问题处理以及改进
  2. 网络引流平台都有哪些?推荐5种引流获客方式!
  3. Boost.Locale 之字符转换 gbk utf8 big5 string wstring等
  4. SpringBoot2.0集成Shiro
  5. css–sprit_CSS速记与速记–使用哪个
  6. 微信电脑版无法获取二维码
  7. 企业知识管理的重要性
  8. API Promise化
  9. 计算机文件丢失系统无法启动,因文件的丢失或者损坏导致系统无法启动的解决方法...
  10. js拦截弹窗广告原理及方法