数据分析实战—Video Game Sales电子游戏销售分析
文章目录
- 一、项目背景及目的
- 1.1项目背景
- 1.2分析目的
- 二、数据收集与整理
- 2.1数据来源
- 2.2数据说明
- 2.3理解数据
- 三、数据清洗
- 3.1导入数据
- 3.2列字段重命名
- 3.3缺失值处理
- 3.4数据类型转换
- 3.5异常值处理
- 3.6保存数据为csv格式
- 四、数据分析
- 4.1 从总体角度
- 4.2 从平台角度
- 4.3从类型角度
- 4.4从发行商角度
- 4.5 从排行榜角度
- 五、结论
一、项目背景及目的
1.1项目背景
vgsales是由vgchartz.com的一个刮版生成的,是电子游戏行业综合销售数据,希望通过分析电子游戏行业在全球的发展概况,产生一份综合的游戏行业报告。
1.2分析目的
从市场角度: 探究近几十年来电子游戏市场的发展趋势。
从平台角度: 探究用户最喜欢的游戏平台top10是什么,近些年的趋势有什么变化?
从类型角度: 探究用户最喜欢的游戏类型top10是什么,近些年的趋势有什么变化?
从发行商角度: 探究电子游戏发行商top10的销售情况以及近些年来的总体变化。(分别从销售额和发行量角度)
从排行榜角度: 对排行榜前100的电子游戏属性进行总结。
二、数据收集与整理
2.1数据来源
kaggle
https://www.kaggle.com/datasets/gregorut/videogamesales
2.2数据说明
数据集包含了从1980年到2020年来,发行的电子游戏销售数据。
文件名称 | 说明 | 包含特征 | 特征对应中文名称 |
---|---|---|---|
vgsales.csv | 电子游戏销售数据 | Rank、Name、Platform、Year、Genre、Publisher、NA_Sales、EU_Sales、JP_Sales Other_Sales、Global_Sales | 排名、游戏名、平台、发行年份、类型、发行商、NA销售额、EU销售额、JP销售额、其他地区销售额、总销售额 |
2.3理解数据
数据集的每一行表示一条用户行为,由排名、游戏名、平台、发行年份、类型、发行商、NA销售额、EU销售额、JP销售额、其他地区销售额、总销售额组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
列名称 | 说明 |
---|---|
排名 | 整数类型,序列化后的排名 |
游戏名 | 字符串,游戏名称 |
平台 | 字符串,该游戏发行平台名称 |
发行年份 | 浮点型,该游戏发行的日期 |
类型 | 字符串,该游戏的类型 |
发行商 | 字符串,该游戏的发行商名称 |
NA销售额 | 浮点型,小数点后有效数字为2位,该游戏北美销售额(百万) |
EU销售额 | 浮点型,小数点后有效数字为2位, 该游戏欧洲销售额(百万) |
JP销售额 | 浮点型,小数点后有效数字为2位,该游戏日本销售额(百万) |
其他地区销售额 | 浮点型,小数点后有效数字为2位,该游戏世界其他地区销售额(百万) |
总销售额 | 浮点型 ,小数点后有效数字为2位,该游戏全球销售总额(百万)。 |
三、数据清洗
3.1导入数据
导入数据,经查看,所有列字段都是有用的,无需删除。
3.2列字段重命名
将列字段转化为中文形式,增加可读性。
3.3缺失值处理
总行数为16598,其中空值总行为307,发行年份和发行商存在缺失值,由于缺失数据为非数值型的,不能用平均数,中位数之类的数据清洗方法进行补全,且占比为1.8%,因此选择观察删除缺失值后数据是否出现大幅变动,决定是否对缺失值进行删除处理。
发现删除缺失值后,总体没有出现大幅变化,所以选择执行删除缺失值操作。
3.4数据类型转换
发行年份为float数据类型,需要更改为int数据类型。
3.5异常值处理
经观察,该数据集无异常数据,故无需进行异常值处理。
3.6保存数据为csv格式
将清洗后的数据导出为csv格式,便于之后用Power BI进行可视化分析。
四、数据分析
使用Power BI进行可视化分析并对分析结果进行展示。
4.1 从总体角度
从总体角度进行可视化分析,探究近几十年来电子游戏市场总的一个发展趋势。
解读:
- 电子游戏市场起始于1980年,十多年间一直不温不火
- 此局面在1995年开始迎来转机,电子游戏市场高速增长,一路高歌猛进,在2008年达到一个巅峰期
- 2008年以后后由盛转衰,一路暴跌。
然后再拆解到不同地区,看电子游戏市场的销售额发展趋势:
解读:
- 不同地区电子游戏市场发展趋势同整体市场趋势是一致的
- 北美地区电子游戏市场大部分时间段均高于其他地区,从2000年开始高速增长,且增长幅度较其他区域而言更大,到2014年,与欧洲地区持平。
推测:
- 2008年全球遭遇经融危机,经济发展受到冲击,消费能力下降,导致电子游戏市场开始萎靡,同时人们对购买新游戏卡带这类娱乐形式的欲望减少。
- 2010年之后,科技进一步发展,pc电脑进入大街小巷,且智能手机也开始逐渐步入人们的视野,而顺应着时代的发展,游戏行业也迎来了巨大的变动,而这个时代的主角是端游和手游,这也是电子游戏销售金额在2008年以后暴跌的原因之一。
4.2 从平台角度
探究不同地区用户最喜欢的游戏平台top10是什么,近些年的趋势有什么变化?
解读
- PS2是全球电子游戏销售额最高的平台。
- 其中北美地区销售额最高的平台是X360,欧洲地区的是PS3,日本的是DS,其他地区的是PS2。
再来看看统计区间为2015年到2020年,不同地区用户最喜欢的游戏平台top10是什么,有何变化?
解读
- 在2015-2020期间PS4是全球电子游戏销售额最高的平台。
- 其中,北美地区销售额最高的平台是PS4,欧洲地区的是PS4,日本的是3DS,其他地区的是PS4。
整体趋势和近5年趋势结合来看:
- 随着时代与游戏技术的发展,电子游戏的运行要求变得越来越高,大部分不支持最新游戏的老平台都退出了历史舞台。
- 曾经的前十只剩下PS3,X360,PC,DS和Wii,且其市场地位也大幅滑落,仅X360能与新兴平台较量一番。
4.3从类型角度
探究用户最喜欢的游戏类型top10是什么,近些年的趋势有什么变化?
解读
- 动作类(Action)是全球电子游戏销售额最高的类型
- 其中,北美地区销售额最高的类型是动作类(Action),欧洲地区的是动作类(Action),日本的是角色扮演类(Role-playing),其他地区的是动作类(Action)
再来看看统计区间为2015年到2020年,不同地区用户最喜欢的游戏类型top10是什么,有何变化?
解读
- 在2015-2020期间动作类(Action)仍然是全球电子游戏销售额最高的类型
- 其中,北美地区销售额最高的类型变为射击类(Shooter),欧洲地区的是射击类(Shooter),日本的是动作类(Action),其他地区的是射击类(Shooter)
整体趋势和近5年趋势结合来看:
- 最受玩家欢迎的游戏类别一直是动作类(Action),但是射击类(Shooter)超过了运动类(sports),与动作类(Action)的差距也变得很小,且在四大市场中均占据销量第一位
- 平台游戏(Platform)是下降趋势最明显的游戏类型,平台游戏是如《超级马里奥》一样在2D水平面上使用各种方式或者跳跃(甚至滑翔)穿过障碍的游戏方式。但由于电子游戏也随着科技的进步进入了3D时代,玩家的玩法,需求等更丰富,而平台游戏难以承载如此多样化的需求进而导致其没落
4.4从发行商角度
探究电子游戏发行商top10的销售情况以及近些年来的总体变化。(分别从销售额角度和发行量角度)
我们先从销售额角度观察:
解读
- 任天堂(Nintendo)是全球电子游戏销售额最高的类型
- 其中,北美地区销售额最高的类型是任天堂(Nintendo),欧洲地区的是任天堂(Nintendo),日本的是角色扮演类任天堂(Nintendo),其他地区的是美国艺电(Electronic Arts)
接着我们观察2015-2020期间各发行商的发行量:
发行量与销售额结合来看:
- 美国艺电总得游戏发行量位列第一,而任天堂仅位为第7,但是任天堂的销售额却稳居第一,可以认为任天堂发行的游戏质量十分之高,受到玩家的高度喜爱
- 万代南梦宫(Bandai Namco Games)却与任天堂恰好相反,其发行量位列第三,仅稍次于动视(Activision),而其销售额仅为第十,不到任天堂的15%,可以猜测其游戏相较于销售额前10的其他游戏发行商,在玩家中的人气略低
- 其他游戏发行商的发行量与销售额基本呈正相关
再来看看统计区间为2015年到2020年,不同地区最受欢迎的发行商top10是什么,有何变化?
我们先从销售额角度观察:
解读
- 在2015-2020期间美国艺电(Electronic Arts)是全球电子游戏销售额最高的类型
- 其中,北美地区销售额最高的类型是是美国艺电(Electronic Arts),欧洲地区的是是美国艺电(Electronic Arts),日本的是角色扮演类任天堂(Nintendo),其他地区的是美国艺电(Electronic Arts)
2015-2020期间发行量:
发行量与销售额结合来看:
- 可以看出万代南梦宫(Bandai Namco Games)的市场策略仍主打游戏发行量,几乎是发行量排名第二的动视(Activision)的一倍,而销售额却仅仅位列第六,不到销售额排名第一的美国艺电(Electronic Arts)的四成
- 近些年美国艺电(Electronic Arts)的游戏质量提升,在玩家中的口碑不错
- 任天堂近些年稍显颓势
4.5 从排行榜角度
最后我们对排行榜前100的电子游戏属性进行一个总结,观察销售额前100的游戏具有怎样的特征。
解读:
- Top100的游戏中,来自任天堂发行的游戏占63%,可以说明其霸主地位无可撼动
- Top100的游戏中,横版平台游戏(Platform)、射击类游戏(Shooter)和角色扮演类游戏(Role-playing)占据半壁江山
- Top100的游戏中,玩家更多的集中在Wii,DS,X360三个平台
五、结论
- 受2008年金融危机影响,以及pc游戏和手游的冲击,电子游戏从1995年开始蓬勃发展,在2008年达到一个巅峰,此后开始一路走弱,呈现大幅度的下滑。
- 北美是电子游戏的主力市场,其购买力是最强的,其次是欧洲。
- 整体来看,PS2是最受玩家欢迎的平台,但目前已被PS4所取代。
- 动作游戏一直是玩家最喜爱的游戏类型,其次是射击类和运动类。
- 占据头部市场的发行商变化不大,整体看来任天堂是最受玩家欢迎的发行商,其经典游戏在玩家中的地位不可撼动,但近些年稍显颓势,其新发行的游戏对玩家吸引力稍显不足。
- Top100的游戏中,一大半来自于任天堂发行,多为横版平台游戏(Platform)、射击类游戏(Shooter)和角色扮演类游戏(Role-playing), 玩家集中在Wii,DS,X360三个平台。
初涉数据分析,如有不足之处还望不吝指教~
数据分析实战—Video Game Sales电子游戏销售分析相关推荐
- (kaggle)Video Game Sales电子游戏销售分析
模块导入 项目介绍 项目来源:kaggle 项目介绍:由vgchartz.com的一个刮版生成的,有一份综合的游戏行业销售数据,希望产生一份综合的游戏行业报告 数据介绍:包含游戏名称.类型.发行时间. ...
- Kaggle:Video Game Sales电子游戏销售分析(Tableau展示)
文章目录 项目介绍 分析思路导图 数据导入 数据探索 数据展示 项目介绍 项目来源:Kaggle: 项目介绍:由vgchartz.com的一个刮版生成的,有一份综合的游戏行业销售数据,希望产生一份综合 ...
- 数据分析实战——日化用品在门店的销售分析
这是一个竞赛的题目,包括但不限于以下分析维度: 各门店商品销量与利润,时间趋势 各类别商品销量与利润 各价格区间内的畅销商品与滞销商品 销售淡季和销售旺季的商品销量分布 根据以上分析目的,主要进行利润 ...
- 数据分析实战(一) Pandas分析Kaggle电子游戏销量数据集
目录 一.数据集初识 二.数据读取与预处理 三.描述性统计分析 四.时序分析 一.数据集初识 数据量: 共计16598条数据 数据来源:Video Games Sales 数据字段: 字段名 含义 R ...
- 【天池龙珠计划】Python训练营 Task04 Python数据分析:从0完成一个数据分析实战
[天池龙珠计划]Python训练营 Task04 Python数据分析:从0完成一个数据分析实战(利用Pandas分析美国选民总统喜好度) 文章目录 [天池龙珠计划]Python训练营 Task04 ...
- 腾讯弹幕数据分析实战
腾讯弹幕数据分析实战 通用爬虫代码: 令人心动的offer2可视化分析 批量导入数据并合并 数据读取 数据处理及清洗 重命名 过滤字段 时间格式转换 机械压缩函数处理comment 会员等级打标 数据 ...
- 看书标记【R语言 商务数据分析实战9】
看书标记--关于R语言 chapter 9 9.2 任务实现 [R语言 商务数据分析实战9] chapter 9 餐饮企业综合分析 统计分析>>ARIMA预测销售额>>协同过滤 ...
- 临床基因组学数据分析实战助力解析Case,快速发表文章
福利公告:首期<临床基因组学数据分析实战>线上/线下课程已圆满结束.现于2022年春节前,安排第二期和第三期课程,分别为:北京,2021年12月24-26:广州,2022年1月7-9.(线 ...
- 北京、广州同时开课 | 临床基因组学数据分析实战助力解析Case,快速发表文章...
福利公告:首期<临床基因组学数据分析实战>线上/线下课程已圆满结束.现于2022年春节前,安排第二期和第三期课程,分别为:北京,2021年12月24-26:广州,2022年1月7-9.(线 ...
- 临床基因组学数据分析实战开课啦!!!
福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现安排<临床基因组学数据分析实战>于2021年11月12-14 线上/线下课程 (线上课是通过腾讯会议实时直播线下课,实时互 ...
最新文章
- 『图解Java并发』面试必问的CAS原理你会了吗?
- e.getMessage() e.printStackTrace() 和e.printStackTrace() 小结
- linux cat 递归目录,实验二 linux文件目录操作
- 11月14日,西安,听说有一节百度AI快车道课程在等你上车
- Friday the Thirteenth
- php session不生效_php验证session无效的解决方法
- c语言学生管理p1指向编译错误,在ubuntu下用C语言编写一个学生管理系统,编译时出错,紧急求救!!!...
- ubuntu facebook/C3D视频特征提取
- 全景视频的格式转换工具
- MSI文件无法安装问题
- 基于python的证件照_不到20行实现Python代码即可制作精美证件照
- ACL流量控制工具-- 王贝的学习笔记
- 水上飞机行业调研报告 - 市场现状分析与发展前景预测
- linux 系统安装aria2以及配置web端
- 题目:分别统计字符串中大写字母和小写字母的个数。
- windows下安装docker详细步骤
- php实现图片的翻滚,css实现图片滚动 - 我是希希呀的个人空间 - OSCHINA - 中文开源技术交流社区...
- python的imaplib实现搜索邮件
- 武汉理工学计算机能保研吗,欢迎访问武汉理工大学计算机科学与技术学院
- QUTOJ 1218: 核电站问题 递推