阿里天池:Task 04:Python数据分析:从0完成一个数据分析实战(第4部分)
阿里天池:Task 04:Python数据分析:从0完成一个数据分析实战(第4部分)
学习内容:Python数据分析
Python训练营内容:
题目及内容介绍部分
宝可梦数据分析-平民最强宝可梦选择方案
数据时代的到来刷新了人们探索未知的方式,从基础能源建设到航天航空工程。在关都地区真新镇大木研究所一直孜孜不倦对精灵宝可梦进行研究的大木博士也不例外,在剧中我们就常常可以看到大木博士制作的精灵图鉴一直在给探险家们提供宝可梦的简单分析,包括宝可梦的身高,体重,特性等等。但是作为从小就向往前往大木博士研究所成为宝可梦联盟最强训练师/宝可梦研究大师的我,仅仅是分析单个宝可梦的数据远远满足不了我的需求。
与其他探险家旅游挑战道馆的方式不同,我决定通过使用数据分析的方式来帮助我更好的了解宝可梦这种神奇的生物,然后再选择最经济实惠,简单好抓的宝可梦来挑战联盟。通过使用搜索引擎,我找到了一份包含着从第一代到第七代共801只宝可梦的数据集。然后由于博士的实验室并没有丰富的研究经费,我决定选择有 免费计算资源 且 预置了许多常用数据分析依赖库 的 DSW 探索者版 来帮助我完成分析的过程。 大家可以点击这里去游览整个分析的过程。
数据集下载
# 数据集下载
!wget -O pokemon_data.csv https://pai-public-data.oss-cn-beijing.aliyuncs.com/pokemon/pokemon.csv
然后我们import我们最常用的三大件:Pandas, Seaborn, Matplotlib, 并且读取数据
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as pltdf = pd.read_csv("./pokemon_data.csv")
首先我们观察一下数据的尺寸,可以通过 df.shape
这个来实现。当然 df.info()
能够给我们更加详细的每个列的信息。这里我们通过这个方式,可以发现这个数据集一共收录了801行,41列的数据。说明一共有801只宝可梦,每只宝可梦我们有41个特征来描述它们。
然后就迎来了我们的第一个问题:这么多特征,是否会有数据缺失呢?毕竟有些宝可梦比较神秘感,就连大木博士都不一定知道。这里我们可以通过如下代码来观察每个特征的缺失情况:
# 计算出每个特征有多少百分比是缺失的
percent_missing = df.isnull().sum() * 100 / len(df)
missing_value_df = pd.DataFrame({'column_name': df.columns,'percent_missing': percent_missing
})
# 查看Top10缺失的
missing_value_df.sort_values(by='percent_missing', ascending=False).head(10)
通过查看以上数据,我们可以发现,type2
这个字段缺失的比率最高,达到了 48% 左右。说明超过半数的宝可梦还是单纯的只有一个属性,剩下一般的则具有两种属性。
然后第二个问题就是:这么多宝可梦,每代分别有几只?这里我们可以通过简单的 df['generation'].value_counts()
来得到。但是为了更加直观的表现出不同代的宝可梦的数量差别,这里我们可以用pandas
自带的画图的功能来绘制一个柱状图:通过查看以上数据,我们可以发现,type2
这个字段缺失的比率最高,达到了 48% 左右。说明超过半数的宝可梦还是单纯的只有一个属性,剩下一般的则具有两种属性。
然后第二个问题就是:这么多宝可梦,每代分别有几只?这里我们可以通过简单的 df['generation'].value_counts()
来得到。但是为了更加直观的表现出不同代的宝可梦的数量差别,这里我们可以用pandas
自带的画图的功能来绘制一个柱状图:
# 查看各代口袋妖怪的数量
df['generation'].value_counts().plot.bar()
不难发现,宝可梦数量最多的是在第5代,最少的是在第6代。然后我们再来看不同的主属性的分布。这里我们可以先做一些简单的假设,比如虫属性的宝可梦种类比较多因为在剧中出现的频率相当高,而且有很多种进化。
# 查看每个系口袋妖怪的数量
df['type1'].value_counts().sort_values(ascending=True).plot.barh()
这里我们将之前的柱状图横过来了,更便于观察。这里我们可以看到,数量最多的宝可梦是水系,然后是普通,然后是草系。虫系只排在了第四,并没有和预期中那样那么多。
看完了基础的一些分布,接下来我会想做一些简单的相关性分析。我们可以通过以下的代码生成相关性图
# 相关性热力图分析
plt.subplots(figsize=(20,15))
ax = plt.axes()
ax.set_title("Correlation Heatmap")
corr = df.corr()
sns.heatmap(corr, xticklabels=corr.columns.values,yticklabels=corr.columns.values)
来了解不同特征之间的关联,这对我们了解宝可梦的特性很有帮助。比如通过观察 attack 这一个特征和 height_m 是正相关的,我们可以得出:越高的宝可梦,攻击力越高。但是再看 height_m,我们会发现它和 base_happiness 是负相关的。这个时候我们可以作出另外一个结论:长得高的宝可梦可能都不太开心。
接下来我们从宝可梦在实战中的角度来分析这组数据。这里我们只关注六个基础值:血量,攻击力,防御力,特攻,特防,速度。因为只有这六个基础值决定了一只宝可梦的战斗力在不考虑派系克制的情况下。
interested = ['hp','attack','defense','sp_attack','sp_defense','speed']
sns.pairplot(df[interested])
这里我们可以看到大部分都是成正比例的,一个值的提高往往会拉高另外一个值。这点我们通过相关性热力图也可以看到
# 通过相关性分析heatmap分析五个基础属性
plt.subplots(figsize=(10,8))
ax = plt.axes()
ax.set_title("Correlation Heatmap")
corr = df[interested].corr()
sns.heatmap(corr, xticklabels=corr.columns.values,yticklabels=corr.columns.values,annot=True, fmt="f",cmap="YlGnBu")
看完这些以后,我们就可以开始计算种族值然后来选取我们的平民神兽了。毕竟不是每个人都能收服代欧奇希斯,超梦,梦幻这种传说级别的宝可梦。这里我们可以通过如下方式,先做一个特征类型转化,然后再计算
for c in interested:df[c] = df[c].astype(float)
df = df.assign(total_stats = df[interested].sum(axis=1))
这样我们就完成了用 total_stats
这个字段来存储种族值这一特征。我们可以做个柱状图可视化来看看种族值的分布是什么样的:
# 种族值分布
total_stats = df.total_stats
plt.hist(total_stats,bins=35)
plt.xlabel('total_stats')
plt.ylabel('Frequency')
同时我们还可以根据不同的属性来看:
# 不同属性的种族值分布
plt.subplots(figsize=(20,12))
ax = sns.violinplot(x="type1", y="total_stats",data=df, palette="muted")
找到非传说宝可梦但是种族值达到了的传说宝可梦级别的
最后我们就可以通过简单的过滤和排序来找到我们应该去捕捉的宝可梦了:
df[(df.total_stats >= 570) & (df.is_legendary == 0)]['name'].head(10)
从结果上来看,我们平民宝可梦训练师应该考虑的Top10宝可梦应该是:妙蛙花,喷火龙,水箭龟,比雕,胡地,呆河马,耿鬼,袋兽,大甲,暴鲤龙。这样,我们就通过简单的数据分析,完成了大多数宝可梦动漫中的训练师不可能完成的任务。这么想想,升职加薪,出任CEO,赢取白富美,当上研究所所长的日子简直指日可待呀!
结果仅供参考。。。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/adminkeys/article/details/108532946
另附ipython及数据集文件地址:https://download.csdn.net/download/adminkeys/12837523
阿里天池:Task 04:Python数据分析:从0完成一个数据分析实战(第4部分)相关推荐
- 【天池龙珠计划】Python训练营 Task04 Python数据分析:从0完成一个数据分析实战
[天池龙珠计划]Python训练营 Task04 Python数据分析:从0完成一个数据分析实战(利用Pandas分析美国选民总统喜好度) 文章目录 [天池龙珠计划]Python训练营 Task04 ...
- 阿里云天池 Python训练营Task4: Python数据分析:从0完成一个数据分析实战 学习笔记
本学习笔记为阿里云天池龙珠计划Python训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/promotion/aicamppython?spm=5 ...
- Python基础入门:从0完成一个数据分析实战—阿里云天池 Task 4
精灵宝可梦数据集分析 不知不觉已经学到最后一天了,今天的任务是进行一个新手数据分析.其实每个人对于学习都是有着自己的经验和方法的,10天的学习还是有提升的,最主要的还是隐约找到了消失了很久的方向感. ...
- 《天池龙珠 - Python训练营》04.Python数据分析:从0完成一个数据分析实战
目录 1.赛前准备 2.数据处理 3.数据探索与清洗 4.数据分析与数据可视化 5.补充 1.赛前准备 按照官方的新手教程,大致可概括为以下内容: 数据源介绍(详情参考训练营文档) 安装运行Pytho ...
- Python训练营-Task 4 Python数据分析:从0完成一个数据分析实战
#学习网址:https://tianchi.aliyun.com/competition/entrance/531837/introduction?spm=5176.19700039.J_905975 ...
- 阿里云Python数据分析:从0完成一个数据分析实战
一.赛题背景 Python入门系列主要带领学习者利用Python进行数据分析以及数据可视化,包含数据集的处理.数据探索与清洗.数据分析.数据可视化四部分,利用pandas.matplotlib.wor ...
- 阿里云-Task 4Python数据分析:从0完成一个数据分析实战
一.赛题背景 Python入门系列主要带领学习者利用Python进行数据分析以及数据可视化,包含数据集的处理.数据探索与清洗.数据分析.数据可视化四部分,利用pandas.matplotlib.wor ...
- Python数据分析:从0完成一个数据分析实战
源地址: [Python入门系列]用Pandas揭秘美国选民的总统喜好-天池大赛-阿里云天池 https://tianchi.aliyun.com/competition/entrance/53183 ...
- 天池实验室-Task04-Python数据分析:从0完成一个数据分析实战
数据分析入门活动赛事,利用Pandas分析美国选民总统喜好度 数据集介绍 所有候选人信息 该文件为每个候选人提供一份记录,并显示候选人的信息.总收入.从授权委员会收到的转账.付款总额.给授权委员会的转 ...
最新文章
- TCMalloc:线程缓存的Malloc
- java im 框架_Netty实战:设计一个IM框架
- 【Android 逆向】substrate 框架 ( substrate 简介 | substrate 相关文档资料 )
- POJ-2942:吃糖果
- 5月19-20日WebRTCon 2018 梳理全球WebRTC技术实践与案例
- 按小时分组mysql 补齐_分组记录按小时或按天白天和mysql的
- 学习Duwamish7的MSDN说明及相关技术策略
- 罗永浩将举办「老人与海」发布会;微软疑似遭遇大范围全球宕机;Python 3.9 首个测试版发布 | 极客头条...
- Discuz支持反对提示:抱歉您的请求来路不正确或表单无法提交的解决方法
- 【学习笔记】如何理解Raft中的ReadIndex?
- 百度算法频频更新,草根站长的出路何在?
- 数据分析进阶 - 评分模型权重计算方法
- 海思Hi3798MV100机顶盒芯片介绍
- ios:新浪微博iphone客户端
- 木板切割问题(二)——动态规划
- GStreamer - On Windows
- 百慕大财政部批准Velocity Ledger ICO申请
- 前端参数用MD5加密
- oracle中执行某sql语句后,如一系列delete、update等操作,怎么看影响的行数?如我执行了n个表的delete语句,得看我删除了多少数据,万一sql写的有问题,误删了数据,不是灾难?
- HTML生日快乐代码 (粉色主题)(HTML5+CSS3+JS)520表白代码/七夕情人节网页/告白/求婚/生日快乐...