本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于CDA数据分析师 ,作者:CDA数据分析师

前言

2020年年初,突然袭来的新冠疫情给我们的生活带来了巨大的改变,与此同时也让许多国际体育赛事停摆。3月24日,东京奥组委宣告,2020东京夏季奥运会延期至2021年夏季举行。

随着国内疫情逐渐得到有效控制,我们的生活已步入正轨,但全球的疫情形势还很严峻。8月份以来,日本的第二波疫情来势汹汹,单日新增确诊人数不断刷新历史新高,11月18日单日新增确诊人数已达到2201人。

这也使得原本延迟一年的2020东京奥运会,再次笼罩上了一层不确定性。人们不禁在想,已经要延期一年的东京奥运会还能顺利举办吗?

那么关于奥运会这场世界上影响力最大的体育盛会,背后有哪些有趣的数据?

奥运会参赛国数量和比赛项目有哪些变化?

各国累计奖牌数排名是怎样的?

参赛运动员的年龄和身高有哪些特征?

今天我们就带你用数据来好好盘一盘。

奥林匹克运动会发源于两千多年前的古希腊,因举办地在奥林匹亚而得名。并于1896年举办了首届奥运会,1924年举办了首届冬奥会,是世界上影响力最大的体育盛会。

数据理解

我们选取了一个关于现代奥运会的历史数据集,包括从1896年雅典奥运会到2016年里约奥运会的所有奥运会。

数据集取自网站:www.sports-reference.com

需要注意的是,冬季奥运会和夏季奥运会从1994年起分开,每两年间隔举行,1992年冬季奥运会是最后一届与夏季奥运会同年举行的冬奥会。自1924年开始第1届,截至2018年共举办了23届,每四年一届。

athlete_events.csv 文件包含271116行和15列。每一行对应于在一个单独的奥运会项目(运动员项目)中参赛的运动员。列为:

  • ID - 运动员的ID编号
  • Name - 运动员姓名
  • Sex - 性别
  • Age - 年龄
  • Height - 身高(cm)
  • Weight - 体重(kg)
  • Team - 队伍名称
  • NOC - 国家奥委会编码
  • Games - 年份和季节
  • Year - 年份
  • Season - 季节
  • City - 主办城市
  • Sport - 体育运动
  • Event - 比赛项目
  • Medal - 获奖情况(金牌、银牌、铜牌或无)

读入数据

首先导入包和数据。

# 导入库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns import plotly as py
import plotly.graph_objs as go
import plotly.express as px
import plotly.figure_factory as ff
from plotly.subplots import make_subplotspyplot = py.offline.plot# 读入数据
df_athlete = pd.read_csv('./archive/athlete_events.csv')
df_regions = pd.read_csv('./archive/noc_regions.csv')
df_athlete.head() 
df_athlete.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 271116 entries, 0 to 271115
Data columns (total 15 columns):#   Column  Non-Null Count   Dtype
---  ------  --------------   -----  0   ID      271116 non-null  int64  1   Name    271116 non-null  object 2   Sex     271116 non-null  object 3   Age     261642 non-null  float644   Height  210945 non-null  float645   Weight  208241 non-null  float646   Team    271116 non-null  object 7   NOC     271116 non-null  object 8   Games   271116 non-null  object 9   Year    271116 non-null  int64  10  Season  271116 non-null  object 11  City    271116 non-null  object 12  Sport   271116 non-null  object 13  Event   271116 non-null  object 14  Medal   39783 non-null   object
dtypes: float64(3), int64(2), object(10)
memory usage: 31.0+ MBdf_regions.head() 

数据预处理

此处对数据做以下处理,以方便后续的分析:

  • 将两个数据集横向合并为一个数据集,Key为NOC这一列
  • Sex:数据值替换
  • Medal:空值填充
# 合并数据
df_all = pd.merge(df_athlete, df_regions, how='left', on='NOC')# 处理Sex列
df_all['Sex'] = df_all['Sex'].map({'M': 'Male', 'F': 'Female'})# 处理Medal列
df_all['Medal'].fillna('No Medal', inplace=True)
df_all.head() 

数据可视化

我们使用处理好的数据做数据可视化分析,结果如下:

奥运会总体数据

参赛国家数量变化

整体上来看,参赛国家呈现上升趋势,但其中有两届奥运会存在异常的下降。分别是:

1976年蒙特利尔奥运会:出现了规模空前的反种族歧视行动,此次运动会遭到了非洲国家的抵制,规模远逊于上届。

1980年莫斯科奥运会:为了表示对苏联入侵阿富汗的谴责和愤怒,美国带头拒绝参加1980年的莫斯科奥运会,并号召其他国家一起抵制。在美国的号召下,最终一共有65个国家抵制莫斯科奥运会,占当时报名参赛国数量的五分之二。最后只有80个国家参加莫斯科奥运会, 大约5000余人参赛,参赛人数还没有参与报道的记者数量多,创历史记录。

比赛项目数量变化

可以看出,奥运会的比赛项目呈现波浪式上升的趋势,其中在1980-2000年这20年,比赛项目增长趋势最大,且以夏季奥运会尤为突出,但2000年以后比赛项目增加趋势慢慢变为平稳的态势了。

各个国家累计奖牌数量TOP 20

我们选取了各个项目获得奖牌数目排名前20的国家,通过比较发现美国不管是金牌、银牌还是铜牌都领先很多,然后是俄罗斯和德国。由于缺席了多届奥运会,我国的累计奖牌数排名偏后。

奥运会参赛运动员数据

每届参赛人数

从图中可以观察到,夏季奥运会参赛最多人数的是2000年的悉尼奥运会,参赛人数13821人,冬季奥运会参赛人数最多的是2014年,参赛人数4891人。

参加夏季奥运会的人数远远多于冬季的人数,可能是比赛项目少的原因。同时,第一次世界大战和第二次世界大战期间没有举办过奥运会。

参赛运动员男女人数和比例变化

(男女人数变化)

(男女比例变化)

我们纵观整个奥运历史,虽然奥运会的开始,运动员男女比例较为悬殊,男性运动员占比一直高于女性运动员。但是我们可以看到,随着奥运会的发展,女性运动员的占比一直在提升,目前参加奥运会男女比例几乎接近于1:1。

参赛运动员年龄和奖牌数

图中可以看出,年龄的分布呈现右偏分布,其中80%的区域集中在19岁到33岁之间,25岁左右是运动员的黄金年龄。

纵观整个奥运史,年龄最小的运动员仅为10岁。1896年,第一届现代奥运会在希腊举办,仅仅10岁零218天的东道主体操选手Dimitrios Loundras参赛并获得了铜牌,

1928年阿姆斯特丹夏季奥运会中,一名97岁高龄的美国“运动员”,参加了雕刻的“运动项目”,但并未获得名次。这个记录应该是不会被打破了。

参赛运动员的身高、体重分布

(身高变化)

(体重变化)

我们筛选了1960年之后的数据,发现参赛选手中男性身高分布在127cm-226cm之间,女性身高分布在127cm-213cm之间,男性体重的分布在37kg-226kg之间,女性的体重分布在25kg-167kg之间。

结语

由于新冠疫情的影响,日本东京奥运会成为了现代奥林匹克运动史上首届被推迟的奥运会。而这次延期带来的影响无疑是巨大的,据多家日本媒体报道,东京奥运会推迟举行造成的直接经济损失约为60亿美元。赛事场馆和酒店的支出、人力成本等各项额外开支,都会让东道主接下来的筹办捉襟见肘。总之,还是期待明年的全球疫情能够有所好转吧...

参考资料:

http://rstudio-pubs-static.s3.amazonaws.com/510365_4989159dfb754097843f17b9606aabfe.html

维基百科 奥林匹克运动会

https://zh.wikipedia.org/wiki/%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%BF%90%E5%8A%A8%E4%BC%9A

今年的奥运会延期至2021年夏季举行,盘点一下历届奥运会数据相关推荐

  1. dnf手游服务器维护时效,DNF手游延期到2021年2月11日是真的吗 延期日期详细说明...

    DNF手游延期大家都已经知道了,但是很多玩家看到贴吧上写的期到2021年2月11日,本次就为大家带来了DNF手游延期到2021年2月11日是真的吗,也是延期日期详细说明,希望能帮到大家. DNF手游延 ...

  2. 历届奥运会中国金牌数

    历届奥运会中国金牌数 第30届伦敦 名次 国家/地区 金牌 银牌 铜牌 总数 1 美国 46 29 29 104 2 中国 38 27 23 88 3 英国 29 17 19 65 4 俄罗斯 24 ...

  3. 2021年全国职业院校技能大赛 “大数据技术与应用”—模拟赛题(三)

    2021年全国职业院校技能大赛 "大数据技术与应用" --模拟赛题(三) 文章适合了解大数据技术与应用技能大赛 赛题.文章在编写过程中难免有疏漏和错误,欢迎大佬指出文章的不足之处: ...

  4. 2021年全国职业院校技能大赛 “大数据技术与应用”—模拟赛题(二)

    2021年全国职业院校技能大赛 "大数据技术与应用" --模拟赛题(二) 文章适合了解大数据技术与应用技能大赛 赛题.文章在编写过程中难免有疏漏和错误,欢迎大佬指出文章的不足之处: ...

  5. 1896-2021历届奥运会奖牌榜动态排序(Matplotlib图表动画)

    摘 要 在制作动态排序动画之前,我们看一下数据的整理情况: a.对第1)种大部分数据的情况,先爬取下来,输出到excel(1): b.对第2)种小部分数据的情况,也先爬取下来,输出到另一个excel( ...

  6. 可视化|历届奥运会数据可视化

    文章目录 1 数据来源 2 数据可视化 2.1 数量可视化 1. 男性运动员年龄分布直方图 2. 女性运动员年龄分布直方图 3. 全体运动员年龄分布直方图 4. 男性运动员身高体重分布散点图 5. 女 ...

  7. 1896-2021历届奥运会奖牌榜(Python数据处理)

    阅读本文大约需要 3 分钟 摘 要 这两天在平台上看到一些创作者失去创作动力的感慨,OF只想说往事如昙花一现,我们都需要时刻静下心来,认真地考虑下自己的创作目标并付诸行动.遥想当年OF做软件系统的时候 ...

  8. 1896-2021历届奥运会奖牌动态排序动画(Python数据采集)

    阅读本文大约需要 5 分钟 摘 要 通过前4篇数据分析文章的讲解,本周开始OF要为大家带来数据分析的实战.实战的选材呢,OF是随机选取的,如果大家有什么想要分析的难题,可以私信沟通. 本来想从网上直接 ...

  9. 2021年深圳市公交线网和地铁线网数据

    2021年深圳市公交线网和地铁线网数据 矢量地图 / 矢量路网数据 数据内容:2021年深圳市公交线网和地铁线网数据 数据格式:.shp格式,wgs1984坐标系 字段:线路名称.起始站点.终点站.票 ...

最新文章

  1. Leap Motion+第六感或引发人机交互革命
  2. oracle 12c chad,ORACLE 12.2RAC之问题 ora.chad OFFLINE
  3. 腾讯天美六位TA:技术美术这份职业会长期存在吗?
  4. 【struts2】struts2实现自定义数据类型转换器
  5. 菜鸟成长日记(五)之WMIC简单命令应用
  6. .NET轻量级配置中心AgileConfig
  7. Oracle入门(十二G)之序列
  8. [html] 举例说明写一个button的按钮的方法有哪些?
  9. kotlin 扩展类的功能_Kotlin程序| 扩展功能功能
  10. Visual C# 2008+SQL Server 2005 数据库与网络开发――3.2.4 匿名类型
  11. java 反编译 行号对齐 decompiler如何去掉行号
  12. sudo chown -R $(whoami) /usr/local/lib/pkgconfig
  13. 结构体01:结构体的定义和使用
  14. Swing 显示良好JPanel保存为图片
  15. M1 macbook安装jdk
  16. 我常去的编程技术网站
  17. U盘被写保护或无法写数据无法格式化的问题解决
  18. Linux配置DNS域名解析服务
  19. 网易有道笔试题(2014届,2013.10北邮站)
  20. 图形 3.6 纹理压缩——包体瘦身术——RGBA与ASTC与ETC2压缩与实际对比体验

热门文章

  1. Nginx多策略流量分发
  2. windows10 更换密码
  3. 得之坦然,失之淡然,顺其自然,争其必然。真的太经典了啊!
  4. 利用canvas制作时钟表
  5. 时空位置大数据AI平台技术实现架构设计
  6. QTableWidget 显示行号列
  7. Word文档保存方式谈(转)
  8. 6.Spring学习笔记_Bean之间的关系 (by尚硅谷_佟刚)
  9. [正则表达式]可以为空值,不为空则要验证格式
  10. java合并时间点为时间段(时间区间)