作为大家都非常熟悉的沉船事故–泰坦尼克号事件,该事件数据集同样也广受大家所关注,许多人拿数据集来分析研究,找出影响乘客幸存率的因素有哪些。

本文的目的是希望自己通过分析研究,去找出那些影响幸存率的因素,同时在过程中学习,强化自己。

一、前言

数据来源自kaggle数据集,该数据一共有12个字段,各项字段意义如下表:

对各字段进行意义性理解分析,找出影响幸存率的因素如下图

二、数据处理

打开数据源,对数据进行处理,发现cabin、age、Fare、embarked有缺失值。

1、cabin字段

该字段数据属于文本型字段,具体意义是指客舱号。

数据筛选,1309条记录中只有295条数据,缺失过于严重,故数据不再进行分析研究。

2、age字段

该字段是数字型字段,其数据意义是分析年龄对存活率的影响。

在1309条数据中只有1046条数据,缺失 263条数据。为了保持数据的真实性,所以不在对数据进行填充。
对数据进行整理,age应该为整数,故小于1的记为1岁,其他数据采用4舍5入,空值不改变。

3、Fare字段

该字段属于数字型数据,其意义是研究船票价格对存活的影响。数据筛选如下

该数据只有一个空值,我们可以按照该人员的详细数据去得出此人的Fare值。依据pclas=3,embarked=s,age在60岁周边,得出Fare的平均值为7,填入该数据。

4、Embarked字段

该字段属于文本型字段,其研究意义是分析登船港口对存活率的影响

本字段数据筛选后有2个空值。按照之前的逻辑,对其填入文本S

三、数据分析

1、舱位维度

建立舱位和存活情况的数据透视表


数据源中总体人数为1309人,存活494,占比38%,死亡率高达62%,从数据层面来说,这是一起非常严重的沉船事故。

做关于各舱位存活率的柱状图


在Pclass字段中,1代表一等,2代表二等,3代表三等。
一等舱的幸存率最高,为58%;三等舱最低,为27%,该数据还不到一等舱位幸存率的一半;所以,科能还是需要有钱……

2、性别

性别

建立性别和存活状况的数据透视表。


在总乘客人员中,女性占比64%,男性占比36%。

生还人员中,女性占比78%,男性占比22%,还不到女性占比的三分之一。

女性生还人数占女性总人数的83%,男性生还人数占男性总人数的13%,该数据为观点“事故发生时,优先解救女性”提供了依据。

性别&客舱

建立客舱、性别、存活状况的数据透视表。


对各舱位的男女性幸存、死亡率做百分比堆积柱形图。无论在哪个舱位,女性幸存人数比例都远远大于男性生还比例。
拆分到舱位上,一等舱女性幸存比例最高,为98%,三等舱最低,为67%;

男女乘客中,男性幸存的比例仅为13%,远低于女性幸存比例;拆分到舱位上,一等舱男性幸存比例最高,三等舱最低。进而推论可能在男性解救过程中,或许存在因地位、财富等原因。

3、年龄

因为年龄缺失值较多,为了数据的真实性,没有对数据进行整理。

对数据进行描述性检验。


年龄的平均值为30岁,最大值为80,最小值为1岁,众数为24岁,中位数为28岁。
对年龄进行分段划分, 我们规定0-15岁为青少年,15-40为青年,40-60为中年,60以上为老年。

本数据源age字段数据不缺失的人员中,青年占主要人群,占比66%。老年占比最少,为4%

建立年龄段划分、性别和存活状况的数据透视表:



所有年龄段划分中,青少年幸存人数占青少年总人数的比例最高,为52%;青年、中年、老年依次减少,最小值为35%;
另外,有一个有趣的数字,对于老年女性乘客有11人,这11人全部获救。(这就是绅士精神?)

幸存人员中,青年占比最大,为65%;老年占比最小,为3%;

4、船票价格

理论来说,舱位登记越高,其价格越贵,验证此结论。对舱位登记和价格做相关性分析。

舱位和船票价格成负相关,该情况表示舱位越高,价格越贵,符合现实依据。

  建立价格和存活状况的数据透视表,因价格区间差别过大,所以对价格进行区间划分,我们以50为组距。


数据显示,虽然在0-50的价格区间内幸存人数最多,但该区间的幸存比例最低,数值仅为32%,其数值仅为其他价位存活率的一半左右。
另外,在500-550的价格区间的人们有4人,该4人全部获救。(金钱的力量?)

5、亲属

Sibsp字段

对字段sibsp建立数据透视表,该字段是表示乘客的同系兄弟姐妹或配偶数。


该图表说明,在乘客中,有1个同系的兄弟姐妹或配偶的获救比例最高,数值为52%

Parch字段

对字段parch建立数据透视表,该字段是表示船上的父母或子女数。


该图表显示说明,父母或者子女相加人数为3的人员获救比例最大,达到了63%

数据中parch为9的有2人,一男、一女,女士幸存了下来,观察此两条数据,其共同点较多,推测可能为夫妻,也许这就是爱情吧~

6、登船港口

对Embarked字段建立数据透视表,


C所代表港口人员获救比例最高,达到了50%;在获救人数中,S所代表港口获救比例最大,达到了62%;

结论

1、幸存率与舱位有关,舱位越高,存活率越高;
2、幸存率与性别有关,女性幸存率(83%)远远高于男性(13%),尽管船上乘客以男性为主;另外,不同舱位的女性之间,舱位越高,生还比例越大,男性同样如此;
3、尽管船上多以青年为主,但青少年的实际存活比例确为最高(52%);再有对于老年女性乘客,存活比例为100%;
4、不同的船票价格确实会影响存活率,船票的价格越低(0-50)其存活率越低(32%),价格越高,存活率越高(100%)
5、在乘客中,有1个兄弟姐妹或配偶的幸存率最高(52%),再有父母或子女相加人数为3的乘客幸存率最大(63%);
6、对于登船港口,S代表的港口即英国南安普顿登船人数最多;但在C港即法国卢森堡登船的人员幸存比例最高(50%)

泰坦尼克号数据的分析研究相关推荐

  1. 【2017年第1期】手机基站定位数据可视分析

    李海生1,2,黄媛洁1,2,宋璇1,2,杜军平3,陈国润4,丁富强4 1 北京工商大学计算机与信息工程学院,北京 1000482 食品安全大数据技术北京市重点实验室,北京 1000483 北京邮电大学 ...

  2. Kaggle泰坦尼克号数据机器学习实战:从缺失值处理、数据探索性分析、组合特征生成到多模型构建

    Kaggle泰坦尼克号数据机器学习实战:从缺失值处理.数据探索性分析.组合特征生成到多模型构建 泰坦尼克号的沉没是历史上最为人熟知的海难事件之一. 1912 年 4 月 15 日,在她的处女航中,泰坦 ...

  3. matlab segy文件,利用matlab实现segy格式数据的读写研究和分析.ppt

    利用matlab实现segy格式数据的读写研究和分析 2.SEGY数据格式 地震数据一般以地震道为单位进行组织,采用SEG-Y文件格式存储.SEG-Y格式是由SEG (Society of Explo ...

  4. WRDS卓越学者和沃顿研究数据与分析图书馆员会议在北京宾大沃顿中国中心举行:庆祝研究、思想领导力和全球合作方面的创新

    费城--(美国商业资讯)--面向全球企业.学术和政府机构的首屈一指的商业情报.数据分析和研究平台沃顿研究数据中心(WRDS)欣然宣布,两项首创的全球性计划--WRDS卓越学者计划(WRDS Advan ...

  5. 大数据学情分析_大数据背景下的大学生学情分析研究

    宋承云 张琼敏 石美凤 厉华杰 摘 要:"学情分析"是教学活动的基本环节,也是教学研究的基本内容.在我国大学生教育从"量"到"质"转型的背景 ...

  6. 大数据时代传播研究中语料库分析方法的价值

    [摘要]:大数据时代的研究逻辑,对传播学研究形成了新的冲击,传统的文本分析方 法,已经不能满足对样本数量的宏阔和数据挖掘深度上的双重要求.语料库的研究方法 在数据新闻.舆情监测和学术研究等领域都可以得 ...

  7. 北大研究团队面向新冠疫情的数据可视化分析与模拟预测

    本次pythonday开发者日活动有幸请到北京大学的陈宝权教授做分享,以下是陈教授近期进行的面向新冠疫情的数据可视化分析与模拟预测项目,陈教授将会在本次活动上做分享与答疑,欢迎大家参与! 指导教师:陈 ...

  8. 基于出行住宿评论数据的情感分析研究(酒店篇,含python代码)

    携程酒店评论数据: 链接:https://pan.baidu.com/s/1zUtfc6Ku6W2sx99XdqeWcA  提取码:vkzs 停用词汇总: 链接:百度网盘 请输入提取码  提取码:02 ...

  9. 数据探索性分析_探索性数据分析

    数据探索性分析 When we hear about Data science or Analytics , the first thing that comes to our mind is Mod ...

最新文章

  1. 有限状态机HDL模板
  2. 树莓派4直接运行linux,树莓派4最小化安装Linux
  3. java 扩展数据类型_与Java的初遇——数据类型扩展
  4. python时间模块哪个好arrow模块_Arrow-一个最好用的日期时间Python处理库
  5. java写一个外网访问的接口_不是吧不是吧!随便写的一个API竟获得 2.5 亿的访问量...
  6. PCL——PCD文件格式分析
  7. 8 -- 深入使用Spring -- 6...2 Spring支持的事务策略
  8. python安装笔记_Python学习笔记(一)python的安装和配置
  9. 2021年必备procreate笔刷推荐下载
  10. hi3798 run linux,EC6108V9(HI3798MV100)刷(linux)ubuntu16.04
  11. 安装texthero踩过的坑
  12. 利用Promise彻底解决微信小程序云函数因运行时间过长返回result,underfined为空的方法
  13. java String的intern()方法
  14. 寒江独钓:Windows内核安全编程(china-pub到货首发)
  15. [CVPR2021]pixelNeRF: Neural Radiance Fields from One or Few Images
  16. 南昌师范学院同学会05级计算机,返校感言|故事初始,是回归,回到南昌师范学院的TA们,说了这些……...
  17. HTML静态网页设计基础
  18. 原码、反码、补码转换和取反符号的运算规则
  19. 高频率Vue面试题总结,vue面试就靠它!
  20. Python3 获取CSDN博客文章的阅读数和评论量

热门文章

  1. STM32-ESP8266解析天气
  2. 元宇宙持续火爆,各地纷纷布局元宇宙
  3. Hololens开发笔记_在Unity运行没问题,在Hololens跑出现PathNotFoundException:Could not find a part of path.
  4. 学术数据库---EI
  5. 这种性生活伤女人尿道
  6. 类似微信5.x朋友圈的弹出框评论功能
  7. Flutter(Dart)基础——函数详解
  8. 两向量叉乘的计算公式_高中数学知识背景下对向量叉乘运算的探讨(向东来)
  9. java每日定时任务下载
  10. 自从会了爬虫妈妈再也不担心我不会植物分类啦