一,分析背景和目的

分析背景:在上一篇里做过泰坦尼克号项目的数据清洗,模型训练,预估,链接如下https://zhuanlan.zhihu.com/p/157763714

本篇着重于该项目的可视化

分析目的:什么样的人在泰坦尼克号事件中的存活率较高?

二,分析维度

三,导入数据

# Step1:导入数据处理包

四,理解数据

1)理解字段

2)查看信息

#查看数据类型的信息
full.info()

五,数据清洗

  • 缺失值填充
#年龄
# 用平均值填充年龄这一列的缺失数据
full["Age"].fillna(full["Age"].mean())#股票价格
# 用平均值填充股票价格这一列的缺失数据
full["Fare"].fillna(full["Fare"].mean())#登船港口
# 用最常见类别取代Embarked这一列中缺失数据
# 查看Embarked这一列的最常见类别
full["Embarked"].head()
full["Embarked"].value_counts()
# 用最常见类别进行填充
full["Embarked"].fillna("S")#船舱号
# 查看船舱号这一列的信息
full["Cabin"].head()
# 发现有大量未知信息,于是用未知信息填充
full["Cabin"].fillna("U")

六,数据可视化

1.泰坦尼克号存活数

train["Survived"].value_counts()

2.总体生还概率

# 总体生还几率
import matplotlib.pyplot as plt
plt.pie(n,labels=["死亡","生存"],labeldistance=0.6,autopct="%.2f%%",pctdistance=0.4)
plt.title("总体生还率")

3.不同性别的人的存活率

Sex=full.groupby("Sex").Survived.mean()
SexDF=pd.DataFrame(Sex)
SexDF
# 绘制直方图
SexDF.plot(kind="bar")
#添加文本
plt.xlabel("性别")
plt.ylabel("存活率")
#添加标题
plt.title("不同性别的人的存活率")

可以看出,女性的存活率高于男性

4.不同登陆港口的人的存活率

#获取数据并转换数据类型
Embarked=full.groupby("Embarked").Survived.mean()
Embarked_df=pd.DataFrame(Embarked)
# 绘制柱状图
Embarked_df.plot(kind="bar",color="g")
plt.xlabel("登陆港口")
plt.ylabel("存活率")
plt.title("不同登陆港口的人的存活率")
plt.show()

5.不同船舱的人的存活率

#获取数据并转换数据类型

可以看出,船舱1的存活率是最高的

6.不同头衔的人的存活率

'''

可以看出已婚妇女的存活率最高

7.不同客舱号的人的存活率

full

可以看出,客舱号D的存活率最高

8.不同家庭大小的人的存活率

#描述家庭大小
familyDf[ 'FamilySize' ] = full[ 'Parch' ] + full[ 'SibSp' ] + 1
full_df=pd.concat([full,familyDf],axis=1)
#获取并存放家庭大小及其存活率数据
familydf=full_df.groupby("FamilySize").Survived.mean()
Family_df=pd.DataFrame(familydf)
#绘制柱形图
Family_df.plot(kind="bar",color="g")
plt.xlabel("家庭大小")
plt.ylabel("存活率")
plt.title("不同家庭大小的人的存活率")
plt.show()

可以看出家庭成员规模为4的存活率最高

总结:

1.女性比男性存活率高

2.从法国 瑟堡市登录的人存活率比在其他两地登录的人存活率高

3.在船舱1的乘客存活率较高

4.已婚妇女的存活率最高

5.客舱号D的乘客存活率最高

6.家庭成员规模为4的存活率最高

泰坦尼克号数据集_泰坦尼克号项目可视化相关推荐

  1. 泰坦尼克号数据集_机器学习(入门)--Kaggle项目之泰坦尼克号

    电影<泰坦尼克号>改编自一个真实故事.1912年4月15日,这艘号称"永不沉没"的泰坦尼克号在首航期间,撞上冰山后沉没,船上的2224名乘客和机组人员,其中只有772人 ...

  2. 泰坦尼克号 机器学习_机器学习项目泰坦尼克号问题陈述

    泰坦尼克号 机器学习 介绍(Introduction) Everyone knows about the Titanic ship as many of the people have seen th ...

  3. 泰坦尼克号数据集_机器学习-预测泰坦尼克号生存概率

    一.项目背景概述 泰坦尼克号沉船是历史上最有名的沉船事件之一:1912年4月15日,在她的第一次航行中,泰坦尼克号与冰山相撞后沉没.船上乘客和机组人员2224名,其中1502人死亡.这场耸人听闻的悲剧 ...

  4. 泰坦尼克号数据集_机器学习入门—泰坦尼克号生存率预测

    项目名称:泰坦尼克号生存率预测1.导入数据 这里使用kaggle kernel编写代码 数据下载地址为:https://www.kaggle.com/c/titanic 2.数据统计分析 通过desc ...

  5. ML之LoRBaggingRF:依次利用LoR、Bagging、RF算法对泰坦尼克号数据集 (Kaggle经典案例)获救人员进行二分类预测(最全)

    ML之LoR&Bagging&RF:依次利用LoR.Bagging.RF算法对泰坦尼克号数据集 (Kaggle经典案例)获救人员进行二分类预测 目录 输出结果 设计思路 核心代码 输出 ...

  6. ML之LoRBaggingRF:依次利用LoR、Bagging、RF算法对titanic(泰坦尼克号)数据集 (Kaggle经典案例)获救人员进行二分类预测(最全)

    ML之LoR&Bagging&RF:依次利用LoR.Bagging.RF算法对titanic(泰坦尼克号)数据集 (Kaggle经典案例)获救人员进行二分类预测 目录 输出结果 设计思 ...

  7. EL之Bagging:kaggle比赛之利用泰坦尼克号数据集建立Bagging模型对每个人进行获救是否预测

    EL之Bagging:kaggle比赛之利用泰坦尼克号数据集建立Bagging模型对每个人进行获救是否预测 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心代码 bagging_clf = ...

  8. ML之RFXGBoost:基于RF/XGBoost(均+5f-CrVa)算法对Titanic(泰坦尼克号)数据集进行二分类预测(乘客是否生还)

    ML之RF&XGBoost:基于RF/XGBoost(均+5f-CrVa)算法对Titanic(泰坦尼克号)数据集进行二分类预测(乘客是否生还) 目录 输出结果 比赛结果 设计思路 核心代码 ...

  9. ML之RFXGBoost:分别基于RF随机森林、XGBoost算法对Titanic(泰坦尼克号)数据集进行二分类预测(乘客是否生还)

    ML之RF&XGBoost:分别基于RF随机森林.XGBoost算法对Titanic(泰坦尼克号)数据集进行二分类预测(乘客是否生还) 目录 输出结果 设计思路 核心代码 输出结果 设计思路 ...

最新文章

  1. JavaScript 高级技巧 Memoization
  2. 简明python教程电子版-简明Python教程PDF电子书免费下载
  3. 数字开头的正则表达式_初学Web前端要注意什么 正则表达式是怎么回事
  4. [PAT乙级]1006 换个格式输出整数
  5. JavaOne 2012:使用HTML5和Java构建移动应用程序
  6. windows mysql kip grant tables_数据库mysql数据库mysql: [ERROR] unknown option '--skip-grant-tables'...
  7. Project facet Dynamic Web Module version 3.1 is not supported.
  8. PICT实现组合测试用例
  9. Servlet 编写过滤器
  10. bwl老二吃嘲讽吗_怀旧服BWL2小时全通最简打法!时光点燃一次过
  11. 2021重庆对口高职高考成绩查询,重庆市2021年高职分类考试成绩明日放榜
  12. java如何多表断网,java Web如何离线使用并进行数据同步
  13. 基于51单片机毕业设计 开题选题
  14. 搭建人人开源后台管理平台
  15. Java降落伞_使用DJI Onboard SDK进行降落伞部署
  16. 如何选择安全可靠的即时通讯软件
  17. 手机通过RNDIS共享网络
  18. 论文笔记(CPN):Cascaded Pyramid Network for Multi-Person Pose Estimation
  19. win10系统如何telnet服务器,win10专业版官网系统如何开启telnet服务的办法
  20. linux 卸载oracle库,Linux下完美卸载 Oracle

热门文章

  1. lastpass密码管理工具使用教程
  2. 10个美丽的例子,插图在网页设计中的应用
  3. MySQL慢查询(一) - 开启慢查询
  4. mysql 四 表操作
  5. 它们的定义app.config中间section节点和在执行中使用
  6. XML、集合、JSP综合练习
  7. ecos代码分析(2)
  8. 前些天做的一个物联网架构三层扩展
  9. 计算矩阵连乘积(动态规划)
  10. Linux grep不包含某些字符串的命令