在第一节“Python-数据清洗与分析案例之泰坦尼克号(一)”网址:https://www.lixdx.cn/archives/93 中进行了数据清洗与缺失值填充,接下来进行数据可视化分析,找到生存率的影响因素。

注意:本章中年龄的缺失值为案例分析(一)中用年龄和舱位的中位数的值填充。

提出问题:什么因素会影响乘客的生还率?

影响乘客生还率的因素很多,这里只讨论乘客的性别、年龄以及舱位是否对生还率产生影响。

1.性别对生还率的影响

2.年龄对生还率的影响

3.舱位对生还率的影响

4.年龄和性别共同对生还率的影响

5.年龄和舱位共同对生还率的影响

6.性别和舱位共同对生还率的影响

7.年龄、性别、舱位共同对生还率的影响

这里,年龄、性别、舱位是自变量,生还率是因变量。

(年龄、舱位是数值变量;性别是分类变量)

一、导入包

二、数据可视化分析

2.1 性别对生还率的影响

首先,绘制全体乘客的性别比例图

方法一:运用value_counts()函数及pandas数据可视化绘图

方法二:运用groupby( )分组函数及matplotlib数据可视化绘图

其次,绘制生还乘客的性别比例图

方法一:运用value_counts()函数及pandas数据可视化绘图

方法二:运用groupby( )分组函数及matplotlib数据可视化绘图

最后,绘制不同性别的生还率

运用seaborn中的barplot绘图,因为柱状图sns.barplot( )显示的是某种分类变量分布的平均值,例如male计算的则是生还的男性除以所有的男性,也就是男性的生还率。

结论:

全部乘客中,只有35.24%的女性,而生还的乘客中,女性占到了68.13% 。 女性的生还率达到了74.2%,而男性的生还率只有18.9% 。 我们可以看出,女性的生还率更高。

2.2 年龄对生还率的影响

方法一:运用seaborn数据可视化绘图

方法二:运用pandas数据可视化绘图

结论:

0-10岁生还率最高,其次30-40岁。

函数讲解

pandas.cut:

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)

参数:

- x,类array对象,且必须为一维,待切割的原形式

- bins, 整数、序列尺度、或间隔索引。如果bins是一个整数,它定义了x宽度范围内的等宽面元数量,但是在这种情况下,x的范围在每个边上被延长1%,以保证包括x的最小值或最大值。如果bin是序列,它定义了允许非均匀bin宽度的bin边缘。在这种情况下没有x的范围的扩展。

- right,布尔值。是否是左开右闭区间

- labels,用作结果箱的标签。必须与结果箱相同长度。如果FALSE,只返回整数指标面元。

- retbins,布尔值。是否返回面元

- precision,整数。返回面元的小数点几位

- include_lowest,布尔值。第一个区间的左端点是否包含

返回值:

若labels为False则返回整数填充的Categorical或数组或Series

若retbins为True还返回用浮点数填充的N维数组

2.3 舱位对生还率的影响

可以看出三等舱的乘客最多,但生还率却最低。

结论:

"1"等级的生还率>“2”等级>"3"等级 ; "1"等级的生还率最高

2.4  年龄和性别与生还率的关系

从图中看出:年龄段在50-60岁之间人数最多,但这个年龄段的生还率不是最高的,而年龄较小(0~10岁)之间的生还率是最高的。

男性的人数明显多于女性,但女性的生还率明显高于男性,且女性的生还率都在40%以上。

综上可以看出,性别对生还率的影响大于年龄的影响。

2.5 年龄和舱位共同对生还率的影响

从图中看出:3舱的人数最多,但3舱的生还率最小。而在0-50岁的年龄区间,1、2舱舱的生还率都大于40%。

同一个年龄段,除了0-10岁和60-70岁区间外,1舱的生还率最高。

不同年龄段,也是生还率1舱>2舱>3舱。

2.6 性别和舱位与生还率的关系

从全体乘客图中可以看出,1号舱与2号舱的人数差不多,且都小于3号舱人数,且3个船舱中男性人数均多于女性人数。

从生还人数中来看,女性生还人数高于男性生还人数,且1号舱的生还人数高于2、3号舱生还人数。

从生还率来看,1、2号舱女性生还率最高,达到90%,3号舱女性生还率大约为50%。男性的生还率普遍低于40%,但男性1号舱的生还率高于男性2号、3号生还率。

所以,性别和舱位均对生还率产生影响。

2.7  年龄、性别、舱位与生还率关系

绘制年龄、舱位、性别与生还率的关系运用点图sns.pointplot( ),点图可能比条形图更有用于聚焦一个或多个分类变量的不同级别之间的比较。他们尤其善于表现交互作用:一个分类变量的层次之间的关系如何在第二个分类变量的层次之间变化。图中的点为这组数据的平均值点,即生还率。

结论

通过分析,可以看出对生还率影响最大的因素是乘客性别,其次是等级,最后年龄段也对生还率有影响。

泰坦尼克号python数据分析统计服_Python-数据可视化案例分析之泰坦尼克号(二)...相关推荐

  1. 泰坦尼克号python数据分析统计服_python数据处理——泰坦尼克

    承接上篇豆瓣数据分析 本次主要是进行以下内容: 1.泰坦尼克号的数据分析,主要分析哪些特征影响了乘客的获救和遇难,是年龄?是性别? #泰坦尼克数据集导入 titanic_df = sns.load_d ...

  2. 泰坦尼克号python数据分析统计服_泰坦尼克号乘客数据分析

    本文是优达学城数据分析师 P2 项目的结课报告,主要探寻泰坦尼克号上的生还率和各因素(客舱等级.年龄.性别.上船港口等)的关系. # Imports import numpy as np import ...

  3. 泰坦尼克号python数据分析统计服_数据分析可视化——泰坦尼克号幸存者分析(上)...

    文章目录数据获取.结构分析如何获取seaborn提供数据源 特征列分析 缺失值与数据清洗年龄缺失值处理 填充embarked 删除不必要的列 幸存者分析分析性别对存活率的影响 分析年龄对存活率影响 分 ...

  4. 泰坦尼克号python数据分析统计服_Titanic数据分析报告(Python)

    研究目的:使用机器学习来创建一个模型,该模型可以预测哪些乘客在泰坦尼克号沉船事故中幸存下来. 研究结论: 分析过程: 本次分析使用Jupter Notebook进行分析 该notebook 服务的版本 ...

  5. Python数据分析入门笔记9——数据预处理案例综合练习(男篮女篮运动员)

    系列文章目录 Python数据分析入门笔记1--学习前的准备 Python数据分析入门笔记2--pandas数据读取 Python数据分析入门笔记3--数据预处理之缺失值 Python数据分析入门笔记 ...

  6. chatgpt赋能python:Python制表位:优化数据可视化与分析的利器

    Python 制表位:优化数据可视化与分析的利器 在数据可视化和分析中,表格是一种常用的数据展示方式.Python 提供了丰富的用于构建表格的库,其中之一便是制表位(Tabulate).本文将介绍制表 ...

  7. python房价数据分析统计服_Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房?...

    原标题:Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房? 作者 | 月小水长 责编 | 伍杏玲通过分页.线程池.代理池等技术,快速爬取链家网近4万条在售二手房信息,速度可 ...

  8. python画熊猫论文_Python数据可视化之美:专业图表绘制指南(全彩)

    Python数据可视化之美:专业图表绘制指南(全彩)电子书 系统性地介绍Python 的绘图语法系统,包括matplotlib.Seaborn.plotnine 包,以及用于地理空间数据可视化的Bas ...

  9. Python数据分析入门笔记6——数据清理案例练习

    系列文章目录 Python数据分析入门笔记1--学习前的准备 Python数据分析入门笔记2--pandas数据读取 Python数据分析入门笔记3--数据预处理之缺失值 Python数据分析入门笔记 ...

最新文章

  1. 基于 OpenCV 的人脸追踪
  2. 用于点云视频时空建模的点4D transformer网络(CVPR 2021)
  3. 中国AI又夺一冠!依图刷榜全球声纹识别挑战赛,刷新纪录,大比分夺魁
  4. windows server 2008 如何取消禁ping
  5. boost::thread模块实现生产者消费者的测试程序
  6. html5 多文件选择
  7. linq to entity 错误 1 错误 75: 类型 视图名称 的键部分 “主键的列名1”无效。该键的所有部分都必须不可以为 null。(转)...
  8. JavaScript写入文件到本地
  9. Web攻击手段-CSRF攻击及防御策略
  10. sharepoint FAST serach 设置
  11. 【Unity 资源分享】☀️ | Unity 超好看的 精品四季蔚蓝自然场景模型 ,让我们离二次元开发更近一步!
  12. linux无法连接共享文件夹,linux下samba服务器共享文件windows无法访问
  13. Android appWidget——每日一句应用开发
  14. 有舍有得,解散20个群后 ...
  15. 数据库Mysql:存储过程(PROCEDURE )函数(FUNCTION)
  16. 界面设计中如何增强CTA按钮召唤力?
  17. 互信息(Mutual Information)的介绍
  18. (精确度,召回率,真阳性,假阳性)ACC、敏感性、特异性等 ROC指标
  19. SSO单点登录-基于cookie的单点登录
  20. Node之Express服务器启动安装与配置

热门文章

  1. 微软 Outlook 升级,集成轻量级 CRM 功能
  2. 【JS】Number
  3. [学习链接]infoQ与腾讯大讲堂
  4. WMS系统4.0,仓库管理的20年历史变局你知道吗?
  5. 鼎力成功【心灵幸福学】第20期青年企业家特训营
  6. 为什么程序员都找不到对象?
  7. 泡MM经典语录,女的回答更绝!
  8. 10个数比大小(排序)——冒泡和选择
  9. 4 月份 火火火火 的开源项目
  10. 反CNN网站遭攻击内幕