距离上一篇文章更新刚刚看了一下,大概22天前了,因为这段时间家里以及学业上的事比较忙,就耽搁得久了,于是今天我又双双缀缀来更新啦:)本次Python数据分析用到的工具:Anaconda,Python3.7

一、分析目的

探索泰坦尼克号邮轮上生存率与其他因素(性别、客舱等级、年龄等)之间的关系

二、理解数据

2.1.数据导入

将下载好的数据集导入分析工具,观察该数据集的内容以及质量

2.1.1.导入相关库

2.1.2.数据导入

2.1.3.理解数据

2.1.4.注意事项

在数据导入时可能会出现如下报错:

FileNotFoundError: File b'E:\titanicdata\train.csv' does not exist

解决方法:

Windows下的路径为:E:\titanicdata\train.csv

应将 data_train = pd.read_csv("E:\titanicdata\train.csv"

改为: data_train = pd.read_csv("E:\\titanicdata\\train.csv")

或 data_train = pd.read_csv("E:/titanicdata/train.csv")

或 data_train = pd.read_csv(r"E:\titanicdata\train.csv"

原因如下:反斜杠\是转义字符,想表达\请用\\

三、数据清洗

3.1.选择子集

表中的数据都已筛选,这里不用操作

3.2.列名重命名

这里笔者认为英文更加直观,即不更改。若需要更改列名,Python命令如下:

###方法1:

df.rename(index=str, columns={"A": "a", "B": "c"},inplace=True)

将表格内的A、B两列的列名分别改为了a、c;

###方法2:

df1.reindex(index=['a','b','c','d'],columns=['one','two','three','four'])

将表格的列名由abcd改为one。two,three,four;

3.3.缺失值处理

3.3.1.查看缺失值情况(两种方法)方法一:方法二:使用missingno库

注:没安装的还是先安装哈

3.3.2.处理数值型缺失值

对于数值型数据的缺失值处理一般采用该列数据的均值或者中位数进行替换。

3.3.3.处理"分类型"缺失值

分类型数据:Embarked,利用该列出现频数最多的数据(众数)来填充。从下图可以看出"S"出现次数最多

进行缺失值填充并查看处理效果

四、数据可视化

4.1.单因素分析

4.1.1.人数的生还率与死亡率间的比较

共891人,其中生还率与死亡率如下:

结论:这891名乘客中,生还和未生还的比率分别为 38% 和 62%。

4.1.2.生还率与Pclass(舱位等级)的关系不同级别客舱人数分布可视化展示舱位与生还率的关系

结论:头等舱的生还率最大,达到了0.6以上,三等舱的生还率最低,在0.3以下

4.1.3.性别与生还率的关系

结论:女性幸存者远远大于男性幸存者

4.1.4.综合考虑性别、舱位等级与幸存率之间的关系

结论:1,2,3等舱的女性生还率都大于男性生还率,且在1等舱中,男、女生还率都较高,1,2等舱的女性生还率

较为接近

4.1.5.年龄与生还率间的关系将所有年龄段划分为5等份各个年龄段与生还率间的关系

结论:年龄段在(0.34,16.336]的人生还率最高,其次是年龄段在(48.168,64.084]生还率第二,生还率最低的年

龄段是(64.084,80.0]这个年龄段的人。

4.1.6.登船港口与生还率的关系

结论:在C上船的生还率最高,S最低

4.2.多因素分析

4.2.1.年龄、性别、舱位与生还率间的关系可视化

sns.FacetGrid(data=titanic_df,row="agegroup",aspect=2.5)\

.map(sns.pointplot,"Pclass","Survived","Sex",hue_order=["male","female"],ci=None,palette="deep", markers=["^", "o"], linestyles=["-", "--"]).add_legend()

plt.show()

五、总结样本数量为891人,其中生还者342 人,生还率为 38%,死亡率62%

从舱位等级来看,一等舱的生还率最高,占比0.629630;三等舱生还率最低,仅为0.242363

从性别上来看,女性的生还率远高于男性,占比0.742038,男性生还率为0.188908

从年龄段划分来看,(0.34, 16.336]这个年龄段生还率最高,其次是(48.168, 64.084],生还率最低的年龄段是(64.084, 80.0]

然后给看到最后的大家推荐一部电影哇《布达佩斯大饭店》,布景配色真的很美,放上几张图瞅瞅

注:文章封面配图来源:百度百科:http://image.baidu.com/search/detail?ct=503316480&z=0&ipn=d&word=%E5%B8%83%E8%BE%BE%E4%BD%A9%E6%96%AF%E5%A4%A7%E9%A5%AD%E5%BA%97%E5%89%A7%E7%85%A7&step_word=&hs=0&pn=16&spn=0&di=19690&pi=0&rn=1&tn=baiduimagedetail&is=0%2C0&istype=0&ie=utf-8&oe=utf-8&in=&cl=2&lm=-1&st=-1&cs=2650377519%2C914744857&os=256994559%2C3550644348&simid=4060617111%2C535376214&adpicid=0&lpn=0&ln=690&fr=&fmq=1588929474219_R&fm=rs3&ic=undefined&s=undefined&hd=undefined&latest=undefined&copyright=undefined&se=&sme=&tab=0&width=undefined&height=undefined&face=undefined&ist=&jit=&cg=&bdtype=0&oriquery=%E5%B8%83%E8%BE%BE%E4%BD%A9%E6%96%AF%E5%A4%A7%E9%A5%AD%E5%BA%97&objurl=http%3A%2F%2Fimg.zcool.cn%2Fcommunity%2F01707e59db56b1a801204463a94842.jpg%401280w_1l_2o_100sh.png&fromurl=ippr_z2C%24qAzdH3FAzdH3Fooo_z%26e3Bzv55s_z%26e3Bv54_z%26e3BvgAzdH3Fo56hAzdH3FZM3QyMDQoOTY%3D_z%26e3Bip4s&gsm=11&rpstart=0&rpnum=0&islist=&querylist=&force=undefined

python实训总结泰坦尼克号重建_Python之泰坦尼克号生存率分析相关推荐

  1. python实训报告5000字_Python程序设计实验报告(一)

    安徽工程大学 Python程序设计实验报告 班级 物流192 姓名 昌一鸣 学号 3190505225 成绩 日期 3月8日 指导老师 修宇 实验名称 实验一 熟悉IDLE和在线编程平台 实验目的 1 ...

  2. python实训主要成果_Python实训周总结

    - 精品 -- Python 实训周总结 Python 的学习到现在已经有半个月了,通过讲解与企业化标准的培训,使我 加深了对 python 的认识.因为之前有学 Java 的基础,所以这次实训入门时 ...

  3. Python实训day12am【网络爬虫大作业简略解析:动态生成html页面、数据写入Excel】

    Python实训-15天-博客汇总表 目录 1.HTML页面设计 2.生成每个城市的HTML页面 2.1.HTML页面代码(weatherTemplate.html) 2.2.实例代码-动态生成htm ...

  4. 大学python实训总结-千锋Python实训总结 学好基础才能走的更远

    时间飞逝,不知不觉在千锋学习Python已经一个月了,在这不长不短的一个月时间感觉我以往的生活方式和学习方式完全被改变了,希望我能继续保持这样的求学心态和学习态度.下面这个Python实训总结就是我对 ...

  5. Python实训day14pm【Python网络爬虫综合大作业-参考解析】

    Python实训-15天-博客汇总表 题目:天气数据的爬取和统计 大作业题目思路引导:定时爬取每个地级市的实时天气状况.存入excel中.为每个城市生成html展示.历史excel文件以每日为单位归档 ...

  6. Python实训day14am【Python网络爬虫综合大作业-答辩】

    Python实训-15天-博客汇总表 实训总结: 由浅入深的了解了python语言应用: 编写了很多案例,完成了发作业,提升了编程思路和能力: 了解了行业现状,认识到企业对人才的要求,去除焦虑,对后续 ...

  7. Python实训day13am【Python网络爬虫综合大作业PPT】

    Python实训-15天-博客汇总表   今天上午大家抓紧时间继续完成实训报告和PPT,有问题我会在群里跟大家说明, 暂时不用上线直播了. 实训结束后,我会在博客上发布网络爬虫综合大作业题目及解析.

  8. Python实训day12pm【答辩要求、定时器】

    Python实训-15天-博客汇总表 目录 1.答辩安排 2.定时器 1.答辩安排 下午安排: 今天尽量地完成整个项目: 明天完成实训报告,制作小答辩PPT: 后天答辩. PPT要求: 时长5分钟左右 ...

  9. Python实训day11pm【大作业简略解析】

    Python实训-15天-博客汇总表 目录 1.课堂笔记 2.群消息 3.代码 3.1.demo1 3.2.demo2 1.课堂笔记 大作业题目思路引导: 题目1:定时爬取每个地级市的实时天气状况.存 ...

  10. Python实训day11am【大作业思路梳理】

    Python实训-15天-博客汇总表 定时任务:定时任务框架APScheduler学习详解 - 小学弟- - 博客园

最新文章

  1. iphone开发证书 纠结许久
  2. java变量只声明未初始化是否可以直接使用?
  3. GAN——UNIT简单梳理
  4. 数据分析的必备材料:学完可以解决90%以上的数据分析问题
  5. 还在安装各种截图软件?Windows10自带的截图工具你会用吗?
  6. 《MySQL——外部检测与内部统计 判断 主库是否出现问题》
  7. NoSQL之【Redis】学习(二):配置说明
  8. 改善深层神经网络:超参数调整、正则化以及优化——2.6 动量梯度下降法
  9. 【看这一篇就够了】如何删除gitHub仓库中的文件
  10. 通过手机获取微信公众号封面
  11. opencv-车牌识别
  12. 网课搜题公众号接口怎么对接?最新接口-麦麦题
  13. 如何低格台式计算机的硬盘,低级格式化,教您硬盘如何进行低级格式化
  14. 技术实操|Apache Spark 内存管理详解(上篇)
  15. 入门图形学:雪地特效(一)
  16. 一个近乎完美的 Unity 全平台热更方案
  17. 今年很火的 AI 绘画怎么玩
  18. HEVC预测块(PU)模式划分显示
  19. android音乐播放器sd,Android音乐播放器(2)从SD卡中读取音乐
  20. [RK3568 Android11] 开发之开发者选项中添加USB OTG模式切换(二)

热门文章

  1. python中的chardet模块
  2. 如何接入银联“快速接入”产品API
  3. html原生时间选择框,JS实现漂亮的时间选择框效果
  4. echarts的tooltip提示框
  5. 平面设计banner排版技巧哪些比较实用
  6. 华三路由交换配置命令_H3C路由器常用基本配置命令
  7. Matlab 绘制直方图、面积图、饼图、针状图
  8. 通俗易懂的粒子滤波算法(PF)
  9. 基于单片机的GPS开发 (four) GPS基础知识
  10. 用eviews建立sarima模型_计量经济学第10讲(时间序列计量经济学模型:序列相关性)...