泰坦尼克号数据_案例三:泰坦尼克号乘客的幸存预测_使用文档_机器数据分析平台...
案例三:泰坦尼克号乘客的幸存预测
背景介绍
数据来源
泰坦尼克号是当年世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉。1912年4月15日,它在首次航行期间,撞上冰山后沉没,众多名乘客和机组人员中大约有三分之二以上的人遇难。这场悲剧震撼了国际社会,直接促进了更好船舶安全条例的诞生。
该数据集就是来自网络上流传的有关泰坦尼克号乘客生存记录的一个版本,已经成为很多人在机器学习领域使用的经典测试案例,用来构建包含年龄、性别、船舱等特征的预测乘客是否幸存的模型。
最初的源数据已被清洁、整理并拆分为(891条记录)和(418条记录)两个文件。
数据集下载链接如下:
http://pw7x36qrk.bkt.clouddn.com/Titanic_train.csv
http://pw7x36qrk.bkt.clouddn.com/Titanic_test.csv
字段含义
特征变量名称 | 特征变量含义 |
---|---|
sex | 乘客的性别 |
age | 乘客的年龄 |
parch | 与乘客同行的父母和子女的数量 |
sibsp | 与乘客同行的兄弟姐妹和配偶的数量 |
familysize | 与乘客同行的家庭成员的总数量 |
title | 乘客的称谓(如先生、女士等) |
pclass | 乘客所持船票的等级 |
cabin | 乘客所在的船舱 |
fare | 乘客所持船票的价格 |
embark | 乘客登船的港口 |
目标变量名称 | 目标变量含义 |
survival | 0(遇难) |
1(幸存) |
数据预处理
数据质量检查
已完成,此处不考虑。
数据清洗
已完成,此处不考虑。
特征选择
由于该数据集中的字段都有预测意义,但title与sex的相关性较强,
parch、sibsp与familysize的相关性较强,因此我们会剔除title和parch、sibsp这三个字段,其他字段全部投入使用。
建模
算法选择
因为预测值(乘客是否幸存)为离散型数据,且问题的目的是判断某个乘客属于哪一种类型,我们可以选择使用分类模型来拟合数据。其中我们将采用准确率和训练速度都很突出的一种算法,即随机森林(Random Forest)。
拆分数据集
已完成,训练集使用,测试集使用,分别将其导入平台,并存为同名的数据集。
训练模型
在机器学习APP内,我们选定作为训练的子集之后,用fit算子训练线性回归模型,
并将该模型保存到模型库。同时,会产出该模型在训练集上的预测结果:
预测结果
模型预测
在机器学习APP内,我们可以用apply算子将刚刚保存的titanicRF模型应用到目标测试库,并产生该模型在测试集上的预测结果:
模型效果评估(AUC值)
首先,我们可以通过score算子计算预测结果的AUC值来评估模型的训练效果。AUC值在[0,1]之间波动,其值越大,表明模型效果越好。
训练集
测试集
模型效果评估(混淆矩阵)
接着,我们可以通过score算子产生混淆矩阵的方法来评估模型的训练效果。其中,在正向对角线上的数据量越多,其他位置的数据量越少,证明判断准确的数据越多。
训练集
测试集
模型效果评估(准确性)
再次,我们可以通过score算子计算预测的准确性来评估模型的训练效果。准确性的值在[0,1]之间波动,其值越大,表明模型效果越好。
训练集
测试集
综合以上训练集和测试集的AUC值、混淆矩阵和准确性结果,我们不难发现通过机器学习得到的模型在在测试集上的表现明显不如其在训练集上的表现。如果我们对模型预测质量的有较高的要求,可以通过重新划分数据集、选择新特征、更换算法等方法来进行模型优化。
此外,我们还可以用score算子来计算Precision(精确率)、Recall(召回率)、F1-score(F1值)和ROC-Curve(ROC曲线)等二分类模型的常用结果,以便更全面地评估模型的训练效果。
泰坦尼克号数据_案例三:泰坦尼克号乘客的幸存预测_使用文档_机器数据分析平台...相关推荐
- 思科wlc产品文档_案例:教你在思科官网查找文档解决你的问题
对于学习思科和调试思科设备的小伙伴而言,我们必须要会的一项工作就是: 利用思科官网和Google解决自己遇到的问题,注意我说的是Google,不是某某卖假药的网站. 下面我通过一个小例子给大家演示如何 ...
- api数据接口文档_接口文档示例(Taobao/jd/pinduoduo/开放接口调用)
api数据接口文档_接口文档示例 本文主要是提供了一个接口文档的范文,内容修订历史.目录.时序图.接口要素描述.接口说明.使用示例.字典.FAQ. 使用MD格式文档(makedown),选择原因,容 ...
- 数据导入与预处理-第4章-数据获取python读取pdf文档
数据导入与预处理-第4章-数据获取Python读取PDF文档 1 PDF简介 1.1 pdf是什么 2 Python操作PDF 2.1 pdfplumber库 2.2 pdfplumber基本操作 2 ...
- jstree中文api文档_开发中文 API 的一些策略
注:本文仅基于个人在其他英文编程语言中实现中文 API 的有限实践和见闻,对易语言等等中文编程语言的生态不甚了解,各种疏漏请指正. 如果要现在的我,选择一个英文 API 进行中文化,或者针对一种功能开 ...
- echarts4离线使用文档_适合写API接口文档的管理工具有哪些?
现在越来越流行前后端分离开发,使用ajax交互.所以api接口文档就变的十分有意义了,目前市场有哪些比较优秀的接口文档管理工具呢? 1.MinDoc 网址:https://www.iminho.me/ ...
- 计算机网络校园局域网课题,毕业论文基于VLAN技术的校园局域网建设word文档_全文免费在线阅读(推荐阅读)...
<[毕业论文]基于VLAN技术的校园局域网建设.doc>由会员分享,可免费在线阅读全文,更多与<[毕业论文]基于VLAN技术的校园局域网建设(word文档)_全文免费在线阅读> ...
- 智能测温工作台、健康打卡、智能助手、防疫测温、体温监控、组织架构、模板监控、设备管理、组织架构、设备数据、设备监控、应用管理、企业管理、目标管理、文档说明、业务流程图、账号、权限、发票、axure
智能测温工作台.健康打卡.智能助手.防疫测温.体温监控.组织架构.设备管理.模板监控.设备管理.组织架构.设备数据.设备监控.应用管理.企业管理.目标管理.文档说明.业务流程图.账号.权限.发票管理. ...
- 智能测温工作台、健康打卡、智能助手、防疫测温、体温监控、组织架构、设备管理、模板监控、设备管理、组织架构、设备数据、设备监控、应用管理、企业管理、目标管理、文档说明、业务流程图、账号、权限、axure
智能测温工作台.健康打卡.智能助手.防疫测温.体温监控.组织架构.设备管理.模板监控.设备管理.组织架构.设备数据.设备监控.应用管理.企业管理.目标管理.文档说明.业务流程图.账号.权限.发票管理. ...
- 达梦数据库导出数据表结构为excel或html或文本(写文档用)
达梦数据库导出数据表结构为excel或html或文本(写文档用) 项目中用的是国产达梦数据库,项目做了一期后应该是要数据库设计文档.其中就有一个需要表结构(字段,字段精度,说明...) 因为是国产数据 ...
- 【数据分析师-数据分析项目案例三】多因素房价预测分析案例
多因素房价预测分析案例 1 数据来源 2 数据加载和基本的ETL 2.1 模块导入和数据加载 2.2 数据清洗 3 数据可视化 3.1 地理可视化 3.2 关系矩阵和热力图 3.3 添加衍生字段 3. ...
最新文章
- java 冒泡排序和快速排序 实现
- Python3.7环境配置
- 全民直播CTO张云龙:已全面迁移至阿里云
- 靖江机器人怎么样_铁饭碗不保?靖江可能消失的12大职业!快看有你的工作没?...
- Npm常用命令有哪些
- visual studio installer 卸载时不能删除安装目录问题
- Cocos2d-x.3.0开发环境搭建
- windows linux—unix 跨平台通信集成控制系统----系统硬件信息获取
- Python 基础——tuple与list、append与extend
- LGG7救砖9008刷全量包
- 广告投放系统网络基础架构简要描述
- 计算机技术对股市的影响,cpi上涨对股市影响有哪些?CPI如何影响股市涨跌
- linux 文件服务器dlna,Ubuntu DLNA服务器的构建
- 物理机安装linux系统
- To C/To B/To G分别是什么
- 如何用mshtml获得Javascript中function的返回值[mshtml]
- java项目组成与理解
- linux取消线程的原理,linux线程的取消(终止)方法
- 唐骏的成功——可以复制的成功
- 2021年网络安全设备漏洞集合