Kaggle泰坦尼克号数据机器学习实战:从缺失值处理、数据探索性分析、组合特征生成到多模型构建

泰坦尼克号的沉没是历史上最为人熟知的海难事件之一。 1912 年 4 月 15 日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。

造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存下有一些运气因素,但有些人比其他人更容易存活下来,比如女人,孩子和上流社会。

在这个挑战中,要求完成哪些人可能存活下来的分析。特别的,要求运用机器学习工具来预测哪些乘客能够幸免于悲剧。
字段相关:
passengerid: 乘客 ID
class: 舱位等级 (1 = 1st, 2 = 2nd, 3 = 3rd)**
name: 乘客姓名
sex: 性别
age: 年龄
sibsp: 在船上的兄弟姐妹/配偶个数
parch: 在船上的父母/小孩个数
ticket: 船票信息
fare: 票价
cabin: 客舱
embarked: 登船港口 (C = Cherbourg, Q = Queenstown, S = Southampton)
survived:  变量预测为值 0 或 1(这里 1 表示幸存,0 表示遇难)

# 导入数据数据科学包

# data analysis and wrangling
import pandas as

Kaggle泰坦尼克号数据机器学习实战:从缺失值处理、数据探索性分析、组合特征生成到多模型构建相关推荐

  1. R语言使用ggplot2同时可视化dataframe的多个数据列实战:多个数据列可视化在同一个图中、多个数据列可视化在多个图中(纵向多个子图)

    R语言使用ggplot2同时可视化dataframe的多个数据列实战:多个数据列可视化在同一个图中.多个数据列可视化在多个图中(纵向多个子图) 目录

  2. 数据中台实战(四):商品分析(产品设计篇)

    上一讲讲了<数据中台实战(三):用户分析(产品设计篇)>用户模块我们用的是海盗模型,从用户的获取.激活.留存.收入.推荐的角度来做分析.这些指标是没问题,但是作为电商产品,如果站在价值的角 ...

  3. R语言ggplot2可视化强制指定X轴的日期范围实战:组合条形图和lm模型构建的回归模型的结果并强制指定X轴的日期范围

    R语言ggplot2可视化强制指定X轴的日期范围实战:组合条形图和lm模型构建的回归模型的结果并强制指定X轴的日期范围 目录

  4. 机器学习实战——特征工程之数据预处理

    机器学习实战的特征工程主要包含数据预处理.特征构建.特征选择三步,首先来介绍数据预处理. 我选择python作为工具,并将主要用到pandas.numpy等数据工具库.加载库: import pand ...

  5. 机器学习实战-预测数值型数据:回归

    1,用线性回归找到最佳拟合直线 回归的目的是预测数值型的目标值. 回归方程(regression equation)主要是求回归系数,一旦有了回归系数,在给定输入,做预测就是用回归系数乘以输入值,在将 ...

  6. Python数据分析与机器学习实战<九>titanic数据集分析实例

    目录 sklearn中文文档 1.17. 神经网络模型(有监督) - sklearnhttps://www.scikitlearn.com.cn/0.21.3/18/#sklearn%E4%B8%AD ...

  7. 机器学习实战(二)LR算法:实现简单的分类模型

    说明:主要参考 机器学习实战之Logistic,里面有更详尽的Logistic Regression原理分析和案例实现流程详解,是一个关于机器学习实战的不错的学习资料,推荐一波.出于编程实践和机器学习 ...

  8. 数据中台实战入门篇:数据中台对内、对外合作机制

    前言 之前文章讲了 <数据中台实战入门篇:双中台战略>,主要解决了什么是中台.什么是数据中台.业务中台.什么公司适合搭建双中台体系这几个问题.本篇文章讲一下数据中台的人员构成.内部如何合作 ...

  9. python 获取网页表格数据_python实战4获取tushare数据

    python 4 实战4 获取Tushare数据 阅读之前请注意: 代码都为红色.由于公众号宽度不够,没有特别注明,即使换行都是同一句代码,中间没有换行符.如果是两行代码,会用空行隔开. SQL语句请 ...

最新文章

  1. K8s 从懵圈到熟练 – 镜像拉取这件小事
  2. 使用Spring Security,Thymeleaf和Okta保护Java应用程序的安全
  3. python画图保存网页_一起学Python数据分析——引言
  4. ps 命令查看进程状态
  5. SeasLog 之企业级日志行为规范发布
  6. 软件(自动化)测试面试基础知识点汇总
  7. 工具篇:金蝶K3工具下载
  8. ppt表格高度无法调整
  9. Excel改变照片底色,设置为白色
  10. Activiti目录(五)驳回、重新发起、取消流程
  11. Java中如何将中文转换为英文String
  12. 10、wpf显示图片方式一: Image控件
  13. 《Understanding WiFi Signal Frequency Features for Position-Independent Gesture Sensing》论文总结
  14. mysql32位的能装在64位的电脑上吗,32位处理器能装64位系统吗
  15. Mifare UltraLight
  16. Theory for the information-based decomposition of stock price
  17. 春节大优惠,蓝牙耳机推荐,低延迟日常通勤必备蓝牙耳机
  18. 疯狂水晶~~~~~~青龙脚本
  19. 生成式语言大模型压缩技术思考——以ChatGPT为例
  20. 杰瑞学Perl之多值比较问题

热门文章

  1. win10双屏让任务栏显示不相同的方法
  2. python使用缩进作为语法边界、一般建议缩进()_Python百题计划
  3. 建立循环单链表(头插法)
  4. python图合并_Python图像处理实现两幅图像合成一幅图像的方法【测试可用】
  5. python 黑白tif提取边界像素坐标_OpenCV GrabCut算法:前景分割和提取
  6. Mix3D:大规模三维场景的数据增强(3DV2021)
  7. 不用GPU,稀疏化也能加速你的YOLOv3深度学习模型
  8. 盘点热门的目标检测开源方案(附论文+代码下载)
  9. StereoDRNet:基于stereo的三维重建网络
  10. linux 数据库创建和还原