机器学习-泰坦尼克号幸存者预测

泰坦尼克灾难数据描述

  • PassengerId:乘客的ID号,这个是顺序编号,用来唯一标识一名乘客。这个特征和幸存与否无关,我们不使用这个特征。
  • Survived:1表示幸存,0表示遇难。这个是标准数据。
  • Pclass:仓位等级,是很重要的特征。看过这部电影的读者都知道,高仓位等级的乘客能更快地到达甲板,从而更容易获救。
  • Name:乘客名字,这个特征和幸存与否无关,丢弃这个特征。
  • Sex:乘客性别,看过电影的读者都知道,由于救生艇数量不多,船长让妇女和儿童先上救生艇。所以这也是个很重要的特征。* Age:乘客年龄,儿童会优先上救生艇,身强力壮者幸存概率也会高一些。
  • SibSp:兄弟姐妹同在船上的数量。
  • Parch:同船的父辈人员数量。
  • Ticket:乘客票号,丢弃这个特征。
  • Fare:乘客的体热指标。
  • Cabin:乘客所在的船舱号,实际上这个特征和幸存与否有一定的关系,比如最早被水淹没的船舱位置,其乘客的幸存概率要低一些。但由于这个特征有大量的丢失数据,而且没有更多的数据来对船舱进行归类,因此我们丢弃这个特征的数据。
  • Embarked:乘客登船的港口,我们需要把港口数据转换为数值型数据。

数据探索

导入必要的库

机器学习-泰坦尼克号幸存者预测相关推荐

  1. 决策树入门案例:泰坦尼克号幸存者预测

    决策树 1 概述 1.1 决策树是如何工作的 1.2 分类树 DecisionTreeClassifier 1.3 回归树 DecisionTreeRegressor 1.4 案例练习 1. 用回归树 ...

  2. 特征工程实践:泰坦尼克号幸存者预测

    文章目录 泰坦尼克号幸存者预测 泰坦尼克号幸存者预测 数据集下载地址:https://www.kaggle.com/c/titanic/data . 本案例主要展示特征工程对数据集的处理方法,模型只选 ...

  3. #泰坦尼克号幸存者预测

    泰坦尼克号幸存者预测 泰坦尼克号训练数据见百度网盘: 链接:https://pan.baidu.com/s/1yHvYb2usyW24LqacHk9-Dw 提取码:p1do import pandas ...

  4. 机器学习实战(入门级) ------ Kaggle 泰坦尼克号幸存者预测 (随机森林,KNN,SVM)

    文章目录 前言 数据集介绍 gender_submision.csv: train.csv: test.csv 数据清洗 数据预处理 缺失值填充 数据优化 训练过程 SVM 完整代码 KNN K-Me ...

  5. 【1 - 决策树 - 案例部分:泰坦尼克号幸存者预测】菜菜sklearn机器学习

    课程地址:<菜菜的机器学习sklearn课堂>_哔哩哔哩_bilibili 第一期:sklearn入门 & 决策树在sklearn中的实现 第二期:随机森林在sklearn中的实现 ...

  6. 《scikit-learn机器学习》决策树③ -泰坦尼克号幸存者预测【思路+代码】

    泰坦尼克号预测: 1.思路 1.1 数据处理 1.2 选择模型并训练 1.3 用前剪枝对模型进行优化 1.4 试试其他的决策树模型 2.具体代码实现(代码来源于本书,不做详细解释) 2.1 数据处理 ...

  7. sklearn机器学习:泰坦尼克号幸存者的预测

    这是Kaggle的一道题,这里使用决策树完成预测,方便起见就直接在jupyter lab上来做这题了. 1.首先导入需要的包 #1.导包 import pandas as pd import nump ...

  8. 机器学习项目:泰坦尼克号幸存者预测

    随机森林分类模型 import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.model_ ...

  9. sklearn决策树--泰坦尼克号幸存者预测

     决策树的原理即利用不同的最优特征选择方法,优先选择样本纯度最高的特征来进行样本分类.其中:   使用信息增益的决策树算法为 ID3:   使用信息增益率的决策树算法为 C4.5:   使用Gini指 ...

最新文章

  1. Ubuntu安装TensorFlow-gpu及cuda9.0(不给自己找麻烦)
  2. C/C++程序语言概念
  3. Android sdk Drow9patch使用
  4. UI设计干货素材|教你正确使用浮动按钮
  5. mysql升级mysql5.7.22记录
  6. 图像处理_描述下SIFT特征?(清晰易懂)
  7. 把C++语言的书读薄
  8. 决策树算法的应用python实现_决策树ID3和C4.5算法Python实现源码
  9. 2021年最好用的5个股票API
  10. 网络协议、socket、webSocket
  11. MTK Battery系统
  12. python flask服务器假死_IE浏览器访问Flask自带服务器假死问题解决方法 - digwtx
  13. 【ppt入门教程】Win7系统怎样实现ppt双屏显示不同的内容
  14. Linux操作,su切换用户命令中有无横杠“-”的区别
  15. Navicat Premium11.0.16 for mac 破解
  16. vue3 不推荐使用index作为v-for遍历的key
  17. 【软件工程】软件工程知识点提纲8
  18. 跟着尚硅谷学大数据(二)MapReduce
  19. C语言康威生命游戏,【2020存档】康威生命游戏(CGoL)研究进展
  20. 货币套汇(图路径)【数据结构-深度优先搜索-回路】

热门文章

  1. C语言的数据类型大全,整型数据在内存中的存储方式
  2. 微信公众平台开发-消息管理-发送客服消息
  3. PUM-main makefile报错 #2
  4. echart地图飞线图
  5. android即时通讯ui框架,android IM即时通信之聊天界面UI框架
  6. 洛谷P2851 [USACO06DEC]The Fewest Coins G 题解
  7. Windows 7/8 fails to install in VirtualBox, Status: 0xC0000225
  8. 2016上半年高项项目经理考试培训考试感想
  9. [leetcode每日一题2021/5/8]1723. 完成所有工作的最短时间
  10. eclipse访问限制