机器学习经典案例——泰坦尼克号
机器学习经典案例——泰坦尼克号
前言:泰坦尼克号数据分析是机器学习的一个经典案例,进行这个案例的学习,大家可以先在(https://www.kaggle.com/)对数据进行下载。网站需要账号登陆后下载,账号用Google、邮箱、脸书等。
然后是这几个数据集
为了方便进行数据展示,使用Jupyter Notebook
先将要用到的数据上传到Jupyter Notebook
然后新建一个python3.0的环境,就可以开始我们的案例了。
先让我们来了解一下大概流程:
1:导入所需的库和其他工具
2:获取数据
3:对数据进行处理
4:对数据进行数据划分
5:提取数据进行决策
6:模型分析
1:导入所需的库和其他工具
①:numpy是Python的一种开源的数值计算扩展。可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
②:pandas 是基于numpy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
③:sklearn是python提供的免费机器学习框架,包含了很多的工具和算法。
- sklearn.tree:决策树,是进行计算的主要部分。
- sklearn.model_selection 中的 train_test_split用于划分训练集和测试集。
- sklearn.feature_extraction 中的 DictVectorizer用于进行文字特征抽取。
2:获取数据
还可以用head()的形式对数据进行部分展示,如下:
3:对数据进行处理
对于这次实例,我们研究的是数据的特征与其是否获救的关系,所以为了提高模型的准确性,我们要对特征进行分析。
passenger_id(乘客编号):表示每一个乘客。
p_class(乘客是几等舱):按电影中,是好舱先走的,对存活有影响。
name(乘客名字):完全无关。
sex(乘客性别):有可能对女性有一些倾向,选择保留。
age(乘客年龄):有可能对老幼有些列外的情况,选择保留。
SibSp(乘客的兄弟姐妹):有可能因为家人不能一起而拒绝登上救生艇,选择保留。
Parch(乘客的父母孩子):同上,选择保留。
Fare(购票所用的费用):费用和几等舱是相对应的,两者只能保留其中一个。
Cabin(船舱号):基本没影响。
Embarked(目的地):目的地也可以展示一个人可能的地位,选择保留。
然后就可以开始处理了
①把训练集和测试集整合到一起:
②删掉不需要的数据,以免影响结果:
用describe()查看union数集:
③解决数据中的空缺:
4:对数据进行划分
5:提取数据进行决策
6:模型分析
一个个对照:预测成功输出1
机器学习经典案例——泰坦尼克号相关推荐
- Python机器学习经典案例实战-韦玮-专题视频课程
Python机器学习经典案例实战-3710人已学习 课程介绍 Python在机器学习领域应用是非常广泛的,比如,我们可以使用机器学习进行验证码识别,使用机器学习实现计算机视觉项目,或者 ...
- python机器学习经典案例_Python机器学习经典实例
领取成功 您已领取成功! 您可以进入Android/iOS/Kindle平台的多看阅读客户端,刷新个人中心的已购列表,即可下载图书,享受精品阅读时光啦! - | 回复不要太快哦~ 回复内容不能为空哦 ...
- [转载] Python 机器学习经典实例
参考链接: Python中的逻辑门 内容介绍 在如今这个处处以数据驱动的世界中,机器学习正变得越来越大众化.它已经被广泛地应用于不同领域,如搜索引擎.机器人.无人驾驶汽车等.本书首先通过实用的案例介绍 ...
- python泰坦尼克号案例分析_泰坦尼克Python经典案例
12. 章节 12 - 结论和步骤 7: 优化和战略 如何使用本教程 : 请阅读本内核中提供的解释和相关链接.我们的目标不只是知道 " 是什么 " ,还要知道 " 为什么 ...
- ML之LoRBaggingRF:依次利用Bagging、RF算法对泰坦尼克号数据集 (Kaggle经典案例)获救人员进行二分类预测——模型融合
ML之LoR&Bagging&RF:依次利用Bagging.RF算法对泰坦尼克号数据集 (Kaggle经典案例)获救人员进行二分类预测--模型融合 目录 输出结果 设计思路 核心代码 ...
- ML之LoRBaggingRF:依次利用LoR、Bagging、RF算法对泰坦尼克号数据集 (Kaggle经典案例)获救人员进行二分类预测——优化baseline模型
ML之LoR&Bagging&RF:依次利用LoR.Bagging.RF算法对泰坦尼克号数据集 (Kaggle经典案例)获救人员进行二分类预测--优化baseline模型 目录 模型优 ...
- ML之LoRBaggingRF:依次利用LoR、Bagging、RF算法对泰坦尼克号数据集 (Kaggle经典案例)获救人员进行二分类预测(最全)
ML之LoR&Bagging&RF:依次利用LoR.Bagging.RF算法对泰坦尼克号数据集 (Kaggle经典案例)获救人员进行二分类预测 目录 输出结果 设计思路 核心代码 输出 ...
- [机器学习收藏] TensorFlow初学者必须了解的55个经典案例
TensorFlow初学者必须了解的55个经典案例 2017-06-191024深度学习1024深度学习 导语:本文是TensorFlow实现流行机器学习算法的教程汇集,目标是让读者可以轻松通过清晰简 ...
- 论文复现机器学习模型案例大本营(经典收藏)
1.机器学习论文重要性 论文,专利对于同学发展不言而喻.论文不通过,没法毕业,没法毕业就拿不到毕业证,工作也没法找.发表论文数量和质量有利于工作升迁,评职称就需要在核心期刊发布论文. 在数字经济时代, ...
- ML之LoRBaggingRF:依次利用LoR、Bagging、RF算法对titanic(泰坦尼克号)数据集 (Kaggle经典案例)获救人员进行二分类预测(最全)
ML之LoR&Bagging&RF:依次利用LoR.Bagging.RF算法对titanic(泰坦尼克号)数据集 (Kaggle经典案例)获救人员进行二分类预测 目录 输出结果 设计思 ...
最新文章
- php new redis错误,解决PHP Redis扩展无法加载的问题(zend_new_interned_string in Unknown on line 0)...
- nyist 一笔画问题
- CI持续集成系列之(九)代码发布脚本模板书写
- OpenCV放大视频Upscaling video
- mysql校对规则_MYSQL校对规则
- MVC架构模式(2)
- 游侠怎么设置java路径_Java获取当前路径的代码
- ​【月报】Java知音的三月汇总
- gdbstub中的基本命令_程序员应该知道的 20 个 Linux 系统管理命令
- java中h1.j有什么作用_Android JNI学习之javah命令的正确使用(找了好半天才找到的,汉,网上好多说法都没用)...
- Github更优雅的使用:Chrome插件推荐
- Anonymous Shared Memory android 匿名共享内存
- 数据库中常用使用场景
- IDEA连接服务器执行python程序
- java如何设计转账业务_Java实现转账业务
- 怎么计算crc16校验数据的校验码
- 魅族手机android调试模式吗,怎么开启魅族Pro5 USB调试模式 魅族Pro5 USB调试模式开启方法...
- python使用 docx 库操作 docx 格式文件
- 英特尔TCI技术落地,锐捷网络发布OCS终端云化新品
- Java中List集合过滤出符合条件的List元素集合
热门文章
- cada0图纸框_求标准CAD图纸(A0、A1、A2、A3、A4)图框(外框、内框)、标题栏及明细栏大小样式字体是多大?...
- MVP架构模式简单示例
- 贝叶斯滤波和粒子滤波
- 《工业设计史》第五章:设计改革
- masm5安装教程_小编为你演示win7系统使用masm5 0的操作步骤【详细说明】的恢复步骤...
- 案例 | 省去繁琐简历筛选,「微伴助手」选择 ShowMeBug 在线笔试提高人才精准度
- 通过汇编程序理解汇编和链接过程
- 【视频流上传播放功能】前后端分离用springboot-vue简单实现视频流上传和播放功能【详细注释版本,包含前后端代码】
- 浅谈一下workstation
- 轻松调用Google翻译