本文主要用kaggle网站上的泰坦尼克号生存数据信息,来进行机器学习的入门。其中用到的是逻辑回归算法。

一、提出问题

什么样的人在泰坦尼克号中更容易存活?

二、理解数据

1、数据来源

2、导入数据

测试数据集比训练数据集少一列,是因为测试数据集里缺少生存情况这一列,这一列是需要我们通过构建模型进行预测的。

pandas的append( )为添加新元素,在表尾中添加新行,并且返回添加后的数据对象。

3、查看数据集信息

通过Df.describe( )方法获取数据集的描述统计信息:

describe( )只能查看数据类型的描述统计信息,对于其他类型的数据不显示,比如字符串类型姓名(name),客舱号(Cabin),此时使用 info( )的方法查询所有列的信息。

可以发现,数据总共有1309行,Age、Cabin、Embarked、Fare 四列各有不同程度的缺失

三、数据清洗

包括数据预处理和特征工程两部分

首先进行数据预处理:

1、如果是数值类型,用平均值取代

2、如果是分类数据,用最常见的类别取代

用平均值对数值类型缺失值进行填充,Df['列名'].fillna( )

登船港口的缺失个数为 2,用常见数据进行填充

对于船舱号Cabin的处理:

查看填充缺失值以后的数据框信息

对于Survived生存情况列,因为是要用来预测的,所以不需要处理。

接下来进行特征工程:

特征工程就是最大限度的从原始数据中提取特征,以供机器学习算法和模型使用。

共包含两部分:1 特征提取 ,2 特征选择和降维

1、特征提取:

对不同数据类型有不同的提取方法:

性别Sex:

登船港口Embarked:

使用数据框的get-dummies( )对登船港口进行one-hot编码

船舱等级Pclass:

姓名Name:

乘客每个名字当中都包含了具体的称谓或者说是头衔,将这部分信息提取出来后可以作为非常有用的一个新变量,可以帮助我们进行预测。

查询头衔的类别和数量:

发现有些头衔并不是常见头衔,而且出现频率比较低,这样不利于机器学习。通过网上对头衔的分类,可将头衔分为6类Officer,Royalty,Mrs,Miss,Mr,Master六种,

船舱号Cabin:

同样的方法对船舱号进行分类,并删除原Cabin列,将新的数据合并到 full 数据集上。

家庭数据Parch、Sibsp:

对于家庭数据选择计算家庭人数的方法提取特征

2、特征选择

首先使用corr( )生成相关系数矩阵

再查看各个特征与生存情况的相关性:

最后选择相关性较高的7类数据为模型特征。

四、构建模型

首先提取特征和标签:

然后建立训练数据和测试数据:

Kaggle给出的训练数据集共有891条,所以这里也选择前891条数据作为训练数据。

最后训练模型:

五、评估模型

六、方案实施

对预测数据进行预测,将结果上传Kaggle

最终分数和排名:

泰坦尼克号生存预测python_用Python预测泰坦尼克号生存情况相关推荐

  1. 泰坦尼克号生存预测python_用Python预测泰坦尼克生存情况-附数据集

    介绍:通过逻辑回归算法,解决kaggle网站上的泰坦尼克生存情况预测问题,准确率在80%左右. 一.提出问题 什么样的人在泰坦尼克号中更容易存活? 二.理解数据 2.1 数据来源 数据来自kaggle ...

  2. 同花顺python_赠书 | Python 预测股票价格,竟然这么简单

    作为一种技术手段,预测在金融.证券领域的应用非常广泛,尤其是对股票价格的预测.我们介绍一下获得股票数据的方法,并基于此对数据进行预处理,接着使用数据分析方法,建立基础特征,进一步构建预测模型,且基于新 ...

  3. python 比赛成绩预测_利用 Python 预测英雄联盟胜负,分析了 5 万多场比赛才得出的数据!值得,涨知识了!...

    Mika 来源 | 头图 |CSDN自东方IC今天教大家用Python预测英雄联盟比赛胜负. Show me data,用数据说话 今天我们聊一聊 Python预测LOL胜负 目前,英雄联盟S10全球 ...

  4. python 生存分析_用python教程进行生存分析何时何地

    python 生存分析 机器学习 , 编程 , 统计 (Machine Learning, Programming, Statistics) Author(s): Pratik Shukla 作者:P ...

  5. 泰坦尼克号生存预测python_基于Python sklearn应用逻辑回归对泰坦尼克乘客存活做预测(一)...

    Python 的sklearn库包含许多可用于机器学习的工具,本文以经典的泰坦尼克号问题为例,来说明在Python中使用sklearn做机器学习的一般流程.由于本人对机器学习了解还不深,对于本文内容如 ...

  6. python泰坦尼克号数据预测_使用python预测泰坦尼克号生还

    简介 Titanic是Kaggle竞赛的一道入门题,参赛者需要根据旅客的阶级.性别.年龄.船舱种类等信息预测其是否能在海难中生还,详细信息可以参看https://www.kaggle.com/,本文的 ...

  7. python数据预测_使用Python预测缺失值

    对于数据科学家来说,处理丢失的数据是数据清理和模型开发过程中的一个重要部分.通常情况下,真实数据包含多个稀疏字段或包含错误值的字段.在这篇文章中,我们将讨论如何建立可以用来填补数据中缺失或错误值的模型 ...

  8. 同花顺python_这是真的么 | 学会了用Python预测股票价格

    文章来源于微信公众号:机器学习与python实战 原文链接:请点击 文章仅用于学习交流,如有侵权请联系删除 作为一种技术手段,预测在金融.证券领域的应用非常广泛,尤其是对股票价格的预测.我们介绍一下获 ...

  9. 同花顺python_我用 Python 预测了股票价格

    大家好,我是朱小五 最近大家都很关注股票/基金嘛,本来我也打算写写相关的文章,结果发现我对它们的了解不比等待进场的大妈们强多少... 吭哧吭哧爬了一堆数据,结果却不知道如何处理,正好看到一本书里对股票 ...

  10. 同花顺python_听说Python还能预测股票价格

    作为一种技术手段,预测在金融.证券领域的应用非常广泛,尤其是对股票价格的预测.我们介绍一下获得股票数据的方法,并基于此对数据进行预处理,接着使用数据分析方法,建立基础特征,进一步构建预测模型,且基于新 ...

最新文章

  1. 少儿编程python线上课程-北京Python程序开发课程
  2. 【视频课】StyleGAN人脸生成与年龄表情编辑:原理与实践
  3. js window.open()打开的页面关闭后刷新父页面
  4. CDNDrive 第一个版本发布 布客新知第二次备份完成
  5. 星期四星期五,越学越难
  6. axios 请求接口获取文件流数据导出数据到excel,解决乱码
  7. 分享整理的 Python 学习路线图,(附工具+视频+书籍+面试)
  8. 幻灯片形式设计:从方法到技巧
  9. windows配置caffe及matlab/python接口编译和调用(cpu/gpu)
  10. 指针错位导致对FSD误判
  11. 计算机图形学入门(十七)-光线追踪(蒙特卡洛积分与路径追踪)
  12. LeetCode-347. Top K Frequent Elements [C++][Java]
  13. 前端学习从入门到高级全程记录之13 (京东项目一)
  14. Android 定时器Timer
  15. 爱可生开源mysql_爱可生开源社区官网正式发布啦!
  16. uniapp中h5网页微信公众号授权
  17. Ubuntu搭建MongoDB集群
  18. 2020双十一活动怎么玩?做好这3点引爆销量!
  19. Cant bind to ngModel since it isnt a known property of input.ngtsc(-998002) app.component.ts(8, 7):
  20. 南大通用数据库-Gbase-8a-学习-24-全文检索

热门文章

  1. 【排障】为什么你发出去的邮件被退回
  2. linux 查看tps命令,Linux系统一些系统查看指令
  3. mysql 查询优化实验报告_数据库优化查询实验报告.docx
  4. Python爬虫——利用新浪微盘下载周杰伦的歌曲(共190首)
  5. linux自定义自动补全命令
  6. 如何建设网站步骤有哪些?
  7. uni-app开发语音提示推送功能
  8. Android 之简易涂鸦板
  9. 基于easyui的 增 删 改 查
  10. 解决安装MathType后Word不能复制粘贴问题