泰坦尼克号生存预测python_用Python预测泰坦尼克号生存情况
本文主要用kaggle网站上的泰坦尼克号生存数据信息,来进行机器学习的入门。其中用到的是逻辑回归算法。
一、提出问题
什么样的人在泰坦尼克号中更容易存活?
二、理解数据
1、数据来源
2、导入数据
测试数据集比训练数据集少一列,是因为测试数据集里缺少生存情况这一列,这一列是需要我们通过构建模型进行预测的。
pandas的append( )为添加新元素,在表尾中添加新行,并且返回添加后的数据对象。
3、查看数据集信息
通过Df.describe( )方法获取数据集的描述统计信息:
describe( )只能查看数据类型的描述统计信息,对于其他类型的数据不显示,比如字符串类型姓名(name),客舱号(Cabin),此时使用 info( )的方法查询所有列的信息。
可以发现,数据总共有1309行,Age、Cabin、Embarked、Fare 四列各有不同程度的缺失
三、数据清洗
包括数据预处理和特征工程两部分
首先进行数据预处理:
1、如果是数值类型,用平均值取代
2、如果是分类数据,用最常见的类别取代
用平均值对数值类型缺失值进行填充,Df['列名'].fillna( )
登船港口的缺失个数为 2,用常见数据进行填充
对于船舱号Cabin的处理:
查看填充缺失值以后的数据框信息
对于Survived生存情况列,因为是要用来预测的,所以不需要处理。
接下来进行特征工程:
特征工程就是最大限度的从原始数据中提取特征,以供机器学习算法和模型使用。
共包含两部分:1 特征提取 ,2 特征选择和降维
1、特征提取:
对不同数据类型有不同的提取方法:
性别Sex:
登船港口Embarked:
使用数据框的get-dummies( )对登船港口进行one-hot编码
船舱等级Pclass:
姓名Name:
乘客每个名字当中都包含了具体的称谓或者说是头衔,将这部分信息提取出来后可以作为非常有用的一个新变量,可以帮助我们进行预测。
查询头衔的类别和数量:
发现有些头衔并不是常见头衔,而且出现频率比较低,这样不利于机器学习。通过网上对头衔的分类,可将头衔分为6类Officer,Royalty,Mrs,Miss,Mr,Master六种,
船舱号Cabin:
同样的方法对船舱号进行分类,并删除原Cabin列,将新的数据合并到 full 数据集上。
家庭数据Parch、Sibsp:
对于家庭数据选择计算家庭人数的方法提取特征
2、特征选择
首先使用corr( )生成相关系数矩阵
再查看各个特征与生存情况的相关性:
最后选择相关性较高的7类数据为模型特征。
四、构建模型
首先提取特征和标签:
然后建立训练数据和测试数据:
Kaggle给出的训练数据集共有891条,所以这里也选择前891条数据作为训练数据。
最后训练模型:
五、评估模型
六、方案实施
对预测数据进行预测,将结果上传Kaggle
最终分数和排名:
泰坦尼克号生存预测python_用Python预测泰坦尼克号生存情况相关推荐
- 泰坦尼克号生存预测python_用Python预测泰坦尼克生存情况-附数据集
介绍:通过逻辑回归算法,解决kaggle网站上的泰坦尼克生存情况预测问题,准确率在80%左右. 一.提出问题 什么样的人在泰坦尼克号中更容易存活? 二.理解数据 2.1 数据来源 数据来自kaggle ...
- 同花顺python_赠书 | Python 预测股票价格,竟然这么简单
作为一种技术手段,预测在金融.证券领域的应用非常广泛,尤其是对股票价格的预测.我们介绍一下获得股票数据的方法,并基于此对数据进行预处理,接着使用数据分析方法,建立基础特征,进一步构建预测模型,且基于新 ...
- python 比赛成绩预测_利用 Python 预测英雄联盟胜负,分析了 5 万多场比赛才得出的数据!值得,涨知识了!...
Mika 来源 | 头图 |CSDN自东方IC今天教大家用Python预测英雄联盟比赛胜负. Show me data,用数据说话 今天我们聊一聊 Python预测LOL胜负 目前,英雄联盟S10全球 ...
- python 生存分析_用python教程进行生存分析何时何地
python 生存分析 机器学习 , 编程 , 统计 (Machine Learning, Programming, Statistics) Author(s): Pratik Shukla 作者:P ...
- 泰坦尼克号生存预测python_基于Python sklearn应用逻辑回归对泰坦尼克乘客存活做预测(一)...
Python 的sklearn库包含许多可用于机器学习的工具,本文以经典的泰坦尼克号问题为例,来说明在Python中使用sklearn做机器学习的一般流程.由于本人对机器学习了解还不深,对于本文内容如 ...
- python泰坦尼克号数据预测_使用python预测泰坦尼克号生还
简介 Titanic是Kaggle竞赛的一道入门题,参赛者需要根据旅客的阶级.性别.年龄.船舱种类等信息预测其是否能在海难中生还,详细信息可以参看https://www.kaggle.com/,本文的 ...
- python数据预测_使用Python预测缺失值
对于数据科学家来说,处理丢失的数据是数据清理和模型开发过程中的一个重要部分.通常情况下,真实数据包含多个稀疏字段或包含错误值的字段.在这篇文章中,我们将讨论如何建立可以用来填补数据中缺失或错误值的模型 ...
- 同花顺python_这是真的么 | 学会了用Python预测股票价格
文章来源于微信公众号:机器学习与python实战 原文链接:请点击 文章仅用于学习交流,如有侵权请联系删除 作为一种技术手段,预测在金融.证券领域的应用非常广泛,尤其是对股票价格的预测.我们介绍一下获 ...
- 同花顺python_我用 Python 预测了股票价格
大家好,我是朱小五 最近大家都很关注股票/基金嘛,本来我也打算写写相关的文章,结果发现我对它们的了解不比等待进场的大妈们强多少... 吭哧吭哧爬了一堆数据,结果却不知道如何处理,正好看到一本书里对股票 ...
- 同花顺python_听说Python还能预测股票价格
作为一种技术手段,预测在金融.证券领域的应用非常广泛,尤其是对股票价格的预测.我们介绍一下获得股票数据的方法,并基于此对数据进行预处理,接着使用数据分析方法,建立基础特征,进一步构建预测模型,且基于新 ...
最新文章
- 少儿编程python线上课程-北京Python程序开发课程
- 【视频课】StyleGAN人脸生成与年龄表情编辑:原理与实践
- js window.open()打开的页面关闭后刷新父页面
- CDNDrive 第一个版本发布 布客新知第二次备份完成
- 星期四星期五,越学越难
- axios 请求接口获取文件流数据导出数据到excel,解决乱码
- 分享整理的 Python 学习路线图,(附工具+视频+书籍+面试)
- 幻灯片形式设计:从方法到技巧
- windows配置caffe及matlab/python接口编译和调用(cpu/gpu)
- 指针错位导致对FSD误判
- 计算机图形学入门(十七)-光线追踪(蒙特卡洛积分与路径追踪)
- LeetCode-347. Top K Frequent Elements [C++][Java]
- 前端学习从入门到高级全程记录之13 (京东项目一)
- Android 定时器Timer
- 爱可生开源mysql_爱可生开源社区官网正式发布啦!
- uniapp中h5网页微信公众号授权
- Ubuntu搭建MongoDB集群
- 2020双十一活动怎么玩?做好这3点引爆销量!
- Cant bind to ngModel since it isnt a known property of input.ngtsc(-998002) app.component.ts(8, 7):
- 南大通用数据库-Gbase-8a-学习-24-全文检索