前言笔者在复习统计学回归和分类、学习python逻辑分类回归语言后做了这个入门项目,意在提高笔者运用python分析项目的实际能力。

本文共六节,阅读时间约为15分钟。

思路整理

1、项目理解

1.1了解背景

泰坦尼克号沉船是历史上最有名的沉船事件之一:1912年4月15日,在她的第一次航行中,泰坦尼克号与冰山相撞后沉没。船上乘客和机组人员2224名,其中1502人死亡。这场耸人听闻的悲剧震惊了国际社会,从而出台了更规范船舶安全规定。造成海难失事的原因之一是船上没有足够的救生艇。尽管幸存有部分运气因素,但总有些人比其他人更高概率生存,如妇女、儿童和上流社会者。

项目地址:(含项目介绍、数据下载、数据说明)

1.2明确问题

项目要求是预测一名乘客是否能够幸免于泰坦尼克号沉没。对于测试集中的每个PassengerId,要求为Survived变量预测0或1值。

1.3整理思路

2、理解数据

2.1数据导入

注意用pandas读取文件,文件名带中文会报错:Initializing from file failed。如

res = pd.read_csv('我的文件.csv')

解决方法

f = open('我的文件.csv')res = pd.read_csv(f)

2.2查看数据集信息

多出的一列为Survived,即本项目因变量,又称标签——本次模型的输出结果。再次明确项目目的:通过train数据提取特征、建立模型,从而预测test数据的survived结果。

由上可知有四列数据存在缺失,需要在后续针对它们进行处理。

2.3理解字段含义

3、数据清理

3.1数据预处理

3.1.1填充Fare船票价格(Fare)里面数据总数是1308条,缺失了1条数据

#查看缺失数据相关信息 full.iloc[1043,:]

3.1.2填充Age年龄(Age)里面数据总数是1046条,缺失了1309-1046=263,缺失率263/1309=20%

3.1.3删除Embarked空白行Embarked里数据总数是1307,只缺失了2条数据,缺失比较少

#查看缺失数据相关信息 full.iloc[61,:]

3.1.4删除Cabin列Cabin里数据总数是295,缺失了1309-295=1014,缺失率=1014/1309=77.5%。由于缺失率大,我们采取删除该列的方式。

3.2特征工程

我们需要尽可能多地抽取特征,只要觉得某特征与问题有关,它就可以成为一个特征。特征需要不断抽取、试验,所以是最需要动脑的一环,也是决定最终效果的一环。

3.2.1特征提取

3.2.1.1数据分类

需要处理的分类数据有:Sex,Embarked,Pclass,Name, Cabin,Parch,SibSp。Sex

Embarked

PclassName

统计汇总结果显示分类有很多。其中大部分分类下的数据量过少,不利于后续模型计算。为此,我们再对头衔进行汇总。

Parch、SibSp

此处,因为familsize和Parch、SibSp不重复,所以我们保留Parch、SibSp,不删除。

3.2.2特征选择

进一步学习资料:

4、构建模型

4.1分训练数据和测试数据

4.2机器学习算法

5、模型评估

将生成的csv文件上传至kaggle,可以看到自己的排名。

6、项目总结此次项目,我总上传了三次。每一次修改都是建立在前一次结果的基础上。

数据的填补方式差异会导致预测准确性概率的变动。如对fare的值填充,没有简单实用平均值代替。而是观察缺失项,定位与缺失项其它信息相符的数据。用相似数据的中位数代替。

对于存在大量缺失数据列Cabin的处理。我分别采用了补全和删除的方式。通过实际测试发现直接删除该列数据,模型预测的准确性更高。

特征选择是需要多次试验择优录取的。特别要注意的是过多的使用特征,反而可能会造成冗余,影响模型效果。

本文仅采用逻辑回归分类模型,但是实际建模会采用很多模型,通过最后预测效果比较选择出最优的模型。针对这块,接下来我还需要温故统计知识、掌握更多的python语言。

python泰坦尼克号生存预测论文_python泰坦尼克号生存预测相关推荐

  1. python泰坦尼克号生存预测论文_泰坦尼克号生存率预测(基于Python)

    背景:泰坦尼克号(RMS Titanic)是英国白星航运公司下辖的一艘奥林匹克级邮轮,于1909年3月31日在爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造.她是当时世界上体积最庞大.内部设施最豪华 ...

  2. python与金融数据分析论文_python 金融大数据分析 pdf

    python 金融大数据分析 pdf相关的博客 查看更多 写博客 作者: skin778 966人浏览 评论数:0 6个月前 ![5_6_3](https://yqfile.alicdn.com/b5 ...

  3. python与会计的论文_python计算与编程实践论文范文 有关西安交通大学软件学院软件工程硕士研究生毕业论文写作资料...

    简介:关于对写作计算实践论文范文与课题研究的大学硕士.相关本科毕业论文计算实践论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助. 西安交通大学 移动云计算方向 培养方向 培养目标 课程体 ...

  4. python语言的优缺点论文_Python语言的优缺点是什么呢?

    Python这门语言的魅力和影响力已经远超Java.C.C++等编程语言前辈,主流的十大编程语言中,Python排名第一.被广大使用者誉为"更美好"编程语言.也常常被昵称为&quo ...

  5. python数据分析与挖掘论文_Python数据分析与挖掘实战 --对应的代码文件以及目录信息...

    CSDN下载: 哔哩哔哩视频:https://www.bilibili.com/vide... 文件夹 PATH 列表 卷序列号为 4E8D-6931 C:. │ .txt │ Python数据分析与 ...

  6. python数据分析包pandas论文_python数据分析pandas包入门学习(一)pandas数据结构介绍...

    本文参考<利用python进行数据分析>的第五章 pandas入门python 1 pandas数据结构介绍 pandas有两种主要的数据结构:series和DataFrame Serie ...

  7. python装饰器应用论文_Python装饰器的应用场景代码总结

    装饰器的应用场景 附加功能 数据的清理或添加: 函数参数类型验证 @require_ints 类似请求前拦截 数据格式转换 将函数返回字典改为 json/YAML 类似响应后篡改 为函数提供额外的数据 ...

  8. python装饰器应用论文_python 装饰器应用

    1 注册回调函数 下面这个示例展示了通过URL的路由来调用相关注册的函数示例: class MyApp(): def __init__(self): self.func_map = {} def re ...

  9. python爬虫豆瓣评论论文_Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析...

    Date的那一大堆事儿--1 String perfTimeStr = "";// 统一设置日历格式 Calendar calendar = Calendar.getInstanc ...

  10. python爬虫豆瓣评论论文_python 爬虫 豆瓣 评论及评分

    借鉴了不少 hang 的博客:https://segmentfault.com/a/1190000010473819 评分: # -*- coding: utf-8 -*- ""& ...

最新文章

  1. 如何使用JPA注解标注多对多的关系
  2. PowerDesigner 15 进行 数据库反转到 数据库模型
  3. java把一段英文拆成单词_Java Word Break(单词拆解)
  4. 本地存储与云存储方案价值对比—Vecloud
  5. TAppEncoder的main函数
  6. mysql查询出来的数据用连接_mysql – 使用查询从连接的表中检索数据
  7. 如何在Kaggle 首战中进入前 10%
  8. DTC精彩回顾—王义成:国产数据库技术发展的探索与思考
  9. 【免费毕设】ASP.NET某中学图书馆系统的设计与实现(源代码+论文)
  10. MVC 打印解决方案--SNF快速开发平台3.1
  11. 解决eclipse/myeclipse导入项目时出现红色叹号的方法
  12. 【HDU6051】if the starlight never fade
  13. python 文件操作新姿势 pathlib模块的详细使用
  14. erp5 主要业务模块介绍
  15. Generative Adversarial Networks overview(1)
  16. 铲雪车(snow)[欧拉回路]
  17. 健身 宏效 -大道至简
  18. 视频教程-全国计算机二级MS OFFICE考前冲刺课程-计算机等级考试
  19. 普通用户申请微软的OneDrive免费网盘,容量5T、5T、5T,重要事情说三遍!!!!!
  20. 从诺贝尔奖到“吃鸡守护者”:通往极点的手机散热战争

热门文章

  1. Groovy入门教程
  2. Win10如何下载安装Java,配置环境变量,并顺利的使用系统发育树编辑软件figtree,需要java环境的软件都可依此教程下载安装配置
  3. WebRTC基本概念
  4. matlab画学生考试成绩频率直方图,matlab 绘制频率直方图
  5. 下载InstallShield Limited Edition for Visual Studio
  6. 前期观看郝斌老师Java学习视频整理的部分笔记
  7. 计算机黑板报主题ps,Photoshop︱用PS创建一个黑板报
  8. 微计算机原理与接口半期考试,最新南京邮电大学微型计算机原理与接口技术期末考试试卷...
  9. 20HTML5期末大作业:影视视频网站设计——爱影评在线电影(10页面) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码
  10. Date类与DateFormat类