赛题介绍

简介

使用机器学习创建一个模型,预测哪些乘客在泰坦尼克号沉船事故中幸存下来。

泰坦尼克号的沉没是历史上最臭名昭著的沉船之一。‎

1912年4月15日,在她的处女航中,被广泛认为"不沉"的"泰坦尼克号"在与冰山相撞后沉没。不幸的是,船上的每个人都没有足够的救生艇,导致2224名乘客和船员中有1502人死亡。

虽然生存中有一些运气因素,但似乎有些群体比其他群体更有可能生存下来。‎

在这个挑战中,我们要求您建立一个预测模型,回答以下问题:"什么样的人更有可能生存?"使用乘客数据(即姓名,年龄,性别,社会经济阶层等)。

目标

您的工作是预测乘客是否在泰坦尼克号沉没中幸存下来。
对于测试集中的每个乘客,您必须预测变量的 0 或 1 值。

指标

您的分数是您正确预测的乘客百分比。这称为准确性。

预备知识 和 Notebook

泰坦尼克号 Notebook

Numpy&&Pandas&&Matploty

导入、观察、探索性分析

数据集下载

使用两个库:numpy 和 pandas

# 导入库
# 将 numpy 和 pandas 导入并命名为np、pd
import numpy as np
import pandas as pd# 使用相对路径导入csv数据,并
df = pd.read_csv('train.csv')# 展示数据的前三行 —— 观察数据
print(df.head(3))# 导入数据,(names)重命名列名和(index)行索引名,并(header=0)忽略原始列名
df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)# 展示数据的前三行 —— 观察数据
print(df.head(3))# 查看数据的基本信息(info) 每一列的非空值的个数、数据类型、文件大小 —— 观察数据
print(df.info())# 观察前(head)10行和后(tail)10行 —— 观察数据
print(df.head(10))
print(df.tail(10))# 判断数据是否为空 (返回一个true/false) —— 观察数据
df.isnull()# 另存为当前的以改变数据(to csv)为csv —— 保存数据
df.to_csv('tain_cn.csv')# 探索性分析# 查询 对票价和年龄降序排序后的前10行
print(df.sort_values(by=['票价','年龄'],ascending=False).head(10))
'''
根据常识我知道发现票价越高的应该客舱越好,
所以我们会明显看出,票价前10的乘客中存活的有8人,
这是相当高的一个比例,后期可以尝试分析票价和年龄的关系,票价和存活率的关系
'''# 查询票价的描述性统计信息
print(df['票价'].describe())
'''
一共有891个票价数据,
平均值约为:32.20,
标准差约为49.69,说明票价波动特别大,
25%的人的票价是低于7.91的,50%的人的票价低于14.45,75%的人的票价低于31.00,
票价最大值约为512.33,最小值为0。
'''# 对仓位等级和存活进行降序 查看前10行和后10行数据
print(df.sort_values(by=['仓位等级','是否幸存'],ascending=False).head(10))
print(df.sort_values(by=['仓位等级','是否幸存'],ascending=False).tail(10))
'''
通过观察可以发现,前10仓位等级最高者(3级),全部幸存,
后10仓位等级最低者(1级),全部未能幸免
后期可以尝试探索仓位等级与存活的关系
'''# 可以进行更多的排序观察,如年龄,性别等,并观察其描述性统计

数据清洗、特征处理、数据重构、数据可视化

我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。

数据清洗的思路

  1. 滤除缺失数据
  2. 填充缺失数据
  3. 数据转换

模型建立和评价

Kaggle —— 泰坦尼克号相关推荐

  1. Kaggle泰坦尼克号数据机器学习实战:从缺失值处理、数据探索性分析、组合特征生成到多模型构建

    Kaggle泰坦尼克号数据机器学习实战:从缺失值处理.数据探索性分析.组合特征生成到多模型构建 泰坦尼克号的沉没是历史上最为人熟知的海难事件之一. 1912 年 4 月 15 日,在她的处女航中,泰坦 ...

  2. Kaggle泰坦尼克号生存预测挑战——模型建立、模型调参、融合

    Kaggle泰坦尼克号生存预测挑战 这是kaggle上Getting Started 的Prediction Competition,也是比较入门和简单的新人赛,我的最好成绩好像有进入top8%,重新 ...

  3. Kaggle泰坦尼克号生存预测挑战——数据分析

    Kaggle泰坦尼克号生存预测挑战 这是kaggle上Getting Started 的Prediction Competition,也是比较入门和简单的新人赛,我的最好成绩好像有进入top8%,重新 ...

  4. Kaggle泰坦尼克号船难--逻辑回归预测生存率

    Kaggle泰坦尼克号船难–逻辑回归预测生存率#一.题目 https://www.kaggle.com/c/titanic 二.题意分析 train.csv中有891条泰坦尼克号乘客的数据,包括这些乘 ...

  5. kaggle泰坦尼克号_Kaggle基础知识:泰坦尼克号比赛

    kaggle泰坦尼克号 Kaggle is a site where people create algorithms and compete against machine learning pra ...

  6. Kaggle 泰坦尼克号生存分析(数据概览和缺失值处理部分)

    Kaggle 泰坦尼克号生存分析 数据概览 #导入pandas库方便数据读取和预处理,导入os库方便修改工作路径 import os import pandas as pd #读取数据 os.chdi ...

  7. [sklearn数据科学浅尝]kaggle泰坦尼克号幸存预测问题(入全球前10%)

    问题描述 比赛地址 kaggle泰坦尼克号比赛说明 泰坦尼克号的沉没是历史上最著名的沉船之一.1912年4月15日,在她的首航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502 ...

  8. 机器学习实战(入门级) ------ Kaggle 泰坦尼克号幸存者预测 (随机森林,KNN,SVM)

    文章目录 前言 数据集介绍 gender_submision.csv: train.csv: test.csv 数据清洗 数据预处理 缺失值填充 数据优化 训练过程 SVM 完整代码 KNN K-Me ...

  9. kaggle 泰坦尼克号数据分析 笔记

    #泰坦尼克号 https://www.kaggle.com/ 数据来源 import pandas #读取数据 titanic = pandas.read_csv("D:/panana/ta ...

  10. 2 机器学习入门——逻辑回归之kaggle泰坦尼克号竞赛

    前面几篇逻辑回归的例子有些是人造出来的,有些是比较正规的,但数据都比较完整,没有缺失的属性.虽然我们在很多数据上取到的非常好的效果,但总感觉好像不够味,不像实战. 所有的数据下载地址:https:// ...

最新文章

  1. 避免后台脚本重复启动机制
  2. 一文了解自然语言生成演变史!
  3. 机房配电柜、机柜线缆施工标准做法及线缆入柜方式
  4. pycharm 无法更新代码 update project 无效
  5. “你们对编程和头发一无所知。”
  6. Linux Kernel 0.01 的编译和运行
  7. JavaScript动态设置table的高度
  8. 5码默认版块_5个小众的生活学习类的宝藏App
  9. Codeforces274B
  10. 火蚁机器人_「适度偷懒提高整体效率:火蚁工作方式启发机器人群组协作」8月23日...
  11. UIViewController 之LoadView详解
  12. SAP检验批次批量取消程序示例(备份)
  13. NXP JN5169使用硬件SPI读写NRF24L01
  14. 【过程挖掘算法3】Heuristic Miner(启发式挖掘算法)
  15. 2021斯坦福大学计算机系完整课程列表
  16. laravel artisan命令大全
  17. 用网易云短信实现短信验证码功能
  18. 用机器学习生成披头士的歌词 | 项目实战
  19. python自动轨迹绘制_python day 20 自动轨迹绘制
  20. [GAN]CelebACelebAMask-HQ数据集

热门文章

  1. tex中的书签与链接hyperref
  2. 复制高亮代码到印象笔记
  3. 用VS2019编译librdkafka库
  4. php 开源网店系统,企业级开源PHP网店系统海盗云商(Haidao)
  5. 华为马海旭:+智能,IoT行业云服务使能产业物联网
  6. STM32F103C8T6 红外测距模块测量距离(SHARP GP2Y0A21YK0F)使用CubeMx生成HAL库(ADC)
  7. 死磕Mosek!新mosek学习笔记1:VS项目配置。
  8. CMD隐藏黑窗口运行
  9. 学计算机加数模社团,优秀社团 | 数学建模协会
  10. 射线法判断点在多边形内适用范围_重庆球墨铸铁X射线实时成像实时成像系统真诚合作_丹东华日电气...