Kaggle —— 泰坦尼克号
赛题介绍
简介
使用机器学习创建一个模型,预测哪些乘客在泰坦尼克号沉船事故中幸存下来。
泰坦尼克号的沉没是历史上最臭名昭著的沉船之一。
1912年4月15日,在她的处女航中,被广泛认为"不沉"的"泰坦尼克号"在与冰山相撞后沉没。不幸的是,船上的每个人都没有足够的救生艇,导致2224名乘客和船员中有1502人死亡。
虽然生存中有一些运气因素,但似乎有些群体比其他群体更有可能生存下来。
在这个挑战中,我们要求您建立一个预测模型,回答以下问题:"什么样的人更有可能生存?"使用乘客数据(即姓名,年龄,性别,社会经济阶层等)。
目标
您的工作是预测乘客是否在泰坦尼克号沉没中幸存下来。
对于测试集中的每个乘客,您必须预测变量的 0 或 1 值。
指标
您的分数是您正确预测的乘客百分比。这称为准确性。
预备知识 和 Notebook
泰坦尼克号 Notebook
Numpy&&Pandas&&Matploty
导入、观察、探索性分析
数据集下载
使用两个库:numpy 和 pandas
# 导入库
# 将 numpy 和 pandas 导入并命名为np、pd
import numpy as np
import pandas as pd# 使用相对路径导入csv数据,并
df = pd.read_csv('train.csv')# 展示数据的前三行 —— 观察数据
print(df.head(3))# 导入数据,(names)重命名列名和(index)行索引名,并(header=0)忽略原始列名
df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)# 展示数据的前三行 —— 观察数据
print(df.head(3))# 查看数据的基本信息(info) 每一列的非空值的个数、数据类型、文件大小 —— 观察数据
print(df.info())# 观察前(head)10行和后(tail)10行 —— 观察数据
print(df.head(10))
print(df.tail(10))# 判断数据是否为空 (返回一个true/false) —— 观察数据
df.isnull()# 另存为当前的以改变数据(to csv)为csv —— 保存数据
df.to_csv('tain_cn.csv')# 探索性分析# 查询 对票价和年龄降序排序后的前10行
print(df.sort_values(by=['票价','年龄'],ascending=False).head(10))
'''
根据常识我知道发现票价越高的应该客舱越好,
所以我们会明显看出,票价前10的乘客中存活的有8人,
这是相当高的一个比例,后期可以尝试分析票价和年龄的关系,票价和存活率的关系
'''# 查询票价的描述性统计信息
print(df['票价'].describe())
'''
一共有891个票价数据,
平均值约为:32.20,
标准差约为49.69,说明票价波动特别大,
25%的人的票价是低于7.91的,50%的人的票价低于14.45,75%的人的票价低于31.00,
票价最大值约为512.33,最小值为0。
'''# 对仓位等级和存活进行降序 查看前10行和后10行数据
print(df.sort_values(by=['仓位等级','是否幸存'],ascending=False).head(10))
print(df.sort_values(by=['仓位等级','是否幸存'],ascending=False).tail(10))
'''
通过观察可以发现,前10仓位等级最高者(3级),全部幸存,
后10仓位等级最低者(1级),全部未能幸免
后期可以尝试探索仓位等级与存活的关系
'''# 可以进行更多的排序观察,如年龄,性别等,并观察其描述性统计
数据清洗、特征处理、数据重构、数据可视化
我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。
数据清洗的思路
- 滤除缺失数据
- 填充缺失数据
- 数据转换
模型建立和评价
Kaggle —— 泰坦尼克号相关推荐
- Kaggle泰坦尼克号数据机器学习实战:从缺失值处理、数据探索性分析、组合特征生成到多模型构建
Kaggle泰坦尼克号数据机器学习实战:从缺失值处理.数据探索性分析.组合特征生成到多模型构建 泰坦尼克号的沉没是历史上最为人熟知的海难事件之一. 1912 年 4 月 15 日,在她的处女航中,泰坦 ...
- Kaggle泰坦尼克号生存预测挑战——模型建立、模型调参、融合
Kaggle泰坦尼克号生存预测挑战 这是kaggle上Getting Started 的Prediction Competition,也是比较入门和简单的新人赛,我的最好成绩好像有进入top8%,重新 ...
- Kaggle泰坦尼克号生存预测挑战——数据分析
Kaggle泰坦尼克号生存预测挑战 这是kaggle上Getting Started 的Prediction Competition,也是比较入门和简单的新人赛,我的最好成绩好像有进入top8%,重新 ...
- Kaggle泰坦尼克号船难--逻辑回归预测生存率
Kaggle泰坦尼克号船难–逻辑回归预测生存率#一.题目 https://www.kaggle.com/c/titanic 二.题意分析 train.csv中有891条泰坦尼克号乘客的数据,包括这些乘 ...
- kaggle泰坦尼克号_Kaggle基础知识:泰坦尼克号比赛
kaggle泰坦尼克号 Kaggle is a site where people create algorithms and compete against machine learning pra ...
- Kaggle 泰坦尼克号生存分析(数据概览和缺失值处理部分)
Kaggle 泰坦尼克号生存分析 数据概览 #导入pandas库方便数据读取和预处理,导入os库方便修改工作路径 import os import pandas as pd #读取数据 os.chdi ...
- [sklearn数据科学浅尝]kaggle泰坦尼克号幸存预测问题(入全球前10%)
问题描述 比赛地址 kaggle泰坦尼克号比赛说明 泰坦尼克号的沉没是历史上最著名的沉船之一.1912年4月15日,在她的首航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502 ...
- 机器学习实战(入门级) ------ Kaggle 泰坦尼克号幸存者预测 (随机森林,KNN,SVM)
文章目录 前言 数据集介绍 gender_submision.csv: train.csv: test.csv 数据清洗 数据预处理 缺失值填充 数据优化 训练过程 SVM 完整代码 KNN K-Me ...
- kaggle 泰坦尼克号数据分析 笔记
#泰坦尼克号 https://www.kaggle.com/ 数据来源 import pandas #读取数据 titanic = pandas.read_csv("D:/panana/ta ...
- 2 机器学习入门——逻辑回归之kaggle泰坦尼克号竞赛
前面几篇逻辑回归的例子有些是人造出来的,有些是比较正规的,但数据都比较完整,没有缺失的属性.虽然我们在很多数据上取到的非常好的效果,但总感觉好像不够味,不像实战. 所有的数据下载地址:https:// ...
最新文章
- 避免后台脚本重复启动机制
- 一文了解自然语言生成演变史!
- 机房配电柜、机柜线缆施工标准做法及线缆入柜方式
- pycharm 无法更新代码 update project 无效
- “你们对编程和头发一无所知。”
- Linux Kernel 0.01 的编译和运行
- JavaScript动态设置table的高度
- 5码默认版块_5个小众的生活学习类的宝藏App
- Codeforces274B
- 火蚁机器人_「适度偷懒提高整体效率:火蚁工作方式启发机器人群组协作」8月23日...
- UIViewController 之LoadView详解
- SAP检验批次批量取消程序示例(备份)
- NXP JN5169使用硬件SPI读写NRF24L01
- 【过程挖掘算法3】Heuristic Miner(启发式挖掘算法)
- 2021斯坦福大学计算机系完整课程列表
- laravel artisan命令大全
- 用网易云短信实现短信验证码功能
- 用机器学习生成披头士的歌词 | 项目实战
- python自动轨迹绘制_python day 20 自动轨迹绘制
- [GAN]CelebACelebAMask-HQ数据集
热门文章
- tex中的书签与链接hyperref
- 复制高亮代码到印象笔记
- 用VS2019编译librdkafka库
- php 开源网店系统,企业级开源PHP网店系统海盗云商(Haidao)
- 华为马海旭:+智能,IoT行业云服务使能产业物联网
- STM32F103C8T6 红外测距模块测量距离(SHARP GP2Y0A21YK0F)使用CubeMx生成HAL库(ADC)
- 死磕Mosek!新mosek学习笔记1:VS项目配置。
- CMD隐藏黑窗口运行
- 学计算机加数模社团,优秀社团 | 数学建模协会
- 射线法判断点在多边形内适用范围_重庆球墨铸铁X射线实时成像实时成像系统真诚合作_丹东华日电气...