0 问题概述

根据给出的乘客特征(年龄、舱室等级、登陆港口等),预测乘客是否幸存,属于典型的分类问题。

数据文件:

train.csv 训练集,包含1-891个记录

test.csv 测试集,包含892-1309的记录,不包含是否生存的label

gender_submission.csv 提交样例,测试集对应的是否生存label

1 训练集、测试集数据对比分析

1.1 特征缺失值情况对比

image.png

存在两个特殊情况,数据缺失补全时应特别注意;

Cabin特征存在大比例的缺失,可以将其忽略;

所有特征在训练集、测试集中的缺失情况基本一致,无需据此删除任何特征。

1.2 特征数据分布情况对比

image.png

通过绘图对所有10个特征在训练集、测试集中的分布情况进行对比,未发现任何明显差异,无需据此删除任何特征。

1 特征工程

1.1 离散特征处理

1)name

乘客姓名作为一个整体时这些信息价值不大,此时它的作用和PassengerId相当。

但是,name中包含的Mrs, Miss, Mr and Master.信息很有价值,可以将name切分为first_name, last_name, mid_name三部分。这里只保留mid_name,其余两个暂时不用。

def name_split(data):

first_name, last_name, mid_name = [], [], []

for name in data['Name']:

name = re.split(r'[,.]\s*', name)

first_name.append(name[0])

mid_name.append(name[1])

last_name.append(name[2])

#data['first_name'] = first_name

data['mid_name'] = mid_name

#data['last_name'] = last_name

print(data['mid_name'].value_counts()) # 输出mid_name中的非重复元素

return data

>>

Mr 517

Miss 182

Mrs 125

Master 40

Dr 7

Rev 6

Mlle 2

Major 2

Col 2

Lady 1

Capt 1

Ms 1

Mme 1

Sir 1

Jonkheer 1

the Countess 1

Don 1

可以看出,mid_name中共含有十多个非重复元素。查找资料发现,称谓的说明包含了这些称谓的解释。

Dr.= doctor 医生/博士

Rev.= reverend,用于基督教的牧师,如the Rev. Mr.Smith

Dona,是西班牙语对女子的称谓,相当于英语的 Lady

Don,n. (置于男士名字前的尊称)先生,堂

Master,小男孩,相当于汉语的"少爷"。

jonkheer是贵族

Col,Colonel,上校

capt船长; captain (陆军)上尉; (海军) 上校

major, 陆军少校意思有少校人意思

The Countless,女伯爵

Mlle,小姐

Mme是Madame的简写,(用于已婚妇女姓名前的尊称)太太

方法1:利用专业知识对离散的字符特征进行分组

根据常识,称谓中一般包含以下三方面的信息:

【年龄】:Mrs, Miss, Mr and Master等。称谓中的年龄信息基本和age特征同步。

【性别】:基本和sex特征同步;

【社会等级】:尊贵的人/平民。

python归一化 增大差异_练习赛1:Titanic相关推荐

  1. python归一化 增大差异_特征选择和特征生成问题初探

    1. 为什么要进行特征选择? 0x1:好的模型 = 好的数据 + 好的特征 + 好的算法 以文字图像识别为例,运行机器学习算法的结果可以被表示为一个函数 y(x),它以一个新的数字的图像 x 为输入, ...

  2. python归一化 增大差异_简学Python第六章__class面向对象编程与异常处理

    Python第六章__class面向对象编程与异常处理 欢迎加入Linux_Python学习群 群号:478616847 目录: 面向对象的程序设计 类和对象 封装 继承与派生 多态与多态性 特性pr ...

  3. python归一化 增大差异_Python逻辑回归模型原理及实际案例应用

    前言 上面我们介绍了线性回归, 岭回归, Lasso回归, 今天我们来看看另外一种模型-"逻辑回归". 虽然它有"回归"一词, 但解决的却是分类问题 目录 1. ...

  4. python归一化 增大差异_Python实现描述性统计

    众数(Mode) 众数是统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个).简单来说就是指一组数据中出现次数最多的数据值. import collecti ...

  5. python 对比文件内容差异_使用Python来比较文件夹并提取差异部分

    在客户那边建库,需要把几百个G几十万个文件导入到Oracle里,好不容易导完了才发现中间缺了好几大块数据,约有四分之一吧,郁闷得很. 数据是客户从第三方买的,据客户分析是拷贝过来的时候有部分数据漏掉了 ...

  6. python归一化改变图像大小_基于Python+PIL-Speed问题的图像强度归一化

    我在业余时间处理一个小问题,包括分析通过显微镜获得的一些图像.它是一个到处都有东西的晶圆,最终我想做一个程序来检测某些材料何时出现. 不管怎样,第一步是将图像的强度标准化,因为镜头不会产生均匀的闪电. ...

  7. python 归一化_数据的标准化和归一化

    数据的标准化 归一化 归一化的目标 归一化的好处 归一化的方法 无量纲表达式 为什么要对数据进行归一化处理 常见的数据归一化方法 Python归一化处理方法 数据的标准化 数据的标准化(normali ...

  8. python怎么求指数_求指数 python

    softmax用于多分类过程中最后一层,将多个神经元的输出,映射到(0, 1)区间内,可以看成概率来理解,从而来进行多分类! softmax函数如下: 更形象的如下图表示: softmax 直白来说就 ...

  9. python随机抽签列表中的同学值日_神奇的大抽签--Python中的列表_章节测验,期末考试,慕课答案查询公众号...

    神奇的大抽签--Python中的列表_章节测验,期末考试,慕课答案查询公众号 更多相关问题 下图表示几个植物类群的进化关系.下列叙述不正确的是[ ]A.最先出现的植物类群是甲B.乙和丙都是由甲进化来的 ...

最新文章

  1. 基于深度学习的文本分类应用!
  2. 转: GridView:当鼠标滑过,行的背景颜色发生变化
  3. Vmware安装提示在关闭以下进程 之前,无法进行安装的解决办法
  4. SQL Server转义下划线
  5. 微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破
  6. Oracle数据库实例的创建、删除、修改
  7. JAVA中Final的用法
  8. java 导出excel 例子_java导出Excel例子
  9. mysql显示表的所有列车_MySQL中查看当前数据库的所有表
  10. 小笔记,在windows和linux下分开编译、在C\C++下都使用C风格编译
  11. Python-视频爬取示例对小白友好
  12. 文件编码 linux,【原创】Linux基础之文件编码
  13. 人生---新---起点……
  14. python库build的那堆事儿之彩笔的划水历程
  15. SQL语法很难?其实只需要记住这部分行了
  16. Knockout.js入门级
  17. java-家庭作业3
  18. 靶向药物丨艾美捷西妥昔单抗Cetuximab方案
  19. 10月12日棉花期货投资
  20. ListView制作简单表格

热门文章

  1. 数学期望、方差、矩(moments)、倾斜度(skewness)及峰度(kurtosis)的理解及c/c++实现
  2. ​深圳文交所区块链应用基地叫停风波:业务调整还是另有隐情
  3. 目前Lodop支持IE系列、IE内核系列(遨游、360、世界之窗、腾讯TT、搜狗等)浏览器,以及Firefox(火狐)系列、Chrome(谷歌)系列、Opera系列、Safari系列等Windows下
  4. 高斯混合模型聚类(GMM)matlab实现
  5. 【小游戏】狼人杀1.0
  6. MapReduce编程(五) 单表关联
  7. 采用Spring配置文件管理Bean(2)
  8. 雅思备考技巧(个人感悟)
  9. a-upload文件上传
  10. UG\NX二次开发 获取装配根节点的两种方式