python归一化 增大差异_练习赛1:Titanic
0 问题概述
根据给出的乘客特征(年龄、舱室等级、登陆港口等),预测乘客是否幸存,属于典型的分类问题。
数据文件:
train.csv 训练集,包含1-891个记录
test.csv 测试集,包含892-1309的记录,不包含是否生存的label
gender_submission.csv 提交样例,测试集对应的是否生存label
1 训练集、测试集数据对比分析
1.1 特征缺失值情况对比
image.png
存在两个特殊情况,数据缺失补全时应特别注意;
Cabin特征存在大比例的缺失,可以将其忽略;
所有特征在训练集、测试集中的缺失情况基本一致,无需据此删除任何特征。
1.2 特征数据分布情况对比
image.png
通过绘图对所有10个特征在训练集、测试集中的分布情况进行对比,未发现任何明显差异,无需据此删除任何特征。
1 特征工程
1.1 离散特征处理
1)name
乘客姓名作为一个整体时这些信息价值不大,此时它的作用和PassengerId相当。
但是,name中包含的Mrs, Miss, Mr and Master.信息很有价值,可以将name切分为first_name, last_name, mid_name三部分。这里只保留mid_name,其余两个暂时不用。
def name_split(data):
first_name, last_name, mid_name = [], [], []
for name in data['Name']:
name = re.split(r'[,.]\s*', name)
first_name.append(name[0])
mid_name.append(name[1])
last_name.append(name[2])
#data['first_name'] = first_name
data['mid_name'] = mid_name
#data['last_name'] = last_name
print(data['mid_name'].value_counts()) # 输出mid_name中的非重复元素
return data
>>
Mr 517
Miss 182
Mrs 125
Master 40
Dr 7
Rev 6
Mlle 2
Major 2
Col 2
Lady 1
Capt 1
Ms 1
Mme 1
Sir 1
Jonkheer 1
the Countess 1
Don 1
可以看出,mid_name中共含有十多个非重复元素。查找资料发现,称谓的说明包含了这些称谓的解释。
Dr.= doctor 医生/博士
Rev.= reverend,用于基督教的牧师,如the Rev. Mr.Smith
Dona,是西班牙语对女子的称谓,相当于英语的 Lady
Don,n. (置于男士名字前的尊称)先生,堂
Master,小男孩,相当于汉语的"少爷"。
jonkheer是贵族
Col,Colonel,上校
capt船长; captain (陆军)上尉; (海军) 上校
major, 陆军少校意思有少校人意思
The Countless,女伯爵
Mlle,小姐
Mme是Madame的简写,(用于已婚妇女姓名前的尊称)太太
方法1:利用专业知识对离散的字符特征进行分组
根据常识,称谓中一般包含以下三方面的信息:
【年龄】:Mrs, Miss, Mr and Master等。称谓中的年龄信息基本和age特征同步。
【性别】:基本和sex特征同步;
【社会等级】:尊贵的人/平民。
python归一化 增大差异_练习赛1:Titanic相关推荐
- python归一化 增大差异_特征选择和特征生成问题初探
1. 为什么要进行特征选择? 0x1:好的模型 = 好的数据 + 好的特征 + 好的算法 以文字图像识别为例,运行机器学习算法的结果可以被表示为一个函数 y(x),它以一个新的数字的图像 x 为输入, ...
- python归一化 增大差异_简学Python第六章__class面向对象编程与异常处理
Python第六章__class面向对象编程与异常处理 欢迎加入Linux_Python学习群 群号:478616847 目录: 面向对象的程序设计 类和对象 封装 继承与派生 多态与多态性 特性pr ...
- python归一化 增大差异_Python逻辑回归模型原理及实际案例应用
前言 上面我们介绍了线性回归, 岭回归, Lasso回归, 今天我们来看看另外一种模型-"逻辑回归". 虽然它有"回归"一词, 但解决的却是分类问题 目录 1. ...
- python归一化 增大差异_Python实现描述性统计
众数(Mode) 众数是统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个).简单来说就是指一组数据中出现次数最多的数据值. import collecti ...
- python 对比文件内容差异_使用Python来比较文件夹并提取差异部分
在客户那边建库,需要把几百个G几十万个文件导入到Oracle里,好不容易导完了才发现中间缺了好几大块数据,约有四分之一吧,郁闷得很. 数据是客户从第三方买的,据客户分析是拷贝过来的时候有部分数据漏掉了 ...
- python归一化改变图像大小_基于Python+PIL-Speed问题的图像强度归一化
我在业余时间处理一个小问题,包括分析通过显微镜获得的一些图像.它是一个到处都有东西的晶圆,最终我想做一个程序来检测某些材料何时出现. 不管怎样,第一步是将图像的强度标准化,因为镜头不会产生均匀的闪电. ...
- python 归一化_数据的标准化和归一化
数据的标准化 归一化 归一化的目标 归一化的好处 归一化的方法 无量纲表达式 为什么要对数据进行归一化处理 常见的数据归一化方法 Python归一化处理方法 数据的标准化 数据的标准化(normali ...
- python怎么求指数_求指数 python
softmax用于多分类过程中最后一层,将多个神经元的输出,映射到(0, 1)区间内,可以看成概率来理解,从而来进行多分类! softmax函数如下: 更形象的如下图表示: softmax 直白来说就 ...
- python随机抽签列表中的同学值日_神奇的大抽签--Python中的列表_章节测验,期末考试,慕课答案查询公众号...
神奇的大抽签--Python中的列表_章节测验,期末考试,慕课答案查询公众号 更多相关问题 下图表示几个植物类群的进化关系.下列叙述不正确的是[ ]A.最先出现的植物类群是甲B.乙和丙都是由甲进化来的 ...
最新文章
- 基于深度学习的文本分类应用!
- 转: GridView:当鼠标滑过,行的背景颜色发生变化
- Vmware安装提示在关闭以下进程 之前,无法进行安装的解决办法
- SQL Server转义下划线
- 微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破
- Oracle数据库实例的创建、删除、修改
- JAVA中Final的用法
- java 导出excel 例子_java导出Excel例子
- mysql显示表的所有列车_MySQL中查看当前数据库的所有表
- 小笔记,在windows和linux下分开编译、在C\C++下都使用C风格编译
- Python-视频爬取示例对小白友好
- 文件编码 linux,【原创】Linux基础之文件编码
- 人生---新---起点……
- python库build的那堆事儿之彩笔的划水历程
- SQL语法很难?其实只需要记住这部分行了
- Knockout.js入门级
- java-家庭作业3
- 靶向药物丨艾美捷西妥昔单抗Cetuximab方案
- 10月12日棉花期货投资
- ListView制作简单表格
热门文章
- 数学期望、方差、矩(moments)、倾斜度(skewness)及峰度(kurtosis)的理解及c/c++实现
- ​深圳文交所区块链应用基地叫停风波:业务调整还是另有隐情
- 目前Lodop支持IE系列、IE内核系列(遨游、360、世界之窗、腾讯TT、搜狗等)浏览器,以及Firefox(火狐)系列、Chrome(谷歌)系列、Opera系列、Safari系列等Windows下
- 高斯混合模型聚类(GMM)matlab实现
- 【小游戏】狼人杀1.0
- MapReduce编程(五) 单表关联
- 采用Spring配置文件管理Bean(2)
- 雅思备考技巧(个人感悟)
- a-upload文件上传
- UG\NX二次开发 获取装配根节点的两种方式