特征工程—数据哑变量(独热编码)
哑变量=独热编码=稀疏矩阵
分类特征变量分为:名义变量,有序变量,有距变量
名义变量:如门A,B,C,指数据之间毫无关联性
有序变量:如小学,中学,大学,学历有高低,但不能相互计算
有距变量:如分数,体重,费用等,可以通过计算得出
对于有序变量可以使用编码进行处理,对于名义变量可以使用哑变量进行处理
sklearn中使用OneHotEncoder模块进行哑变量:
代码如下:
from sklearn.preprocessing import OneHotEncoder
x = data1.iloc[:,2:3]
one = OneHotEncoder(categories="auto") #categories使用auto进行自动特征查找
re = one.fit_transform(x)
res = re.toarray() #使用toarray转换查看
pd.DataFrame(res)
上述对性别进行哑变量
one.inverse_transform(re) #逆转
one.get_feature_names() #查看编码后的特征
使用concat方法添加到原数据
newdata = pd.concat([data2,pd.DataFrame(res)],axis = 1) #将哑变量追加到原数据
特征工程—数据哑变量(独热编码)相关推荐
- 数据处理与特征工程:One-Hot Encoder独热编码、Label Encoder标签编码、Binary Encoder二进制编码
目录 一 OneHotEncoder独热编码 1.1 OneHotEncoder独热编码原理 2.1. 为什么要独热编码OneHotEncoder? 2.3 独热编码优缺点 2.4 什么情况下(不) ...
- 数据预处理之独热编码(One-Hot)
1.前言 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等. 这些特征值并不是连续的,而是离散的,无序的.通常我们需要对其进行特征数字化. 那什么是特征数字化呢 ...
- Python数据分析数据预处理特征值独热编码
[小白从小学Python.C.Java] [Python-计算机等级考试二级] [Python-数据分析] Python数据分析 数据预处理 特征值独热编码 独热编码,是一种将分类变量转换为若干二进制 ...
- 机器学习:数据预处理之独热编码(One-Hot)详解
一. 什么是独热编码? ---------------------------------------- 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等. 这 ...
- 数据预处理之独热编码(OneHotEncoder)
前言 ---------------------------------------- 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等. 这些特征值并不是连续 ...
- 机器学习:数据预处理之独热编码(One-Hot)
前言 ---------------------------------------- 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等. 这些特征值并不是连续 ...
- 【sklearn】数据预处理之独热编码(含两种实现方式+代码理解)
最近学习机器学习,接触到独热编码相关内容,参考了一些资料,加上自己的思考,做出了如下总结: 一.什么是独热编码 独热编码,即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态 ...
- 数据预处理之独热编码(One-Hot Encoding)
问题的由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑以下三个特征: ["male","female"] ["from ...
- Python下数值型与字符型类别变量独热编码(One-hot Encoding)实现
1 OneHotEncoder 2 pd.get_dummies 在数据处理与分析领域,数值型与字符型类别变量的编码是不可或缺的预处理操作.本文基于Python下OneHotEncoder与pd. ...
最新文章
- nginx 没有cookie_Nginx灰度升级实现说明
- python的print函数
- 紫膜质-形态与意识的桥梁
- Maven类包冲突终极解决小技若干
- 【Android开发】Android应用程序目录结构
- 深入浅出 消息队列 ActiveMQ
- RecycleView实现多布局可展开列表
- P3615 如厕计划
- 解码器常见故障及解决方法
- Python学习之波形图
- 人的五要素:自我意识、关系意识、信息、计划、行动
- Docker学习(二)进阶
- OC:跟随小码哥一起学习KVC
- 何水无鱼?何山无石?何人无父?何女无夫?何树无枝?何城无市?
- docker部署html页面,Docker 案例: 在容器中部署静态网站
- 【实习周记】微信网络组件——腾讯Mars框架的原理、编译和使用
- C语言学习笔记22/08/21
- BT、VeryCD倒下了,但是后继有种
- dumpstate log总结
- 3点画矩形的lisp_求cad的一个lisp程序,要求鼠标在点击一点后,输入长、宽两个数值,就能出来矩形,并且自动画出矩形的对角线...