哑变量=独热编码=稀疏矩阵

分类特征变量分为:名义变量,有序变量,有距变量

名义变量:如门A,B,C,指数据之间毫无关联性

有序变量:如小学,中学,大学,学历有高低,但不能相互计算

有距变量:如分数,体重,费用等,可以通过计算得出

对于有序变量可以使用编码进行处理,对于名义变量可以使用哑变量进行处理

sklearn中使用OneHotEncoder模块进行哑变量:

代码如下:

from sklearn.preprocessing import OneHotEncoder
x = data1.iloc[:,2:3]
one = OneHotEncoder(categories="auto")   #categories使用auto进行自动特征查找
re = one.fit_transform(x)
res = re.toarray()   #使用toarray转换查看
pd.DataFrame(res)

上述对性别进行哑变量

one.inverse_transform(re)  #逆转
one.get_feature_names()   #查看编码后的特征

使用concat方法添加到原数据

newdata = pd.concat([data2,pd.DataFrame(res)],axis = 1)  #将哑变量追加到原数据

特征工程—数据哑变量(独热编码)相关推荐

  1. 数据处理与特征工程:One-Hot Encoder独热编码、Label Encoder标签编码、Binary Encoder二进制编码

    目录 一  OneHotEncoder独热编码 1.1 OneHotEncoder独热编码原理 2.1. 为什么要独热编码OneHotEncoder? 2.3 独热编码优缺点 2.4 什么情况下(不) ...

  2. 数据预处理之独热编码(One-Hot)

    1.前言 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等. 这些特征值并不是连续的,而是离散的,无序的.通常我们需要对其进行特征数字化. 那什么是特征数字化呢 ...

  3. Python数据分析数据预处理特征值独热编码

    [小白从小学Python.C.Java] [Python-计算机等级考试二级] [Python-数据分析] Python数据分析 数据预处理 特征值独热编码 独热编码,是一种将分类变量转换为若干二进制 ...

  4. 机器学习:数据预处理之独热编码(One-Hot)详解

    一. 什么是独热编码? ---------------------------------------- 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等. 这 ...

  5. 数据预处理之独热编码(OneHotEncoder)

    前言 ---------------------------------------- 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等. 这些特征值并不是连续 ...

  6. 机器学习:数据预处理之独热编码(One-Hot)

    前言 ---------------------------------------- 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等. 这些特征值并不是连续 ...

  7. 【sklearn】数据预处理之独热编码(含两种实现方式+代码理解)

    最近学习机器学习,接触到独热编码相关内容,参考了一些资料,加上自己的思考,做出了如下总结: 一.什么是独热编码 独热编码,即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态 ...

  8. 数据预处理之独热编码(One-Hot Encoding)

    问题的由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑以下三个特征: ["male","female"] ["from ...

  9. Python下数值型与字符型类别变量独热编码(One-hot Encoding)实现

    1 OneHotEncoder 2 pd.get_dummies   在数据处理与分析领域,数值型与字符型类别变量的编码是不可或缺的预处理操作.本文基于Python下OneHotEncoder与pd. ...

最新文章

  1. nginx 没有cookie_Nginx灰度升级实现说明
  2. python的print函数
  3. 紫膜质-形态与意识的桥梁
  4. Maven类包冲突终极解决小技若干
  5. 【Android开发】Android应用程序目录结构
  6. 深入浅出 消息队列 ActiveMQ
  7. RecycleView实现多布局可展开列表
  8. P3615 如厕计划
  9. 解码器常见故障及解决方法
  10. Python学习之波形图
  11. 人的五要素:自我意识、关系意识、信息、计划、行动
  12. Docker学习(二)进阶
  13. OC:跟随小码哥一起学习KVC
  14. 何水无鱼?何山无石?何人无父?何女无夫?何树无枝?何城无市?
  15. docker部署html页面,Docker 案例: 在容器中部署静态网站
  16. 【实习周记】微信网络组件——腾讯Mars框架的原理、编译和使用
  17. C语言学习笔记22/08/21
  18. BT、VeryCD倒下了,但是后继有种
  19. dumpstate log总结
  20. 3点画矩形的lisp_求cad的一个lisp程序,要求鼠标在点击一点后,输入长、宽两个数值,就能出来矩形,并且自动画出矩形的对角线...

热门文章

  1. Axial Attention 轴向注意力(RowAttention column Attention)
  2. Jira查询bug中的reopen情况
  3. 电脑误删除的文件怎么恢复?
  4. Webots+tesla+ROS2
  5. 我们可以从Alexa语音助手的错误中学到什么:用户对话界面的设计性挑战
  6. onchange事件的触发
  7. matlab求解全微分函数,利用MATLAB求解微分方程的方法探索
  8. ARC混编 -fobjc-arc -fno-objc-arc
  9. [移动应用安全]移动应用安全培训PPT
  10. 5个超棒的HTML5框架