看到One-Hot-Encoding发现网上大多数说明都是来自于同一个例子,最后结果感觉出的好突兀,因此这里总结一下。很多机器学习任务中,特征并不总是连续值,有可能是分类值。

考虑以下三个特征:

["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]

如果将上述特征用数字表示,效率会高很多,例如:

["male", "from US", "uses Internet Explorer"] 表示为[0, 1, 3]["female", "from Asia", "uses Chrome"]表示为[1, 2, 1]

但是,转化为数字表示后,上述数据不能直接用在我们得分类器中。因为,分类器往往默认数据时连续的,并且是有序的。但按上述表示的数字并不是有序的,而且是随机分配的。解决上述问题的一种方法是采用One-Hot Encoding。

One-Hot Encoding ,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。

例如:

自然状态码为:000,001,010,011,100,101独热编码为:000001,000010,000100,001000,010000,100000

对于每一个特征,如果它有m个可能值,那么经过One-Hot Encoding后,就变成了m个二元特征。并且,这些特征互斥,每次只有一个激活。因此,数据就会变成稀疏的。

这样的好处:

1. 解决了分类器不好处理属性数据的问题
2. 在一定程度上起到了扩充特征的作用

基于python和skLearn的简单例子:

encoder = preprocessing.OneHotEncoder()
encoder.fit([[0, 2, 1, 12],[1, 3, 5, 3],[2, 3, 2, 12],[1, 2, 4, 3]
])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print("\n Encoded vector =", encoded_vector)#输出结果
Encoded vector = [[ 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]#结果分析:
4个特征:
第一个特征(即为第一列)为[0,1,2,1] ,其中三类特征值[0,1,2],因此One-Hot Code可将[0,1,2]表示为:[100,010,001]
同理第二个特征列可将两类特征值[2,3]表示为[10,01]
第三个特征将4类特征值[1,2,4,5]表示为[1000,0100,0010,0001]
第四个特征将2类特征值[3,12]表示为[10,01]因此最后可将[2,3,5,3]表示为[0,0,1,0,1,0,0,0,1,1,0]

机器学习之One-Hot Encoding详解相关推荐

  1. 图解机器学习算法(6) | 决策树模型详解(机器学习通关指南·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/34 本文地址:https://www.showmeai.tech/article-d ...

  2. 图解机器学习算法(13) | 聚类算法详解(机器学习通关指南·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/34 本文地址:https://www.showmeai.tech/article-d ...

  3. 机器学习第五篇:详解决策树-CART算法

    01|前言: 本篇接着上一篇决策树详解,CART是英文"classification and regression tree"的缩写,翻译过来是分类与回归树,与前面说到的ID3.C ...

  4. 机器学习经典算法决策树原理详解(简单易懂)

    ↑ 点击上方[计算机视觉联盟]关注我们 最经典的决策树算法有ID3.C4.5.CART,其中ID3算法是最早被提出的,它可以处理离散属性样本的分类,C4.5和CART算法则可以处理更加复杂的分类问题, ...

  5. 机器学习第四篇:详解决策树算法

    01|背景: 我们在日常生活中经常会遇到一些选择需要去做一些选择,比如我们在找工作的时候每个人都希望能找到一个好的工作,但是公司那么多,工作种类那么多,什么样的工作才能算是好工作,这个时候就需要我们对 ...

  6. 机器学习之模型融合(详解Stacking,Blending)

    模型融合 Ensemble Generation 常见模型融合的方法 boosting bagging Stacking blending 各种模型融合的区别 Bagging,Boosting二者之间 ...

  7. 机器学习实战 | LightGBM建模应用详解

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

  8. 机器学习框架及评估指标详解

    目录 机器学习的步骤 train_test_split函数的详解 机器学习评估指标 分类模型评估指标

  9. 【机器学习基础】EM算法详解及其收敛性证明

    EM算法详解 (一)单高斯模型 1.1 一维高斯分布: 1.2 多维高斯分布: (二)最大似然估计 2.1 最大似然估计的数学概念: 2.2 最大似然估计的基本步骤: 2.2.1 构造似然函数: 2. ...

  10. 机器学习中的特征工程详解

    转载请注明出处:http://blog.csdn.net/linxdcn/article/details/80866745 最近看完一本写特征工程的书,概念清晰,内容全面,所以总结如下读书笔记,书名: ...

最新文章

  1. pythondocx批量提取目录及内容_一个可以选择目录生成doc目录内容的小工具(三) -python-docx...
  2. OpenCV中的HOG+SVM在自动驾驶车辆检测中的应用实例
  3. implicit request ?
  4. 1.Hadoop的组成 HDFS YARN
  5. 李佳琦谈公益:时代成就了我 我也要回馈社会
  6. 王文汉:大学毕业后的5-10年最重要
  7. Java中Comparable和Comparator接口的区别
  8. oracle默认的优化器,Oracle优化器相关参数设置
  9. 从阿里云容器攻防矩阵API安全生命周期,看如何构建金融安全云原生平台
  10. java连接mysql(java连接mysql的jar包)
  11. 补鞋匠迈尔鲁夫的故事(二)
  12. 研究者们公布图像识别软件方面的最新进展
  13. 一文搞定bp神经网络,bp神经网络的实现
  14. 网络WIFI 无法连接 无法上网网络故障
  15. 服务器维护 志愿填报时间顺延,因系统维护 西藏高考志愿填报截止时间顺延两日...
  16. 定位、相对定位、绝对定位
  17. 计算机专业用苹果哪款笔记本,电脑太多,哪款最适合您?盘点9款最佳笔记本电脑,您中意谁呢?...
  18. linux cd联想,智能工具:Lenovo硬件诊断工具(Linux版本)
  19. Filter 实现CORS
  20. c#split方法拆分为数据_C#实现字符串按多个字符采用Split方法分割 | 学步园

热门文章

  1. 如何让excel图表根据当前月份自动延伸
  2. 生成一个16位的随机数字
  3. mysql三个表连接语句_INNER JOIN连接两个表、三个表、五个表的SQL语句
  4. 如何培养卓越的执行力
  5. c语言第一章复习思维导图
  6. 《横向领导力》-简述
  7. 基于 Text-CNN 的情感分析(文本分类)----概念与应用
  8. 计算机系统后门程序,一种远程控制的后门程序在互联网出现
  9. Matplotlib绘制动图
  10. python冒号_python数组冒号取值操作