1. one hot encoder

sklearn.preprocessing.OneHotEncoder

one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:

>>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])  >>> enc.n_values_
array([2, 3, 4])>>> enc.feature_indices_
array([0, 2, 5, 9])>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

为 OneHotEncoder 类传递进来的数据集:

[[0, 0, 3],
[1, 1, 0],
[0, 2, 1],
[1, 0, 2]]
  • 1
  • 2
  • 3
  • 4

每一列代表一个属性,fit 操作之后:

  • 对象encn_values_成员变量,记录着每一个属性的最大取值数目,如本例第一个属性:0, 1, 0, 1 ⇒ 2,0, 1, 2, 0 ⇒ 3,3, 0, 1, 2 ⇒ 4

    • 即各个属性(feature)在 one hot 编码下占据的位数;
  • 对象 enc 的 feature_indices_,则记录着属性在新 One hot 编码下的索引位置, 
    • feature_indices_ 是对 n_values_ 的累积值,不过 feature_indices 的首位是 0;

进一步通过 fit 好的 one hot encoder 对新来的特征向量进行编码:

>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])
  • 1
  • 2
  • 前 2 位 1, 0,对 0 进行编码
  • 中间 3 位 0, 1, 0 对 1 进行编码;
  • 末尾 4 位 0, 1, 0, 0 对 1 进行编码;

sklearn OneHot编码相关推荐

  1. python one hot编码_对python sklearn one-hot编码详解

    one-hot编码的作用 使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点 将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类 ...

  2. 01_什么是one-hot编码、one-hot编码过程详解、为什么需要one-hot编码?one-hot编码的优缺点、使用sklearn中的API举例

    以下资料来自:网络+最后的整合 https://www.cnblogs.com/shuaishuaidefeizhu/p/11269257.html https://www.cntofu.com/bo ...

  3. 【小代码讲解】独热编码(One-Hot编码)

    独热编码(One-Hot编码) 独热编码介绍 独热编码表示 独热编码实现 使用sklearn 不使用sklearn 独热编码介绍 在机器学习中,标签的处理总是需要进行独热编码的处理,因为独热编码有以下 ...

  4. 词向量系列之One-Hot编码详解

    目录 0.前言 1. 独热编码 1.1 独热编码例子 1.2 独热编码的优点 1.3 独热编码的缺点 1.4 独热编码适用的情况 2. 独热编码的实现 2.1 python简单实现one-hot编码 ...

  5. 你真的懂one-hot编码吗?

    一个很隐晦的问题 在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间,所以往 ...

  6. Python对离散变量处理:哑变量编码和one-hot编码

    在数据进行建模分析,无法直接把类别变量放入模型中去分析,因此,需要对类别变量进行处理.最常见的方法是对类别变量做哑变量编码或one-hot编码,所以运用最近的业务数据进行了尝试.哑变量编码和one-h ...

  7. 将标签进行One-hot编码

    在利用机器学习或者深度学习解决分类问题时,我们需要将标签进行编码,有时也需要将离散的自变量进行分类编码,特别是做神经网络或回归预测时,对离散的自变量也进行One-hot编码扩维是一种很好办法,例如我们 ...

  8. 训练集产生的onehot编码特征如何在测试集、预测集复现

    数据处理中有时要用到onehot编码,如果使用pandas自带的get_dummies方法,训练集产生的onehot编码特征会跟测试集.预测集不一样,正确的方式是使用sklearn自带的OneHotE ...

  9. 普通数据改为onehot编码,onehot转换为普通数据

    一维数组转one-hot编码 方法一: from sklearn.preprocessing import OneHotEncoder enc=OneHotEncoder() enc.fit(trai ...

最新文章

  1. jQuery Mobile发展新闻阅读器,适应iphone和android打电话
  2. 深入理解阻塞socket和非阻塞socket
  3. 用 Python 和 OpenCV 检测和跟踪运动对象
  4. 动手动脑,产生随机数
  5. 中小型研发团队架构实践:集中式日志ELK
  6. 3500个常用汉字表_小学常用560个汉字笔画笔顺表,打印下来,小学六年慢慢练...
  7. centOS 7下安装与配置heartbeat高可用集群
  8. 中学教师计算机技术培训资料,教师信息技术能力培养
  9. react+antd 权限管理 Tree树形控件
  10. 使用RMAN备份与恢复数据库(1)——RMAN基本命令
  11. 2020腾讯秋招笔试编程题--压缩算法
  12. 可以在电脑上刷微信朋友圈啦-微信 mac最新版
  13. MIPS汇编语言学习笔记27:数组
  14. 兖州计算机老师,兖州最美教师 | 风采展示(二)
  15. pytorch3d代码解释:pytorch3d.structures.meshes之verts_list, verts_packed, verts_padded
  16. 如何通过爱奇艺引流精准粉?
  17. 京东第二轮裁员来袭,套路满满:假装劝退,劝员工找工作,贬低工作能力,忽悠员工不走仲裁!...
  18. Variable Generator/dense/kernel already exists, disallowed.
  19. 【Spark深入学习 -10】基于spark构建企业级流处理系统
  20. 微信中无法打开分享的链接地址,显示已停止访问该网页的处理方式

热门文章

  1. 咕咕机显示服务器请求异常,咕咕机 云服务器异常
  2. “鸡”不可失—— 咕咕机3代VS2代对比测评
  3. Scrapy爬取中国地震台网1年内地震数据
  4. python2.7安装失败_Pyside安装失败(Python 2.7.4)
  5. Presto下载地址
  6. 基于J2EE的科研项目管理系统设计与实现
  7. 让IE浏览器支持HTML5标准的方法(转)
  8. 注意GetMessage()的返回值
  9. 用千千静听练听力的小工具:Mp3字慕助手(带下载慢速Voa)
  10. HTML项目心得500字,心得体会作文500字(精选10篇)