数据处理中有时要用到onehot编码,如果使用pandas自带的get_dummies方法,训练集产生的onehot编码特征会跟测试集、预测集不一样,正确的方式是使用sklearn自带的OneHotEncoder。

代码

import pandas as pd
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(handle_unknown='ignore')
data_train=pd.DataFrame({'职业':['数据挖掘工程师','数据库开发工程师','数据分析师','数据分析师'],'籍贯':['福州','厦门','泉州','龙岩']})
ohe.fit(data_train)#训练规则
feature_names=ohe.get_feature_names(data_train.columns)#获取编码后的特征名
data_train_onehot=pd.DataFrame(ohe.transform(data_train).toarray(),columns=feature_names)#应用规则在训练集上data_new=pd.DataFrame({'职业':['数据挖掘工程师','jave工程师'],'籍贯':['福州','莆田']})
data_new_onehot=pd.DataFrame(ohe.transform(data_new).toarray(),columns=feature_names)#应用规则在预测集上

如果对你有帮助,请点下赞,予人玫瑰手有余香!

时时仰望天空,理想就会离现实越来越近!

训练集产生的onehot编码特征如何在测试集、预测集复现相关推荐

  1. ubuntu16.04下使用YOLOV3训练自己做的VOC数据集(VOC数据集制作+模型训练步骤+训练参数解析和问题解决+训练日志可视化(loss、IOU)+模型测试(单张、摄像头、批量测试))

    前序 1.环境配置 请自行参考其他博客 本机环境 ubuntu16.04 python3 英伟达显卡驱动:nvidia-396 OpenCV3.4.5 CUDNN7.0.5 CUDA9.0 2.ubu ...

  2. Python计算医疗数据训练集、测试集的对应的临床特征:训练集(测试集)的阴性和阳性的样本个数、连续变量的均值(标准差)以及训练测试集阳性阴性的p值、离散变量的分类统计、比率、训练测试集阳性阴性的p值

    Python使用pandas和scipy计算医疗数据训练集.测试集的对应的临床特征:训练集(测试集)的阴性和阳性的样本个数.连续变量的均值(标准差࿰

  3. [机器学习与scikit-learn-12]:数据预处理-5-重新编码:特征的二值化、oneHot编码

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

  4. 特征工程之One-Hot编码、label-encoding、自定义编码

    目录 One-Hot编码 代码实现 One-Hot编码优缺点 One-Hot编码使用场景 归一化适用场景 label encoding<

  5. 你真的懂one-hot编码吗?

    一个很隐晦的问题 在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间,所以往 ...

  6. 关于One-hot编码的一些整理及用途[转载+整理]

    在学习one-hot编码前,我们首先要知道,连续值的离散化为什么会提升模型的非线性能力? 简单的说,使用连续变量的LR模型,模型表示为公式(1),而使用了one-hot或哑变量编码后的模型表示为公式( ...

  7. OneHot编码知识点

    OneHot编码 两个多月没有更新博客了,一直忙于天池某个比赛和开题方面的事宜,现在重新抓起,更新博客,希望能整理+思考得出些有营养的东西,也算是自己的笔记方便以后查阅. 如果有错误,请回复指出,谢谢 ...

  8. pandas进行one-hot编码

    1.读取数据 本文采用的是美国成年人收入的数据集 import pandas as pd from IPython.display import display data = pd.read_csv( ...

  9. 如何对连续型数据进行离散化处理,并进行OneHot编码?

    如何对连续型数据进行离散化处理,并进行OneHot编码,最终将OneHot编码作为特征因子输入模型? 什么是OneHot编码 One-Hot编码是分类变量作为二进制向量的表示.这首先要求将分类值映射到 ...

最新文章

  1. Connectify错误“Internet Connection Sharing is currently unavailable.”解决方法不要有多重的网桥连接
  2. 实现一个队列类,该类用两个栈来实现
  3. 美议员提议:总统发微博后即使删除也要记录档案
  4. 2020-11-08
  5. MyBatis3官方文档
  6. ArchLinux 主题美化
  7. [2020 年百度之星·程序设计大赛 - 复赛] Battle for Wosneth
  8. 第一章 语料库语言学基本知识
  9. 医疗时鲜资讯:移动医疗 or 互联网医疗 or 远程医疗?
  10. 瓷砖铺贴方法_师傅总结的12种瓷砖铺贴方式,别让瓷砖毁了你的家!
  11. C#中的get和set用法
  12. 火爆!GitHub 标星 144k 的前后端学习路线,2021 年最新整理,看完后不再迷茫不再徘徊
  13. 网吧游戏服务器虚拟机,用虚拟机亲自体验网咖无盘系统,终于知道网咖系统快的原因了...
  14. 短信也能玩出新花样?听阿里云产品运营畅聊“智能消息”服务
  15. 【软件群英会】 12月1日晚上聊天记录
  16. [Linux] sed命令详解
  17. windows被迫重装系统| 数据恢复 | 启动盘 PE盘 | 批量软件安装
  18. JDK原生网络编程-NIO基础入门
  19. 遥感影像辐射质量改善之复原(沈焕锋教授-武汉大学)
  20. Compound Words

热门文章

  1. 活动策划是展开理想宣传的第一步
  2. html5中time属性怎么用,html5中返回TimeRanges对象的属性buffered
  3. 通用后台管理系统(2)-项目搭建
  4. 电子货架标签------一种新用法(手机APP直接操作)
  5. MySql 8.0 配置外网访问
  6. 设置服务器上MySQL允许外网访问
  7. 数据入门--数据简介
  8. orcale 数据库语句(一)
  9. 员工一言不合就离职怎么办?我用 Python 写了个员工流失预测模型
  10. 【经典算法题】Pow(x, n)