项目中对离散特征,比如在广告系统中,用户的性别,用户的地址,注册资本,注册资本币种,所属行业,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里.比如CTR预估中最常用的LR。那针对这种情况最简单的处理方式是将不同的类别映射为一个整数,比如男性是0号特征,女性为1号特征。这种方式最大的优点就是简单粗暴,实现简单。那最大的问题就是在这种处理方式中,各种类别的特征都被看成是有序的,这显然是非常不符合实际场景的。

离散特征的编码分为两种情况:

1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码

2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}

使用pandas可以很方便的对离散型特征进行one-hot编码
import pandas as pd
df = pd.DataFrame([
[‘green’, ‘M’, 10.1, ‘class1’],
[‘red’, ‘L’, 13.5, ‘class2’],
[‘blue’, ‘XL’, 15.3, ‘class1’]])

df.columns = [‘color’, ‘size’, ‘prize’, ‘class label’]

one hot encoding相关推荐

  1. SyntaxError: Non-ASCII character ‘\xe5‘ in file(xxlrt_1.py) on line 7, but no encoding declared;

    具体报错如下: SyntaxError: Non-ASCII character '\xe5' in file /home/hly/work/python/work/xlrt_1.py on line ...

  2. Go 学习笔记(41)— Go 标准库之 encoding/base64 (编解码)

    1. 简要概述 Base64 是网络上最常见的用于传输 8Bit 字节码的编码方式之一, Base64 就是一种基于 64 个可打印字符来表示二进制数据的方法. Base64 编码是从二进制到字符的过 ...

  3. one-hot encoding不是万能的,这些分类变量编码方法你值得拥有

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Andre Ye,来源:机器之心.NewBeeNLP one-ho ...

  4. c java utf 8_如何对javac设置encoding utf 8

    dom4j 是一种解析 XML 文档的开放源代码 XML 框架.本文介绍如何使用包含在 dom4j 中的解析器创建并修改 XML 文档.dom4j API 包含一个解析 XML 文档的工具.本文中将使 ...

  5. log4j:WARN Error initializing output writer. log4j:WARN Unsupported encoding?

    javaWeb在使用log.4j打印日志文件的时候提示: log4j:WARN Error initializing output writer. log4j:WARN Unsupported enc ...

  6. pandas读取csv文件发生编码(encoding)错误:获取文件编码格式之后再读取文件

    pandas读取csv文件发生编码(encoding)错误:获取文件编码格式之后再读取文件 目录

  7. R语言构建xgboost模型:基于叶子索引衍生出新的特征并进行独热编码(one-hot encoding)之后构建新的模型、比较加入叶子索引特征的模型的分类性能提升

    R语言构建xgboost模型:基于叶子索引衍生出新的特征并进行独热编码(one-hot encoding)之后构建新的模型.比较加入叶子索引特征的模型的分类性能提升 目录

  8. 机器学习类别/标称(categorical)数据处理:目标编码(target encoding)

    机器学习类别/标称(categorical)数据处理:目标编码(target encoding) 序号编码:序号编码通常用于处理类别间具有大小关系的数据 可以通过导入sklearn.preproces ...

  9. 机器学习类别/标称(categorical)数据处理:序号编码(Ordinal Encoding)

    机器学习类别/标称(categorical)数据处理:序号编码(Ordinal Encoding) 序号编码:序号编码通常用于处理类别间具有大小关系的数据 可以通过导入sklearn.preproce ...

  10. 机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)

    机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding) 序号编码:序号编码通常用于处理类别间具有大小关系的数据 可以通过导入sklearn.preproce ...

最新文章

  1. 属性匹配工具_测试工具链——高效构建Mock服务
  2. jquery 开发总结(不断更新)
  3. 自己动手实现操作系统引导程序(OS bootloader)——借助QEMU/GDB/losetup/dd等工具
  4. 完美解答35K月薪的MySQL面试题(四)MySQL是如何加行锁的?
  5. webpack从入门到精通(一)初体验
  6. 解决eclipse 中文乱码问题
  7. 日志管理:(五) log4j.xml 配置实例
  8. 『教程』Batch Normalization 层介绍
  9. cf1208E. Let Them Slide
  10. 济宁医学院计算机专业好就业吗,山东这3所医学院实力强,就业率高,中等生可捡漏...
  11. C++:类对象的复制和赋值
  12. 初步看,我要在公司赚取更多的工资,钱多活少离家近
  13. leetcode力扣刷题系列python——2、两数相加
  14. Angular2 小贴士 Name
  15. c#编写闭合导线简易平差程序
  16. 一,FPGA配置及文件生成烧写
  17. html+css 炫彩流光按钮
  18. AStyle2.02在VS2008下的使用
  19. 与君共勉---在中学部学习收获
  20. 3GPP TS 29244-g30 中英文对照 | 5.4.5 DL Flow Level Marking for Application Detection

热门文章

  1. Apache Flink Meetup ·上海站精彩回顾(附PPT下载)
  2. 微信小程序开发--【APP(Object)函数介绍】(三)
  3. 在Vue+springBoot环境中如何实现单点登录(SSO)
  4. C++中this指针小记
  5. 计算机知识选择题库,计算机基础知识篇选择题库
  6. java xss 参数_JAVA 重写HttpServletRequest的获取参数防止xss攻击
  7. linux中ifi_info的英文全称,【DNS服务器IP地址-域名注册查询-CDN加速技术】
  8. linux nginx 添加插件,linux安装nginx1.9.9实录
  9. Java对Json文件中数据排序_[Java教程]js之封装sort实现json格式数据的排序
  10. 等待线程3秒返回结果_Excel小白超级讨厌的计算,原来只用3秒就能出结果!