one hot encoding
项目中对离散特征,比如在广告系统中,用户的性别,用户的地址,注册资本,注册资本币种,所属行业,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里.比如CTR预估中最常用的LR。那针对这种情况最简单的处理方式是将不同的类别映射为一个整数,比如男性是0号特征,女性为1号特征。这种方式最大的优点就是简单粗暴,实现简单。那最大的问题就是在这种处理方式中,各种类别的特征都被看成是有序的,这显然是非常不符合实际场景的。
离散特征的编码分为两种情况:
1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码
2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}
使用pandas可以很方便的对离散型特征进行one-hot编码
import pandas as pd
df = pd.DataFrame([
[‘green’, ‘M’, 10.1, ‘class1’],
[‘red’, ‘L’, 13.5, ‘class2’],
[‘blue’, ‘XL’, 15.3, ‘class1’]])
df.columns = [‘color’, ‘size’, ‘prize’, ‘class label’]
one hot encoding相关推荐
- SyntaxError: Non-ASCII character ‘\xe5‘ in file(xxlrt_1.py) on line 7, but no encoding declared;
具体报错如下: SyntaxError: Non-ASCII character '\xe5' in file /home/hly/work/python/work/xlrt_1.py on line ...
- Go 学习笔记(41)— Go 标准库之 encoding/base64 (编解码)
1. 简要概述 Base64 是网络上最常见的用于传输 8Bit 字节码的编码方式之一, Base64 就是一种基于 64 个可打印字符来表示二进制数据的方法. Base64 编码是从二进制到字符的过 ...
- one-hot encoding不是万能的,这些分类变量编码方法你值得拥有
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Andre Ye,来源:机器之心.NewBeeNLP one-ho ...
- c java utf 8_如何对javac设置encoding utf 8
dom4j 是一种解析 XML 文档的开放源代码 XML 框架.本文介绍如何使用包含在 dom4j 中的解析器创建并修改 XML 文档.dom4j API 包含一个解析 XML 文档的工具.本文中将使 ...
- log4j:WARN Error initializing output writer. log4j:WARN Unsupported encoding?
javaWeb在使用log.4j打印日志文件的时候提示: log4j:WARN Error initializing output writer. log4j:WARN Unsupported enc ...
- pandas读取csv文件发生编码(encoding)错误:获取文件编码格式之后再读取文件
pandas读取csv文件发生编码(encoding)错误:获取文件编码格式之后再读取文件 目录
- R语言构建xgboost模型:基于叶子索引衍生出新的特征并进行独热编码(one-hot encoding)之后构建新的模型、比较加入叶子索引特征的模型的分类性能提升
R语言构建xgboost模型:基于叶子索引衍生出新的特征并进行独热编码(one-hot encoding)之后构建新的模型.比较加入叶子索引特征的模型的分类性能提升 目录
- 机器学习类别/标称(categorical)数据处理:目标编码(target encoding)
机器学习类别/标称(categorical)数据处理:目标编码(target encoding) 序号编码:序号编码通常用于处理类别间具有大小关系的数据 可以通过导入sklearn.preproces ...
- 机器学习类别/标称(categorical)数据处理:序号编码(Ordinal Encoding)
机器学习类别/标称(categorical)数据处理:序号编码(Ordinal Encoding) 序号编码:序号编码通常用于处理类别间具有大小关系的数据 可以通过导入sklearn.preproce ...
- 机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)
机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding) 序号编码:序号编码通常用于处理类别间具有大小关系的数据 可以通过导入sklearn.preproce ...
最新文章
- 属性匹配工具_测试工具链——高效构建Mock服务
- jquery 开发总结(不断更新)
- 自己动手实现操作系统引导程序(OS bootloader)——借助QEMU/GDB/losetup/dd等工具
- 完美解答35K月薪的MySQL面试题(四)MySQL是如何加行锁的?
- webpack从入门到精通(一)初体验
- 解决eclipse 中文乱码问题
- 日志管理:(五) log4j.xml 配置实例
- 『教程』Batch Normalization 层介绍
- cf1208E. Let Them Slide
- 济宁医学院计算机专业好就业吗,山东这3所医学院实力强,就业率高,中等生可捡漏...
- C++:类对象的复制和赋值
- 初步看,我要在公司赚取更多的工资,钱多活少离家近
- leetcode力扣刷题系列python——2、两数相加
- Angular2 小贴士 Name
- c#编写闭合导线简易平差程序
- 一,FPGA配置及文件生成烧写
- html+css 炫彩流光按钮
- AStyle2.02在VS2008下的使用
- 与君共勉---在中学部学习收获
- 3GPP TS 29244-g30 中英文对照 | 5.4.5	DL Flow Level Marking for Application Detection
热门文章
- Apache Flink Meetup ·上海站精彩回顾(附PPT下载)
- 微信小程序开发--【APP(Object)函数介绍】(三)
- 在Vue+springBoot环境中如何实现单点登录(SSO)
- C++中this指针小记
- 计算机知识选择题库,计算机基础知识篇选择题库
- java xss 参数_JAVA 重写HttpServletRequest的获取参数防止xss攻击
- linux中ifi_info的英文全称,【DNS服务器IP地址-域名注册查询-CDN加速技术】
- linux nginx 添加插件,linux安装nginx1.9.9实录
- Java对Json文件中数据排序_[Java教程]js之封装sort实现json格式数据的排序
- 等待线程3秒返回结果_Excel小白超级讨厌的计算,原来只用3秒就能出结果!