特征编码2 - 无监督一维编码(序数编码、计数编码)及python示例
前情提要:特征编码1 - 特征编码概述与分类:https://blog.csdn.net/weixin_35757704/article/details/123050687
- 无监督的含义是:特征编码时根据自身数据的特点进行编码,而无需参考其他数据
- 一维的含义是:编码时输入一维数据,输出一维数据
后续的python代码中,我们使用这个示例:
import numpy as np
import pandas as pd
import category_encoders as ce# 构造数据
dataframe = pd.DataFrame(data=[np.random.random(size=100),np.random.random(size=100),np.random.random_integers(0, 5, 100),np.random.random_integers(0, 5, 100),np.random.random(size=100), ]).T
dataframe.columns = ['x1', 'x2', 'x3', 'y1', 'y2'] # 连续特征1, 连续特征2, 离散特征1, 离散y, 连续y
train_df = dataframe.iloc[:70] # 训练用
test_df = dataframe.iloc[70:] # 测试用
无监督输出1维
按照本身的数据来进行编码,并且输出的结果是1维数据
1. 序数编码 Ordinal Encoding/Label Encoder
把同一个离散值用同一个整数表示
from sklearn.preprocessing import LabelEncoderlabel_df = LabelEncoder().fit_transform(['a', 'b', 'a'])
结果:[0,1,0]
2. 计数编码 CountEncoder
计数,即直接统计这个标签对应的次数,将次数作为当前值对应的编码,类似于pandas.Dataframe.value_counts()
count_encoder = ce.CountEncoder(cols=['x3'])
train_count_encoding = count_encoder.fit_transform(train_df)
test_count_encoding = count_encoder.transform(test_df)
每个值的编码即为当前值出现的总次数
特征编码2 - 无监督一维编码(序数编码、计数编码)及python示例相关推荐
- NAACL 2021 | AWS AI 提出基于对比学习的端到端无监督聚类方法
©PaperWeekly 原创 · 作者 | 李婧蕾 学校 | 北京邮电大学硕士生 研究方向 | 自然语言处理 Abstract 无监督聚类的目的是根据在表示空间中的距离发现数据的语义类别.然而,在学 ...
- 新突破!CVPR2019接收论文:新的基于自编码变换的无监督表示学习方法—AET
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 该文翻译由联盟成员翻译,若有不妥,欢迎指正 深度神经网络的成功往往依赖于大量标记的例子,这在许多实际场景中是很难获得 ...
- 风格迁移篇---重用鉴别器进行编码:朝向无监督的图像到图像转换
文章目录 Abstract 1. Introduction 2. Related Work 3. Our NICE-GAN 3.1. General Formulation 3.2. Architec ...
- Mockingjay: 基于双向Transformer编码的无监督语音表征学习
本次分享台湾大学李宏毅老师团队在ICASSP 2020会议发表的论文<MOCKINGJAY: UNSUPERVISED SPEECH REPRESENTATION LEARNING WITH D ...
- 一维,二维条形码/条码的编码规则
编码规则 唯一性:同种规格同种产品对应同一个产品代码,同种产品不同规格应对应不同的产品代码.根据产 品的不同性质,如:重量.包装.规格.气味.颜色.形状等等,赋予不同的商品代码. 永久性:产品代码一经 ...
- 李宏毅(2020)作业9:无监督学习降维、聚类、自编码
文章目录 数据集 作业 任务1 任务2 任务3 数据 下载数据集 准备训练数据 一些工具函数 模型 训练 降维和聚类 问题1(作图) 问题2 问题3 数据集 valX.npy valY.npy tra ...
- 还在为DST模型刷不动而感到苦恼吗?来试试无监督DST吧,DSI等你来战!
本文介绍一篇西湖大学联合哈尔滨工业大学 SCIR 实验室和北京理工大学发表于 IJCAI 2020 的论文 Dialogue State Induction Using Neural Latent V ...
- 迁移性好、多用途,港中文提出特征分离的无监督人类三维姿态表征
来源 | 我爱计算机视觉(ID:aicvml) 本文将介绍一种基于特征分离的通用人类姿态特征的学习算法 Unsupervised Human 3D Pose Representation with V ...
- 73岁Hinton老爷子构思下一代神经网络:属于无监督对比学习
来源:机器之心 本文约2700字,建议阅读7分钟. 在近期举行的第 43 届国际信息检索年会 (ACM SIGIR2020) 上,Geoffrey Hinton 做了主题为<The Next G ...
最新文章
- C++知识点8——函数的返回值
- 移动机器人传感器---IMU
- 2017校招真题在线编程-幸运的袋子
- 1007 素数对猜想 (20 分)(c语言)
- Asp.Net微信发布菜单,出现“invalid sub button url domain hint”错误
- Fusionapp历史记录加收藏夹加清除缓存.fas源码
- 在Google使用Borg进行大规模集群的管理 5-6
- LNMP编译安装基于centos7.2
- python列表元素循环左移_JavaScript系列——数组元素左右移动N位算法实现
- nginx 开机启动_4步配置Nginx + Keepalived + Havip,解决前端单点问题
- go任务调度2(linux的cron调用)
- 微信小程序 API-转发(Share)
- 苹果计算机显示错误怎么按,教你解决苹果电脑装windows7提示磁盘分区错误的方法...
- 【metasploit】1 渗透测试与metasploit基础介绍 [PTES|msf|armitage安装]
- 速盘项目(speed盘)
- Installing VMware Tools, please wait解决办法
- silvaco的石墨烯fet仿真_高灵敏度表面等离子体光纤传感器仿真设计(二)
- Jetty和Tomcat的比较。
- PartⅠIn the Hotel 在宾馆!?
- Json使用详解(配合Ajax异步请求)
热门文章
- python两列相乘_python – Pandas group by和sum两列
- 《软硬件接口》课程大纲
- mysql数据库中excel数据的导入与导出
- python读取枚举_在python中枚举(enumerate in python)
- Python爬虫--- 1.2 BS4库的安装与使用
- SpringMVC(十三)异常注解
- IBM打造云访问量子计算机 规模仅相当于D-Wave系统的四百分之一
- php验证码类Validationcode
- 《JavaScript核心技术》
- python 颜色空间转换_python opencv入门 颜色空间转换(9)