【机器学习】特征类型总结
广义来讲分为 类别、id型特征+数值型特征
第一类是类别、ID 型特征——电影的风格、ID、标签、导演演员等信息,用户看过的电影 ID、用户的性别、地理位置信息、当前的季节、时间(上午,下午,晚上)、天气等等,这些无法用数字表示的信息全都可以被看作是类别、ID 类特征。
第二类是数值型特征——能用数字直接表示的特征就是数值型特征,典型的包括用户的年龄、收入、电影的播放时长、点击量、点击率等。
进行特征处理的目的,是把所有的特征全部转换成一个数值型的特征向量。
对于数值型特征,这个过程非常简单,直接把这个数值放到特征向量上相应的维度上就可以了。但是对于类别、ID 类特征,我们应该怎么处理它们呢?
one-hot——将类别、ID 型特征转换成数值向量的一种最典型的编码方式
类别型特征转换
id型特征转换
也是one-hot。举例 假设,我们的电影库中一共有 1000 部电影,电影 M 的 ID 是 310(编号从 0 开始),那这个行为就可以用一个 1000 维的向量来表示,让第 310 维的元素为 1,其他元素都为 0。
One-hot 编码也可以自然衍生成 Multi-hot 编码。比如,对于历史行为序列类、标签特征等数据来说,用户往往会与多个物品产生交互行为,或者一个物品被打上多个标签,这时最常用的特征向量生成方式就是把其转换成 Multi-hot 编码。因为每个电影都是有多个 Genre(风格)类别的,所以我们就可以用 Multi-hot 编码完成标签到向量的转换。
multi-hot e.g. :
用户行为特征是multi-hot的,即多值离散特征。针对这种特征,由于每个涉及到的非0值个数是不一样的,常见的做法就是将id转换成embedding之后,加一层pooling层,比如average-pooling,sum-pooling,max-pooling。DIN中使用的是weighted-sum,其实就是加权的sum-pooling,权重经过一个activation unit计算得到。
总结一哈
特征类型 |
含义 |
离散特征/ 属性类 |
色泽 [青绿、乌黑、浅白](如上图) |
标签类特征 | 也是离散的类别特征 |
ID类特征 | 也是离散特征,电商领域为例,存在大量ID类特征,比如user ID, item ID, product ID, store ID, brand ID和category ID等 |
连续特征 | 密度、含糖率(如上图);分桶是离散化的常用方法,将连续特征离散化为一系列 0/1 的离散特征,离散化之后得到的稀疏向量,内积乘法运算速度更快,计算结果方便存储。 |
如何进行特征处理呢?
标签和特征的区别
在知乎里看到的几个。
标签包含有特征。一个标签可以包含有很多特征。
特征是事物固有属性,标签是根据固有属性产生的认知,并不一定是事物本身所具有的属性。
特征是做出某个判断的证据,标签是结论。
参考:
如何区别「标签」和「特征」? - 知乎
机器学习中标签和特征具体的定义是什么? - 知乎
连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? - 知乎
【机器学习】特征类型总结相关推荐
- 机器学习-特征工程中的特征降维
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
- 机器学习-特征工程中的特征选择
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
- 机器学习-特征工程中的数据预处理
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
- 何为优秀的机器学习特征 zz
提供好的特征是机器学习任务中最重要的工作,那么何为优秀的机器学习特征?以及如何高效地组合这些特征? 以二分类问题为例,好的特征具有很好的区分性.例如学习任务是区分两种不同类型的狗:灰猎犬(Greyho ...
- 5 大常用机器学习模型类型总结
本文介绍了 5 大常用机器学习模型类型:集合学习算法,解释型算法,聚类算法,降维算法,相似性算法,并简要介绍了每种类型中最广泛使用的算法模型.我们希望本文可以做到以下三点: 1.应用性. 涉及到应用问 ...
- 机器学习——特征工程——数据的标准化(Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer)
数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. 比如线性回归模型.逻辑回归模型或包含矩阵的模型,它们会 ...
- 使用Amazon SageMaker Feature Store存储、发现并共享机器学习特征
前言 Amazon SageMaker Feature Store https://aws.amazon.com/sagemaker/feature-store/ 作为Amazon SageMake ...
- 小时转换为机器学习特征_通过机器学习将pdf转换为有声读物
小时转换为机器学习特征 This project was originally designed by Kaz Sato. 该项目最初由 Kaz Sato 设计 . 演示地址 I made this ...
- 机器学习实战 | 机器学习特征工程最全解读
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...
最新文章
- 来聊聊COCO数据集上两大霸榜模型-CBNet和DetectoRS
- 享乐不尽 聚 VR一体机艳冠群雄
- 复利计算1.0,2.0,3.0
- Ants UVA - 1411(km板题竟然让我换了个板子)
- c# 泛型有什么作用?
- mvc php session,PHP Session入门教程
- LWIP裸机环境下实现TCP与UDP通讯
- mysql游标事例_MySQL游标语法实例
- .NET6之MiniAPI(二十二):HttpClient
- java ajax查询_java-如何计时ajax查询(发送查询,处理,接收响应)
- 理解基本包装类型Number,String,Boolean
- 你在办公室遇到的最诡异的事情是什么?
- React Ant Design UI 图片上传组件 代码片段
- Hive jdbc执行seelct 语句时报 return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
- MySQL常用的关键字查询用法
- 国产操作系统有哪些,你知道吗?
- 李智慧 - 架构师训练营 第二周
- 原相机怎么设置水印_原相机里面的字体颜色 相机水印字体大小怎么设置
- leetcode 85. Maximal Rectangle(最大矩形)
- 联想笔记本键盘亮屏幕不亮_联想笔记本电脑开机键亮但是黑屏,联想笔记本电脑键盘失灵怎么办...