原文链接:https://developers.google.com/machine-learning/crash-course/feature-crosses/

特征组合是指两个或多个特征相乘形成的合成特征。
特征的相乘组合可以提供超出这些特征单独能够提供的预测能力。

1- 对非线性规律进行编码

特征组合是指通过将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征。
通过创建一个特征组合可以解决非线性问题。

特征组合的种类

可以创建很多不同种类的特征组合。例如:

  • [A X B]:将两个特征的值相乘形成的特征组合。
  • [A x B x C x D x E]:将五个特征的值相乘形成的特征组合。
  • [A x A]:对单个特征的值求平方形成的特征组合。

通过采用随机梯度下降法,可以有效地训练线性模型。
因此,在使用扩展的线性模型时辅以特征组合一直都是训练大规模数据集的有效方法。

2- 组合独热矢量

在实践中,机器学习模型很少会组合连续特征。
不过,机器学习模型却经常组合独热特征矢量,将独热特征矢量的特征组合视为逻辑连接。
根据多个特征构建特征组合,最终获得的预测能力将远远超过任一特征单独的预测能力。

假设需要根据以下两个特征来预测狗主人对狗狗的满意程度:

  • 行为类型(吠叫、叫、偎依等)
  • 时段

根据这两个特征构建特征组合: [behavior type X time of day]
例如,

如果狗狗在下午5点主人下班回来时(快乐地)叫喊,可能表示对主人满意度的正面预测结果。
如果狗狗在凌晨3点主人熟睡时(也许痛苦地)哀叫,可能表示对主人满意度的强烈负面预测结果。

线性学习器可以很好地扩展到大量数据。
对大规模数据集使用特征组合是学习高度复杂模型的一种有效策略。
神经网络可提供另一种策略。

3- 理解

问题

加利福尼亚州不同城市的房价有很大差异。假设您必须创建一个模型来预测房价。以下哪组特征或特征组合可以反映出特定城市中 roomsPerPerson 与房价之间的关系?

  1. 三个独立的分箱特征:[binned latitude]、[binned longitude]、[binned roomsPerPerson]
  2. 一个特征组合:[binned latitude X binned longitude X binned roomsPerPerson]
  3. 两个特征组合:[binned latitude X binned roomsPerPerson] 和 [binned longitude X binned roomsPerPerson]
  4. 一个特征组合:[latitude X longitude X roomsPerPerson]

解答

  1. 建议您采用分箱方式,因为这样可以让模型了解单个特征内的非线性关系。不过,一个城市存在于多个维度上;因此,要了解特定于城市的关系,需要对纬度与经度进行组合。请重试。
  2. 正确答案。将分箱纬度与分箱经度组合可以让模型了解 roomsPerPerson 特定于城市的效果。分箱可防止纬度变化与经度变化产生相同的效果。根据箱的精细程度,此特征组合可以反映出特定于城市、特定于社区,甚至特定于街区的效果。
  3. 建议您采用分箱方式;不过,城市是纬度和经度的结合体,因此单独的特征组合会导致模型无法了解特定于城市的价格。请重试。
  4. 在本例中,不建议您组合实值特征。例如,将纬度的实值与 roomsPerPerson 组合后,一个特征(比如纬度)上发生 10% 的变化就相当于另一个特征(比如 roomsPerPerson)上发生 10% 的变化。

4- 练习

xxx

5- 关键词

梯度下降法 (gradient descent)
一种通过计算并且减小梯度将损失降至最低的技术,它以训练数据为条件,来计算损失相对于模型参数的梯度。
通俗来说,梯度下降法以迭代方式调整参数,逐渐找到权重和偏差的最佳组合,从而将损失降至最低。

随机梯度下降法 (SGD, stochastic gradient descent)
批次大小为 1 的一种梯度下降法。
换句话说,SGD 依赖于从数据集中随机均匀选择的单个样本来计算每步的梯度估算值。

特征组合 (feature cross)
通过将单独的特征进行组合(求笛卡尔积)而形成的合成特征。特征组合有助于表达非线性关系。

合成特征 (synthetic feature)
一种特征,不在输入特征之列,而是从一个或多个输入特征衍生而来。
合成特征包括以下类型:

  • 对连续特征进行分桶,以分为多个区间分箱。
  • 将一个特征值与其他特征值或其本身相乘(或相除)。
  • 创建一个特征组合。

仅通过标准化或缩放创建的特征不属于合成特征。

独热编码 (one-hot encoding)

一种稀疏向量,其中:

  • 一个元素设为 1。
  • 所有其他元素均设为 0。

独热编码常用于表示拥有有限个可能值的字符串或标识符。
例如,假设某个指定的植物学数据集记录了 15000 个不同的物种,其中每个物种都用独一无二的字符串标识符来表示。
在特征工程过程中,您可能需要将这些字符串标识符编码为独热向量,向量的大小为 15000。

转载于:https://www.cnblogs.com/anliven/p/10288612.html

机器学习入门09 - 特征组合 (Feature Crosses)相关推荐

  1. 2. 离散特征处理方法--特征交叉 feature crosses

    对于离散特征,如类别特征,除了常用的one-hot encoding(dummy encoding)方法,还有一种方法-特征交叉.前者可以学习到每个特征的main effects,但是不能学习到特征之 ...

  2. 机器学习中的特征重要性 Feature Importance

    Feature Importance 闲话 几周没用CSDN,发现编辑器的字体变了.最近看了几篇讲特征重要性的文章.在这里[简要]记录一下我的总结,对不熟悉相关知识的读者做个导航. 优点 知道数据中的 ...

  3. 机器学习中的特征是什么?机器学习知识点详解

    在机器学习中,特征(feature)指的是描述一个实例的属性或特征,也可以称为自变量(independent variable)或输入变量(input variable).特征是机器学习中非常重要的概 ...

  4. 机器学习入门13 - 正则化:稀疏性 (Regularization for Sparsity)

    原文链接:https://developers.google.com/machine-learning/crash-course/regularization-for-sparsity/ 1- L₁正 ...

  5. 机器学习速成课程 | 练习 | Google Development——编程练习:特征组合

    特征组合 学习目标: 通过添加其他合成特征来改进线性回归模型(这是前一个练习的延续) 使用输入函数将 Pandas DataFrame 对象转换为 Tensors,并在 fit() 和 predict ...

  6. Python机器学习入门笔记(1)—— Scikit-learn与特征工程

    目录 机器学习算法分类 数据集工具 Scikit-learn Scikit-learn的安装 scikit-learn数据集API介绍 bunch对象 datasets模块 数据集的划分 train_ ...

  7. 程序员的机器学习入门笔记(九):人脸检测之Haar分类器方法:Haar特征、积分图、 AdaBoost 、级联

    一.Haar分类器的前世今生 人脸检测属于计算机视觉的范畴,早期人们的主要研究方向是人脸识别,即根据人脸来识别人物的身份,后来在复杂背景下的人脸检测需求越来越大,人脸检测也逐渐作为一个单独的研究方向发 ...

  8. 【机器学习入门】(10) 特征工程:特征抽取,字典特征抽取、文本特征抽取,附完整python代码

    各位同学好,今天和大家介绍一下python机器学习中的特征工程.在将数据放入模型之前,需要对数据的一些特征进行特征抽取,方法有: (1) 字典特征抽取 DictVectorizer(),(2) 文本特 ...

  9. R语言基于机器学习算法进行特征筛选(Feature Selection)

    R语言基于机器学习算法进行特征筛选(Feature Selection) 对一个学习任务来说,给定属性集,有些属性很有用,另一些则可能没什么用.这里的属性即称为"特征"(featu ...

  10. 机器学习案例 特征组合——高帅富 冷启动——从微博等其他渠道搜集数据进行机器学习 用户年龄——线性分段处理...

    摘自:http://www.infoq.com/cn/articles/user-portrait-collaborative-filtering-for-recommend-systems 我们会从 ...

最新文章

  1. pfSense设置多WAN后,解决网银无法登陆问题
  2. 数据格式设置表达式 ZT
  3. ICCV2021最佳检测之一:主动学习框架较大提升目标检测精度(附论文下载)
  4. tomcat安装及虚拟web主机
  5. 每周一个 Python 模块 | time
  6. MATLAB 的运算符
  7. 一文看懂家庭宽带光纤是如何入户
  8. git安装【Windows】
  9. 【jQuery】使用jquery.form.js,获取提交表单返回值
  10. 基于人脸识别的商业大数据2
  11. Nginx 学习总结(4)—— Rewrite 模块
  12. Linux内核的裁剪移植,Linux内核裁剪移植学习分享
  13. 色彩搭配方案与其特性描述
  14. 轻轻松松做出绝美词云!这是比阿里云DataV还好用的数据可视化平台
  15. php开发数独,数独解题小程序实现代码
  16. 使用OpenResty控制CDN回源主机
  17. Unity3D官方案例--太空射击游戏总结
  18. latex语法_【研创基地科研实训】关于举办第27期“LaTeX使用技巧交流分享会” 线上科研实训交流活动的通知...
  19. View与ViewGroup
  20. python绘制不同风格的分级统计图(Choropleth map)

热门文章

  1. CSS单位:em、rem、%、vh、vw、vmin、vmax
  2. Linux文件系统有哪些
  3. win10本地Docker搭建青龙面板
  4. 常见的运营商网络安全问题
  5. 二元Weierstrass逼近定理及其证明
  6. python3官方说明文档_Python3 官方文档翻译 - 4.7 函数定义
  7. 计算机键盘上如何打对勾,电脑键盘怎么打对勾符号
  8. 任务一:实现图形计算功能 1 关键算法(30 分)输入一个正方体的边长(a)计算正方体的体积。要求:结果保留两位小数,使用带参数的方法实现
  9. python小孩的报酬_孩子怎么区分报酬与奖励
  10. 太阳天顶角、太阳方位角、日地距离、时差、太阳赤纬角