https://www.cnblogs.com/DicksonJYL/p/9626282.html

1.表示学习

当我们学习一个复杂概念时,总想有一条捷径可以化繁为简。机器学习模型也不例外,如果有经过提炼的对于原始数据的更好表达,往往可以使得后续任务事倍功半。这也是表示学习的基本思路,即找到对于原始数据更好的表达,以方便后续任务(比如分类)。

举个简单的例子,假设我们有 \{{x,y\}} ,想要寻找x与y之间的关系。

如果单用肉眼看的话,x这个矩阵其实还是比较复杂的,无法直接发现与y间的关系。但如果我们非常幸运,发现x每行相加后的结果 [4,8,12,16,20]^T ,就可以直接看出x与y之间的关系是 y=x+2 。这个例子是为了说明:同样的数据的不同表达,会直接决定后续任务的难易程度,因此找到好的数据表示往往是机器学习的核心任务。值得注意的是,在现实情况中我们所提炼的到表示往往是很复杂的,往往对于高维矩阵提取到特征也是高维矩阵。这个例子仅供抛砖引玉之用,表示学习不等于维度压缩或者特征选择。

2. 特征工程与表示学习:人工 vs. 自动

正因为数据表示的重要性,机器学习一般有两种思路来提升原始数据的表达:

特征学习(feature learning),又叫表示学习(representation learning)或者表征学习,一般指的是自动学习有用的数据特征

特征工程(feature engineering),主要指对于数据的人为处理提取,有时候也代指“洗数据”

不难看出,两者的主要区别在于前者是“学习的过程”,而后者被认为是一门“人为的工程”。用更加白话的方式来说,特征学习是从数据中自动抽取特征或者表示的方法,这个学习过程是模型自主的。而特征工程的过程是人为的对数据进行处理,得到我们认为的、适合后续模型使用的样式。根据这个思路,机器学习模型对于数据的处理可以被大致归类到两个方向:

1. 表示学习:模型自动对输入数据进行学习,得到更有利于使用的特征(*可能同时做出了预测)。代表的算法大致包括:

深度学习,包括大部分常见的模型如CNN/RNN/DBN等

某些无监督学习算法,如主成分分析(PCA)及自编码器(autoencoder)通过对数据转化而使得输入数据更有意义

某些树模型可以自动的学习到数据中的特征并同时作出预测

2. 特征工程:模型依赖人为处理的数据特征,而模型的主要任务是预测,比如简单的线性回归期待良好的输入数据(如离散化后的数据)

至于更加深入的对于数据表示学习的科普,可以参考:微调:人工智能(AI)是如何处理数据的?(https://www.zhihu.com/question/264417928/answer/283087276)

3. 模型选择

回归到问题的本质,就要谈谈什么时候用「手工提取」什么时候用「表示学习」。一种简单的看法是,要想自动学习到数据的良好表达,就需要大量的数据。这个现象也解释了为什么「特征工程」往往在中小数据集上表现良好,而「表示学习」在大量复杂数据上更有用武之地。

而一切的根本,其实在于假设。比如我们会假设数据分布,会假设映射函数的性质,也会假设预测值与输入值间的关系。这一切假设其实并非凭空猜想,而是基于我们对于问题的理解,从某种角度来看,这是一种先验,是贝叶斯模型。在中小数据集上的机器学习往往使用的就是强假设模型(人类知识先验)+一个简单线性分类器。当数据愈发复杂,数据量逐渐加大后,我们对于数据的理解越来越肤浅,做出的假设也越来越倾向于随机,那么此时人工特征工程往往是有害的,而需要使用摆脱了人类先验的模型,比如深度学习或者集成模型。

换句话说,模型选择的过程其实也是在衡量我们对于问题及数据的理解是否深刻,是在人类先验与数据量之间的一场博弈。从这个角度来看,深度学习首先革的是传统机器学习模型的命:最先被淘汰的不是工人,而是特定场景下的传统机器学习模型。

但话说回来,在很多领域数据依然是稀缺的,我们依然需要人工的手段来提炼数据。而这样的尝试其实并不罕见,我也写过一篇「Stacking」与「神经网络」(https://zhuanlan.zhihu.com/p/32896968)介绍如何模拟神经网络在中小数据集上无监督的抽取特征,并最终提升数据的表示。另一个相关的问题是,到底多少数据才算多?可以参考这篇文章:「机器学习」到底需要多少数据?(https://zhuanlan.zhihu.com/p/34523880)。

4. 总结

从这个方向推广出去可以联想到很多热门的话题,比如在问题A上学到的数据表达可以在问题B上使用(迁移学习),抛弃和合并冗余特征(维度压缩与特征选择等)。从本质上来看,这些都是在挖掘数据中的核,即最关键的浓缩信息。

然而,相同的数据对于不同的任务也要求不同的数据表达,最优的数据表示并非是绝对的。类比来看,人类是由细胞组成的,器官也是由细胞组成的。在器官层面来看,细胞是很好的表达。而从人类角度来看,器官是比较好的表达,因为我们可以通过身高体重来区分人,而无法直观地通过细胞来区分人。然而再往前看一步,每个人的细胞携带不同的遗传信息,因此也可以被认为是一种很强的数据表达。讲这个故事的目的是说明,什么是好的数据表达,其实是非常模棱两可的问题,在不同语境下可能大不相同。

「特征工程」与「表示学习」相关推荐

  1. 【特征工程】与【表示学习】

    目录 1. 表示学习 2. 特征工程与表示学习:人工 vs. 自动 3. 模型选择 4. 总结 1. 表示学习 又叫特征学习 当我们学习一个复杂概念时,总想有一条捷径可以化繁为简.机器学习模型也不例外 ...

  2. 「特征工程」之零基础入门数据挖掘

    Datawhale 作者:吴忠强,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习应该从哪些角度做特征工程?从哪些角度做数据清洗,如何对特征进行增删,如何使用PCA降维技术等. 特征工 ...

  3. 【数据科学】鱼水说竞赛:如何做好「特征工程」?

    对话1:特征工程流程 竞赛小白 在参加结构化比赛时,做特征工程时候,是先筛选特征,还是先做特征编码呢? 鱼佬 可以先利用一些统计值筛选特征,比如缺失比例大于99%,或者信息量较少的特征. 然后再去做特 ...

  4. 特征工程与表示学习:人工 vs 自动

    1.相关概念 正因为数据表示的重要性,机器学习一般有两种思路来提升原始数据的表达: 特征学习(feature learning),又叫表示学习(representation learning)或者表征 ...

  5. 深度学习课程大纲_深度学习必备前置课程:数据准备和特征工程上线啦

    "Garbage in, garbage out !",在计算机科学界一直广为流传!这句话放到数据科学上也同样成立,高质量的数据永远排在第一位.但是数据总会存在不完整.噪声.不一致 ...

  6. 不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 本文作者:s5248 编辑:杨晓凡 2018-01-19 11:32 导语:即便现代机器学习模型已经很先进了,也别

    不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 雷锋网(公众号:雷锋网) AI 科技评论按:眨眼间我们就从人工特征.专家系统来到了自动特征.深度学习的人工智能新时代,众多 ...

  7. 特征工程:归一化与标准化

    样本特征由于来源以及度量单位不同,它们的尺度(Scale),或者说是取值范围有可能差异很大.如果一个机器学习算法在缩放全部或者部分特征后不影响它的学习和预测,我们就称该算法具有尺度不变性(Scale ...

  8. 机器学习实战 | 机器学习特征工程最全解读

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

  9. 手动特征工程已经OUT了!自动特征工程才是改进机器学习的方式

    作者 | William Koehrsen 译者 | linstancy 编辑 | Jane 出品 | AI科技大本营 [导读]近年来,我们在自动模型选择和超参数调优方面取得了进展,但机器学习流程中最 ...

最新文章

  1. Python基础--文件操作
  2. 2022-03-09
  3. linux入门与常用指令
  4. 从内核文件系统看文件读写过程
  5. 二叉树表达规定形式的代数表达式并计算表达式结果(无明显缺陷版本)
  6. 交叉编译和交叉调试环境搭建及使用
  7. PHP学习总结(12)——PHP入门篇之变量
  8. Windows as a Service(4)——使用Intune管理Windows10更新
  9. iPhone11 全线降价;哈啰出行否认大量裁员;LineageOS 17.1 发布| 极客头条
  10. 初创企业如何实现2天快速上线?
  11. 队列加分项(选作,根据博客质量加1-5分)(补博客)
  12. Windows Server 2008 R2之三管理活动目录数据库
  13. Sql server 2008
  14. Vue3源码阅读(八)effect
  15. MaxKey单点登录认证系统微服务架构v3.0.0GA发布
  16. JavaScript,for循环效率测试,不同遍历循环测试,数组添加效率测试,大数组拼接测试,for循环遍历修改 和 string replace效率
  17. android音乐播放器实验报告总结,MFC音乐播放器(实验报告)
  18. 司法解释明确:不能仅以“出轨”为理由,请求离婚
  19. 解决Google浏览器首页被2345网站劫持
  20. Django之Form表单验证组件Tyrion

热门文章

  1. 解读计算机视觉论文投稿到接收,不可不知的关键环节
  2. 基于深度学习神经网络等机器学习技术实现一个医学辅助诊断的专家系统原型
  3. 用Java实现单向链表
  4. 在嘴巴里放入124 个传感器,谷歌眼镜创始人新项目:用舌头发信息
  5. 独家 | 自动编码器是什么?教你如何使用自动编码器增强模糊图像
  6. 武大学生用python敲出樱花开放(附视频源码)
  7. 面向回家编程!GitHub标星两万的Python抢票教程”,我们先帮你跑了一遍
  8. 近期活动盘点:2019第六届世界互联网大会、智慧城市的人本尺度城市形态讲座、高管AI大数据能力研修班、英伟达初创企业展示开启报名...
  9. 北京电影学院发了一篇满是数学公式的计算机顶会论文,并开源了其代码(附链接)...
  10. AI近10年21个子领域高引学者(AI-10 Most Influential Scholars )