11.1 子集搜索与评价

我们将属性称为特征,对当前学习任务有用的属性称为相关特征、没什么用的属性称为无关特征。还有一类特征称为冗余特征,它们所包含的信息能从其他特征中推演出来,冗余特征在很多时候不起作用,去除它们会减轻学习过程的负担。但有时冗余特征会降低学习任务的难度。从给定的特征集合选择出相关特征子集的过程,称为特征选择
特征选择是一个重要的数据预处理过程。在现实机器学习任务中,获得数据之后通常进行先进行特征选择,此后再训练学习器。
进行特征选择有两个重要的原因:
首先:我们在现实任务中经常会遇到维数灾难问题,这是由于属性过多而造成的,若能从中选择出重要的特征。使得后续学习过程中仅需在一部分特征上构建模型,则维数灾难问题会大为减轻。
其次:去除不相关特征往往会降低学习任务的难度,这就像侦探破案一样,若将纷繁复杂的因素抽丝拨茧,只留下关键因素,则真相往往更易看清。
欲从初始的特征集合中选取一个包含了所有重要信息的特征子集,若没有任何领域知识作为先验假设,那就只好遍历所有可能的子集了。然而这在计算上却是不可行的。因为这样做会遭遇组合爆炸,特征个数稍多就无法进行。可行的做法是产生一个候选子集,评价出它的好坏,基于评价结果产生下一个候选子集,再对其进行评价,…持续这个过程直至无法找到更好的候选子集为止。这里涉及两个关键环节:
第一个环节是子集搜索问题。给定特征集合{a1,a2,…,ad},我们可将每个特征看作一个候选子集,对这d个候选单特征子集进行评价,假定{a2}最优,于是将{a2}作为第一轮的选定集;然后,在上一轮的选定集中加入一个特征,构成包含两个特征的候选子集,假定在这d-1个候选两特征子集{a2,a4}最优,且优于{a2},于是将{a2,a4}作为本轮的选定集;假定在k+1轮时,最优的候选(k+1)特征子集不如上一轮的候选集,则停止生成候选子集,并将上一轮选定的k特征集合作为特征选择结果。这样逐渐增加相关特征的策略称为前向搜索。类似的,若我们从完整的特征集合开始,每次尝试去掉一个无关特征,这样逐渐减少特征的策略称为后向搜索。还可将前向与后向搜索结合起来,每一轮逐渐增加选定相关特征,同时减少无关特征,这样的策略称为双向搜索
第二个环节是子集评价问题。


常见的特征选择方法大致分为三类:过滤式包裹式嵌入式

11.2 过滤式选择

过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关,这相当于先用特征选择过程对初始特征进行过滤,再用过滤后的特征来训练模型。
Relif是一种著名的过滤式特征选择方法,该方法设计了一个相关统计量来度量特征的重要性。该统计量是一个向量,其每个分量分别对应于一个初始特征,而特征子集的重要性是指由子集中每个特征所对应的相关统计量分量之和来决定。

11.3 包裹式选择

与过滤式特征选择不考虑后续学习器不同,包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。换言之,包裹式特征选择目的的就是为给定学习器选择最有利于其性能、量身定做的特征子集。
一般而言,由于包裹式特征选择方法直接针对给定学习器进行优化,因此从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好,但另一方面,由于在特征选择过程中需多次训练学习器,因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。
LVW是一个典型的包裹式特征选择方法。它在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则。算法描述如下所示:

11.4 嵌入式选择与L1正则化

前面两种特征选择方法中,特征选择过程与学习器训练过程有明显的分别;
与此不同,嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。

L1范数和L2范数正则化都有助于降低过拟合风险,但前者还会带来一个额外的好处;它比后者更易于获得稀疏解,即它求得的w会有更少的非零分量。

11.5 稀疏表示与字典学习

不妨把数据集D考虑成一个矩阵 ,其每行对应于一个样本,每列对应于一个特征。特征选择所考虑的问题是特征具有稀疏性,即矩阵中的许多列与当前学习任务无关,通过特征选择去除这些列,则学习器训练过程仅需在较小的矩阵上进行,学习任务的难度可能有所降低,涉及的计算和存储开销会减少,学得模型的可解释性也会提高。
当样本具有稀疏表达形式时,对学习任务来说会有不少好处,例如:线性支持向量机之所以能在文本数据上有很好的性能,恰是由于文本数据在使用上述的字频表示后具有高度的稀疏性,使大多数问题变得线性可分。同时稀疏矩阵已有很多高效的存储方法。
若给定数据集使稠密的,即普通非稀疏数据,能否将其转化为稀疏表示呢(恰当稀疏而非过度稀疏)?
我们需要学习出这样一个字典,为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式,从而使学习任务得以简化,模型复杂度得以降低,通常称为字典学习亦称稀疏编码。字典学习更侧重于学得字典得过程,而稀疏编码则更侧重于对样本进行稀疏表达得过程。

11.6 压缩感知

在现实任务中,我们常希望根据部分信息来恢复全部信息。例如在数据通讯中要将模拟信号转换为数字信号,根据奈奎斯特(Nyquist)采样定理,令采样频率达到模拟信号最高频率的两倍,则采样后的数字信号就保留了模拟信号的全部信息;换言之,由此获得的数字信号能精确重构原模拟信号。然而,为了便于传输、存储,在实践中人们通常对采样的数字信号进行压缩,这有可能损失一些信息,而在信号传输过程中,由于信道出现丢包等问题,又可能损失部分信息。那么,接收方基于收到的信号,能否精确地重构出原信号呢?压缩感知为解决此类问题提供了新的思路.

与特征选择、稀疏表示不同,压缩感知关注的是如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号。通常认为,压缩感知分为“感知测量”和 “重构恢复”这两个阶段。“感知测量”关注如何对原始信号进行处理以获得稀疏样本表示,这方面的内容涉及傅里叶变换、小波变换以及字典学习、稀疏编码等,不少技术在压缩感知提出之前就已在信号处理等领域有很多研究;“重构恢复”关注的是如何基于稀疏性从少量观测中恢复原信号,这是压缩感知的精髓,当我们谈到压缩感知时,通常是指该部分。

第十一章 特征选择与稀疏学习相关推荐

  1. 《机器学习》周志华(西瓜书)学习笔记 第十一章 特征选择与稀疏学习

    机器学习 总目录 第十一章 特征选择与稀疏学习 11.1 子集搜索与评价 给定属性集,其中有些属性可能很关键.很有用,另一些 属性则可能没什么用.我们将属性称为"特征" (feat ...

  2. 机器学习(周志华) 第十一章特征选择与稀疏学习

    关于周志华老师的<机器学习>这本书的学习笔记 记录学习过程 本博客记录Chapter11 文章目录 1 子集搜索与评价 2 过滤式选择 3 包裹式选择 4 嵌入式选择与L1正则化 5 稀疏 ...

  3. 《机器学习》第十一章 特征选择与稀疏学习

    特征选择从多个特征中选出对学习有用的特征以实现降低维度,增加准确率的目的. 选择子集和对子集进行评价是重要的两步,本章主要介绍了过滤式选择,包裹式选择以及嵌入式选择等方法: 过滤式选择利用相关统计量在 ...

  4. 机器学习----第十一章特征选择与稀疏学习 学习笔记

    目录 子集搜索与评价 过滤式选择 包裹式选择 嵌入式选择与L1正则化 稀疏表示与字典学习 压缩感知 子集搜索与评价 我们先来理解以下概念: 相关特征:对当前学习任务有用的属性: 无关特征:对当前学习任 ...

  5. 机器学习第11章 特征选择与稀疏学习

    第十一章 特征选择与稀疏学习 11.1 子集搜索与评价 ​ 对当前学习任务有用的属性称为"相关特征 ".没什么用的属性称为"无关特征".从给定的特征集合中选择出 ...

  6. 《机器学习》阅读心得——十一、特征选择和稀疏学习

    十一.特征选择和稀疏学习 11.1 子集搜索和评价   对一个学习任务来说,给定属性集,其中有些属性可能很关键,另一些属性可能没什么用,我们将属性称为"特征",对当前学习任务有用的 ...

  7. 【周志华机器学习】十一、特征选择与稀疏学习

    文章目录 参考资料 前言 1. 子集搜索与评价 1.1 特 征 选 择 1.2 特征选择原因 1.3 子集搜索与子集评价 1.3.1 子集搜索 1.3.2 子集评价 2. 过滤式选择(Relief) ...

  8. 特征选择与稀疏学习(Feature Selection and Sparse Learning)

    本博客是针对周志华教授所著<机器学习>的"第11章 特征选择与稀疏学习"部分内容的学习笔记. 在实际使用机器学习算法的过程中,往往在特征选择这一块是一个比较让人模棱两可 ...

  9. 西瓜书学习笔记——第十一章:特征选择与稀疏学习

    第十一章:特征选择与稀疏学习 11.1 子集搜索与评价 子集搜索 特征子集评价 11.2 过滤式选择 Relief的相关统计量 11.3 包裹式选择 拉斯维加斯方法和蒙特卡罗方法: 11.4 嵌入式选 ...

最新文章

  1. 特斯拉终于要“国产”了!
  2. Python 之 Pandas (二)选择数据
  3. [Ruby][3] 条件语句
  4. 互动整合营销_今天,我们谈谈展会的整合营销!
  5. shell中的$()、${}、$(())、(())
  6. No space left on device 解决 Cydia 安装应用错误
  7. Django扩展xadmin后台管理
  8. lightGBM GPU支持的安装、验证方法
  9. 漫步数理统计十七——条件分布与期望
  10. 未来经济会发展到什么程度?
  11. c++链接错误debug
  12. 增强内容表现的jQuery插件
  13. Julia:Datetime的用法
  14. mysql报duplicate_mysql DUPLICATE KEY UPDATE 问题
  15. BFM-总线功能模型
  16. 浏览器网页翻译插件选十大翻译器网页翻译插件
  17. 空间注意力 通道注意力_注意力发生了什么变化?
  18. 配置 OpenStack 命令 自动 补全
  19. [Python]小甲鱼Python视频第023~024课(递归:这帮小兔崽子、汉诺塔)课后题及参考解答...
  20. 自适应神经网络算法原理,单神经元自适应控制

热门文章

  1. 安易硬盘数据恢复软件v8.81官方版
  2. BI中的切片,切块 ,钻取, 旋转
  3. z3 strategies
  4. 贵州“金融大脑”上线,背后是百度金融的一石三鸟
  5. 华硕的笔记本为什么按Fn+F9禁用触摸板不起作用了?
  6. oracle查询基表阻塞,在Oracle专家眼中,MySQL sys Schema是怎样一种存在?
  7. XCode 下载链接
  8. AUTOSAR Diagnosis Message Configuration
  9. Java可视化数据报表,你还不知道的Excel基本操作吗?
  10. vs 2015 各版本下载地址