4、特征选择与稀疏学习

对一个学习任务来说,给定属性集,其中有些属性可能很关键、很有用,另一些则可能没什么用。将属性称为特征feature,则对当前学习任务有用的属性称为相关特征relevant feature,没什么用的属性称为无关特征feature selection(有一类特征称为冗余特征redundant feature,所包含的信息能从其他特征中推演出来,它很多时候不起作用,但也有时候可恰好对应完成学习任务所需的中间概念,是有益的)

→获得数据后通常先进行特征选择(数据预处理过程),此后再训练学习器

4.1如何选取一个包含所有重要信息的特征子集

①子集搜索subset search问题(仅考虑了使得本轮选定集最优,是贪心的)

1)前向搜索forward:给定特征集合{a1,a2,…,ad},将每个特征看做一个候选子集,对这d个候选子集进行评价,选出一个最优子集(比如{a2}),将{a2}作为第一轮的选定集;然后,在上一轮的选定集中加入一个特征,构成包含两个特征的候选子集,寻找最优(且优于{a2})(如{a2,a4}),将{a2,a4}作为第二轮的选定集;……若在第k+1轮时无比上一轮选定集更优的特征子集,则将上一轮选定的k特征集合作为特征选择结果
2)后向搜索backward:从完整的特征集合开始,每次尝试去掉一个无关特征
3)双向搜索bidirectional:前向后向结合,每一轮逐渐增加选定相关特征,同时减少无关特征

②子集评价subset evaluation问题
信息增益Gain(A)越大,特征子集A包含的有助于分类的信息越多。对每个候选特征子集,可基于训练数据集D来计算其信息增益,以此作为评价准则

→将上述子集搜索机制与子集评价机制相结合,即可得到特征选择方法(例如将前向搜索和信息熵结合,则与决策树算法非常相似)

4.2特征选择方法

4.2.1过滤式选择filter

先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关

例:Relief(一种著名的过滤式特征选择方法)(二分类问题)
设计了“相关统计量”来度量特征的重要性,分量值越大,对应属性的分类能力越强
是一个向量每个分量分别对应于一个初始特征,最终指定一个阈值γ然后选择比γ大的相关统计量分量对应的特征,或者指定想要选取的特征个数k然后选择相关统计量分量最大的k个特征。
→关键是确定相关统计量(相关统计量对应于属性j的分量):



实际上,只需在数据集的采样上估计相关统计量,Relief的时间开销随采样次数及原始特征数线性增长,是个运行效率很高的过滤式特征选择算法。

扩展变体Relief-F:能处理多分类问题

4.2.2包裹式选择wrapper

直接把最终将要使用的学习器的性能作为特征子集的评价准则,即目的是为给定学习器选择最有利于其性能的量身定做的特征子集(直接针对给定学习器进行优化,从最终学习器性能来看,比过滤式更好,但多次训练学习器使得计算开销大得多)

例:LVW(一个典型的包裹式特征选择方法)
在拉斯维加斯方法框架下使用随机策略进行子集搜索,并以最终分类器的误差作为特征子集评价准则

第8行是通过在数据集D上,使用交叉验证法来估计学习器的误差,注意这个误差是在仅考虑特征子集A’时得到的,即特征子集A’上的误差,若它比当前特征子集A上的误差更小,或误差相当但A’中包含的特征数更少,则将A’保留下来

4.2.3嵌入式选择embedding

将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动进行了特征选择

采用L1范数正则化:

不仅有助于降低过拟合风险,而且L1范数比L2范数正则化更易于获得稀疏(sparse)解,即求得的w有更少的非零分量

→意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,于是求解L1范数正则化的结果是得到了仅采用一部分初始特征的模型,即基于L1正则化的学习方法是一种嵌入式特征选择方法

4.3字典学习dictionary learning

将数据集D考虑成一个矩阵,每行对应于一个样本,每列对应于一个特征

字典学习:为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式(稀疏编码),从而简化学习任务,降低模型复杂度

4.4压缩感知compressed sensing

关注的是如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号,通常压缩感知分为感知测量(关注如何对原始信号进行处理以获得稀疏样本表示)和重构恢复(关注的是如何基于稀疏性从少量观测中恢复原信号,是精髓,通常压缩感知指的是这部分)两个阶段

未完待续,喜欢的朋友可以关注后续文章~

机器学习基础系列文章回顾:
机器学习基础(一):简介
机器学习基础(二):模型评估与选择
机器学习基础(三):决策树

参考书目:
周志华.《机器学习》

机器学习基础(四):特征选择与稀疏学习相关推荐

  1. 机器学习基础 之 特征选择和稀疏学习

    文章目录 特征选择 1.过滤式选择 2.包裹式选择 3.嵌入式选择 稀疏学习 稀疏表示与字典学习 压缩感知 转自: https://www.zhenxiangsimple.com/2019/04/09 ...

  2. 机器学习笔记(十一)特征选择和稀疏学习

    11.特征选择和稀疏学习 11.1子集搜索与评价 对象都有很多属性来描述,属性也称为特征(feature),用于刻画对象的某一个特性.对一个学习任务而言,有些属性是关键有用的,而有些属性则可能不必要纳 ...

  3. 笔记 | 《机器学习》中特征选择与稀疏学习

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 大家好,我是王博(Kings) 本次 ...

  4. 特征选择与稀疏学习——机器学习(周志华)

    原文链接 上篇主要介绍了经典的降维方法与度量学习,首先从"维数灾难"导致的样本稀疏以及距离难计算两大难题出发,引出了降维的概念,即通过某种数学变换将原始高维空间转变到一个低维的子空 ...

  5. 《机器学习》周志华(西瓜书)学习笔记 第十一章 特征选择与稀疏学习

    机器学习 总目录 第十一章 特征选择与稀疏学习 11.1 子集搜索与评价 给定属性集,其中有些属性可能很关键.很有用,另一些 属性则可能没什么用.我们将属性称为"特征" (feat ...

  6. 《机器学习》阅读心得——十一、特征选择和稀疏学习

    十一.特征选择和稀疏学习 11.1 子集搜索和评价   对一个学习任务来说,给定属性集,其中有些属性可能很关键,另一些属性可能没什么用,我们将属性称为"特征",对当前学习任务有用的 ...

  7. 机器学习第11章 特征选择与稀疏学习

    第十一章 特征选择与稀疏学习 11.1 子集搜索与评价 ​ 对当前学习任务有用的属性称为"相关特征 ".没什么用的属性称为"无关特征".从给定的特征集合中选择出 ...

  8. 【机器学习】特征选择与稀疏学习总结

    特征选择.稀疏学习

  9. 特征选择与稀疏学习。

    特征选择与稀疏学习 最近在看论文的过程中,发现对于数据集的行和列叫法多有不同,故在介绍本章之前,决定先将最常用的术语罗列一二,以后再见到了不管它脚扑朔还是眼迷离就能一眼识破真身了~对于数据集中的一个对 ...

最新文章

  1. es6学习笔记2-—symbol、变量与作用域
  2. java中ArrayList
  3. Vue.js 实现v-if和v-else来切换CSS样式
  4. 智慧航空AI大赛-阿里云算法大赛总结 第一赛季总结
  5. 专业本的C语言,以解决本专业问题为导向的C语言程序设计课程教学探索
  6. 字节流写数据搭配异常处理
  7. python求度分布的程序
  8. ibdata1 mysql_ibdata1 mysql-bin
  9. 机器学习基础(十二)—— 数学基本理论拾遗
  10. 长春去哪辅导高二理综好?高中生数理化培优补差辅导
  11. net.java.html.BrwsrCtx
  12. 人人开源(快速搭建项目)
  13. K3 ERP 系统财务管理 - 账结法、表结法
  14. C语言——解四元一次方程组
  15. java导出dbf文件_Java 导出dbf文件
  16. HTML5多媒体(音频、视频播放)
  17. 推荐系统领域最新研究进展论文整理
  18. 筱筱看博客(微信小程序、Lin-ui组件、vant Weapp)
  19. 2022-2028年全球与中国车辆传感器行业发展趋势及投资战略分析
  20. 【实习日记】实习第N天 从零开始搭建一个tiktok puppet(一)

热门文章

  1. 怎样判断漂亮女孩是不是单身的?
  2. 关于精神永生的现实思考
  3. 我把面试 ThreadLocal 能问的,都写了
  4. C++ AMP异构并行编程解析
  5. 基于OCR的身份证要素提取​​
  6. SQL SERVER数据库datediff函数引发的性能问题
  7. 各大银行IT情况对比
  8. BZOJ4770: 图样
  9. 【易通慧谷】2018年海南电信OSS运营支撑体系
  10. Java如何通过IP获得真实地址