在做图像识别的程序中,我们经常遇到特征这个词语,也常有特征提取作为识别的前序工作,通常我们可以根据提取到的特征,根据应有特征进行对比,最终完成对物体缺陷等的识别。那么在提取到的众多特征中,如何有效的提取到能很好进行分类的特征呢?在识别过程中,往往通过经验总结,或直接的抽象特征作为判别条件。在机器学习中,周老师讲到的特征选择,我想也是对属性空间中所有特征,进行一个筛选,选择出有效特征。我想我们也可以理解成一种降维方法。去除干扰特征或无效特征的手段。因此在机器学习中我们可以认为特征选择是一个数据预处理过程,完成特征选择后,再进行训练学习器,最终完成良好的学习过程。

1、子集搜索与评价

特征:在给定的样本集中属性,我们将属性称为特征
相关特征:给定的属性集对当前学习任务有用的属性称为相关特征
无关特征:给定的属性集对当前学习任务无用的属性称为无关特征
特征选择:在给定的特征集合中选择出相关特征子集的过程,称为特征选择
冗余特征:所包含的信息能从其他特征中推演出来
前向搜索:给定一个子集,采用逐渐增加一个相关特征的策略称为前向搜索
后向搜索:从一个完整的特征集合开始,每次尝试去掉一个无关特征,这样逐渐减少特征的策略称为后向搜索
双向搜索:如果将前向搜索和后向搜索结合起来,每一次逐渐增加选定相关特征(这些特征在后续轮中将确定不会被去除),同时减少无关特征,这样的策略称为双向搜索
常见的特征选择方法可分为三类:过滤式、包裹式、嵌入式。

2、过滤式选择

过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。

3、包裹式选择

包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。也就是在每次进行特征选择后,将新的特征集放入学习器中进行训练,通过训练的结果来对特征选择进行评价,如此进行循环。

4、嵌入式选择与L1L_1正则化

嵌入式选择:过滤式和包裹式特征选择,有明显的特征选择过程和训练学习器的过程。而嵌入式选择则是将特征选择过程与学习器训练过程融合为一体,两者在同一个优化过程中完成,也就是在学习器训练过程中自动的进行特征选择。

5、稀疏表示与字典学习

加入将一个数据集用矩阵进行表示,其中每一行代表一个样本,每列则对应于一个特征,特征选择所考虑的问题是特征具有“稀疏性”,即矩阵中的许多列与当前学习任务无关,通过特征选择去除这些列,则学习器训练过程仅需要较小的矩阵上进行,则学习任务难度将会所有降低,设计的计算和存储开销也会减少,因而学得的模型的可解释性也会提高。
如果给定的数据集是稠密的,如果利用稀疏性的优越性呢?因此就考虑是否可以将其数据集转化为稀疏表示的形式。周老师书中提到字典学习的方法来解决这种问题。

6、压缩感知

奈奎斯特采样定理
压缩感知分为 感知测量和重构恢复两个阶段
感知测量:关注如何将原始信号进行处理以获得稀疏样本表示
重构恢复:关注的是如何基于稀疏性从少量观测中恢复原信号

周志华 《机器学习》之 第十一章(特征选择与稀疏学习)概念总结相关推荐

  1. 《机器学习》第十一章 特征选择与稀疏学习

    特征选择从多个特征中选出对学习有用的特征以实现降低维度,增加准确率的目的. 选择子集和对子集进行评价是重要的两步,本章主要介绍了过滤式选择,包裹式选择以及嵌入式选择等方法: 过滤式选择利用相关统计量在 ...

  2. 《机器学习》周志华(西瓜书)学习笔记 第十一章 特征选择与稀疏学习

    机器学习 总目录 第十一章 特征选择与稀疏学习 11.1 子集搜索与评价 给定属性集,其中有些属性可能很关键.很有用,另一些 属性则可能没什么用.我们将属性称为"特征" (feat ...

  3. 机器学习(周志华) 第十一章特征选择与稀疏学习

    关于周志华老师的<机器学习>这本书的学习笔记 记录学习过程 本博客记录Chapter11 文章目录 1 子集搜索与评价 2 过滤式选择 3 包裹式选择 4 嵌入式选择与L1正则化 5 稀疏 ...

  4. 第十一章 特征选择与稀疏学习

    11.1 子集搜索与评价 我们将属性称为特征,对当前学习任务有用的属性称为相关特征.没什么用的属性称为无关特征.还有一类特征称为冗余特征,它们所包含的信息能从其他特征中推演出来,冗余特征在很多时候不起 ...

  5. 机器学习----第十一章特征选择与稀疏学习 学习笔记

    目录 子集搜索与评价 过滤式选择 包裹式选择 嵌入式选择与L1正则化 稀疏表示与字典学习 压缩感知 子集搜索与评价 我们先来理解以下概念: 相关特征:对当前学习任务有用的属性: 无关特征:对当前学习任 ...

  6. 机器学习第11章 特征选择与稀疏学习

    第十一章 特征选择与稀疏学习 11.1 子集搜索与评价 ​ 对当前学习任务有用的属性称为"相关特征 ".没什么用的属性称为"无关特征".从给定的特征集合中选择出 ...

  7. 周志华-机器学习西瓜书-第三章习题3.3 编程实现对率回归

    本文为周志华机器学习西瓜书第三章课后习题3.3答案,编程实现对率回归,数据集为书本第89页的数据 使用tensorflow实现过程 # coding=utf-8 import tensorflow a ...

  8. 【读书笔记】周志华 机器学习 第二章 模型评估和选择

    第二章 模型评估和选择 1 欠拟合和过拟合 偏差和方差 1.1 欠拟合和过拟合 1.2 偏差和方差 2 评估方法 性能度量 2.1 评估方法 2.1.1 留出法 2.2.2 交叉验证法 2.2.3 自 ...

  9. 《机器学习》周志华课后习题答案——第一章(1-3题完结)

    <机器学习>周志华课后习题答案--第一章 文章目录 <机器学习>周志华课后习题答案--第一章 一.表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间 二.与使用单个 ...

  10. 周志华机器学习--绪论

    周志华机器学习–绪论 第一章 绪论 第二章 模型评估与选择 第三章 线性模型 第四章 决策树 第五章 支持向量机 第六章 神经网络 第七章 贝叶斯分类器 第八章 集成学习和聚类 文章目录 周志华机器学 ...

最新文章

  1. SunDay天气——开放源代码
  2. 利用开源中国提供的代码仓库提高github下载速度
  3. MVC/MVP/MVVM区别——MVVM就是angular,视图和数据双向绑定
  4. word如何(以标题)另起一页(段落 --> 换行和分页 --> 段前分页)
  5. 洛谷 - P1025 数的划分(dfs)
  6. PointConv论文阅读笔记
  7. stata 线性回归分析基本操作
  8. 获取当前上下文Activity
  9. 操作系统—吸烟者问题
  10. 快排-Python实现
  11. python拼接sql语句字符串 无效字符,Python拼接SQL字符串的方法
  12. 如何查看谷歌卫星地图每级分辨率的两种方法
  13. 可以直接复制的emoji符号(表情)
  14. python二元一次方程组用鸡兔同笼的思路来写编程_应用二元一次方程组——鸡兔同笼 教学设计...
  15. jquery实现回到顶部和回到底部
  16. 一步步学会用docker部署应用(nodejs版)
  17. 中旅投资计划战略入股开元森泊,成为其第二大股东
  18. MATLAB未找到支持的编译器或 sdk 解决方案
  19. 实训(学生管理系统)
  20. 第十届上海国际泵阀展多会议活动集中发力,邀您共赴6月泵阀盛会

热门文章

  1. 黑猴子的家:GitHub 简介
  2. java 之 实例方法和类方法
  3. 虚拟化技术比较:OpenStack、KVM、VMWare和Docker
  4. Git 的安装以及环境配置
  5. IOS 7 Xcode 5 免IDP证书 真机调试(转载)
  6. 【Android报错】daemon not running; starting now at tcp:5037
  7. 太极熊猫服务器怎么都在维护,太极熊猫3月8日战区调整及维护公告
  8. 结城浩的《图解设计模式》设计模式之Adapter模式的理解
  9. 学计算机的笔记本电脑配置,如何查看笔记本电脑的配置 查看笔记本配置的方法【详细步骤】...
  10. 道听途说——JAVA文件中只能含有一个Public类