机器学习基础（四）：特征选择与稀疏学习

4、特征选择与稀疏学习

对一个学习任务来说，给定属性集，其中有些属性可能很关键、很有用，另一些则可能没什么用。将属性称为特征feature，则对当前学习任务有用的属性称为相关特征relevant feature，没什么用的属性称为无关特征feature selection（有一类特征称为冗余特征redundant feature，所包含的信息能从其他特征中推演出来，它很多时候不起作用，但也有时候可恰好对应完成学习任务所需的中间概念，是有益的）

→获得数据后通常先进行特征选择（数据预处理过程），此后再训练学习器

4.1如何选取一个包含所有重要信息的特征子集

①子集搜索subset search问题（仅考虑了使得本轮选定集最优，是贪心的）

1)前向搜索forward：给定特征集合{a1,a2,…,ad}，将每个特征看做一个候选子集，对这d个候选子集进行评价，选出一个最优子集（比如{a2}），将{a2}作为第一轮的选定集；然后，在上一轮的选定集中加入一个特征，构成包含两个特征的候选子集，寻找最优（且优于{a2}）（如{a2,a4}），将{a2,a4}作为第二轮的选定集；……若在第k+1轮时无比上一轮选定集更优的特征子集，则将上一轮选定的k特征集合作为特征选择结果
2)后向搜索backward：从完整的特征集合开始，每次尝试去掉一个无关特征
3)双向搜索bidirectional：前向后向结合，每一轮逐渐增加选定相关特征，同时减少无关特征

②子集评价subset evaluation问题
信息增益Gain(A)越大，特征子集A包含的有助于分类的信息越多。对每个候选特征子集，可基于训练数据集D来计算其信息增益，以此作为评价准则

→将上述子集搜索机制与子集评价机制相结合，即可得到特征选择方法（例如将前向搜索和信息熵结合，则与决策树算法非常相似）

4.2特征选择方法

4.2.1过滤式选择filter

先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关

例：Relief（一种著名的过滤式特征选择方法）（二分类问题）
设计了“相关统计量”来度量特征的重要性，分量值越大，对应属性的分类能力越强
是一个向量，每个分量分别对应于一个初始特征，最终指定一个阈值γ然后选择比γ大的相关统计量分量对应的特征，或者指定想要选取的特征个数k然后选择相关统计量分量最大的k个特征。
→关键是确定相关统计量（相关统计量对应于属性j的分量）：

实际上，只需在数据集的采样上估计相关统计量，Relief的时间开销随采样次数及原始特征数线性增长，是个运行效率很高的过滤式特征选择算法。

扩展变体Relief-F：能处理多分类问题

4.2.2包裹式选择wrapper

直接把最终将要使用的学习器的性能作为特征子集的评价准则，即目的是为给定学习器选择最有利于其性能的量身定做的特征子集（直接针对给定学习器进行优化，从最终学习器性能来看，比过滤式更好，但多次训练学习器使得计算开销大得多）

例：LVW（一个典型的包裹式特征选择方法）
在拉斯维加斯方法框架下使用随机策略进行子集搜索，并以最终分类器的误差作为特征子集评价准则

第8行是通过在数据集D上，使用交叉验证法来估计学习器的误差，注意这个误差是在仅考虑特征子集A’时得到的，即特征子集A’上的误差，若它比当前特征子集A上的误差更小，或误差相当但A’中包含的特征数更少，则将A’保留下来

4.2.3嵌入式选择embedding

将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动进行了特征选择

采用L1范数正则化：

不仅有助于降低过拟合风险，而且L1范数比L2范数正则化更易于获得稀疏(sparse)解，即求得的w有更少的非零分量

→意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中，于是求解L1范数正则化的结果是得到了仅采用一部分初始特征的模型，即基于L1正则化的学习方法是一种嵌入式特征选择方法

4.3字典学习dictionary learning

将数据集D考虑成一个矩阵，每行对应于一个样本，每列对应于一个特征

字典学习：为普通稠密表达的样本找到合适的字典，将样本转化为合适的稀疏表示形式（稀疏编码），从而简化学习任务，降低模型复杂度

4.4压缩感知compressed sensing

关注的是如何利用信号本身所具有的稀疏性，从部分观测样本中恢复原信号，通常压缩感知分为感知测量（关注如何对原始信号进行处理以获得稀疏样本表示）和重构恢复（关注的是如何基于稀疏性从少量观测中恢复原信号，是精髓，通常压缩感知指的是这部分）两个阶段

未完待续，喜欢的朋友可以关注后续文章~

机器学习基础系列文章回顾：
机器学习基础（一）：简介
机器学习基础（二）：模型评估与选择
机器学习基础（三）：决策树

参考书目：
周志华.《机器学习》