特征选择综述论文阅读笔记

一特征选择（feature selection）的简介

我们现在正处在大数据的时代，大量的高维数据在各种领域中无处不在，如社交媒体、医疗保健、生物信息学和在线教育。
当数据挖掘和机器学习算法应用于高维数据时，一个关键问题被称为维数诅咒：数据在高维空间中变得更加稀疏，对为低维空间设计的算法产生不利影响的现象。用一个例子表示就是如果用one-hot编码来对文章进行编码（即一篇文章为一个正交向量），因为天下很少有两篇一模一样的文章，所以这个特征空间就会很稀疏。此外，由于有大量的feature，学习模型往往会过度拟合。
数据降维是解决上述问题方法之一。它主要可分为两大部分：
①feature extraction：特征抽取是将原始的高维特征投影到一个新的低维特征空间中。新构造的特征空间通常是原始特征的线性或非线性组合。
②feature selection：特征选择则直接选择相关特征的子集来构建模型
现实世界的数据包含许多无关的、冗余和有噪声的特征。通过特征选择来删除这些特征可以降低存储和计算成本，同时避免了信息的显著丢失或学习性能的下降。具体的情况如下图所示：

根据上面的图情况可以知道。（b）redundant feature这种情况下，两个特征的相关性实在太强了，只保留一个特征就可以了。而（c）irrelevant feature这种情况下样本的分布非常杂乱，这种情况下这两组特征对机器学习任务没有一点用处，所以（b)，(c）两种情况是符合执行特征选择这一操作的。

二在conventional data上的特征选择

（一）Similarity-Based Methods

不同的特征选择算法利用不同类型的标准来定义特征的相关性。其中，有一系列的方法通过其保持数据相似性的能力来评估特征的重要性。我们将它们称为基于相似性的方法。
对于监督学习，数据相似性可以从标签信息中获得；而对于无监督学习，大多数方法利用不同的距离度量来获得数据相似性。这种方法可以表示为以下的公式：

公式中的U（x）可以理解为是一种效应函数，这种方法的前提是各个特征都是独立的，流程就是选择前k个效应函数最大的特征。从拓扑学的角度来看，这种特征选择的方法就是：从原来的特征集合S中选择一个子集，从而可以最大程度地保持原数据的流形结构，U（x）一定程度上可以理解为是衡量数据流形结构的完整性的工具。（完整性包括不缺失，不冗余）。
附：流形(Manifold)是局部具有欧式空间性质的空间，包括各种纬度的曲线曲面，例如球体、弯曲的平面等。流形的局部和欧式空间是同构的。流形是线性子空间的一种非线性推广
这类算法有非常多的实现：Laplacian Score，SPEC，Fisher Score等等。下面介绍这类算法的一个实现：Relief特征选择算法
Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样本H，称为Near Hit，从和R不同类的样本中寻找最近邻样本M，称为NearMiss。
然后根据以下规则更新每个特征的权重：如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。以上过程重复m次，最后得到各特征的平均权重。特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。

（二）Information-Theoretical-Based Methods

现有的特征选择算法的一大家族是基于信息理论的方法。学者们提出了许多手工设计的信息理论标准来最大化特征相关性和最小化特征冗余。这类特征选择算法的大多数算法都是在是在监督学习的前提下执行的。
此外，大多数信息理论的概念只能应用于离散变量。因此，该家族中的特征选择算法只能适用于离散数据。对于连续的特征值，事先需要采用一些数据离散化技术。
在这种特征选择算法当中，我们通过前向顺序搜索来解决特征选择问题，具体方法就是：
①在统一的条件似然最大化特征选择框架的前提下，设计一个criterion函数J（x），其中x为特征。
其中J（x）函数设计的通用框架如下图所示：
举一个例子：如果g（x）是一个线性函数，那么J（x）就可以表示为香农信息项（例如信息增益，条件信息增益等）的线性组合。

②将特征按照J（x）的得分逐个地添加到特征集中作为特征选择结果。
这样的方法有很多，例如基于information gain（或者说mutual information）的filter的特征选择方法。

（三）Sparse-Learning-Based Methods（稀疏学习）

还有一种方法是基于稀疏学习的方法，其目的是最小化拟合误差以及一些稀疏正则化项。稀疏正则化器迫使许多特征系数较小，或完全为零，然后可以简单地消除相应的特征。这种方法的正确性在于损失函数加上正则化项可以防止过拟合，从而取得更好的拟合效果。基于稀疏学习的方法由于其良好的性能和可解释性，近年来受到了广泛的关注。
最经典的基于稀疏学习的特征选择方法就是LASSO回归（就是线性回归加上2阶的正则化项）和SVM，logistic回归的正则化表达方法。

（四）Statistical-Based Methods（统计特征）

另一类特征选择算法是基于不同的统计度量。由于它们依赖于各种统计度量，而不是学习算法来评估特征相关性，因此大多数都是基于过滤器的方法。此外，大多数基于统计的算法都是单独分析特征的。因此，在选择阶段不可避免地会忽略了特征冗余。这类特征选择方法比较常见使用的统计量有以下这些：Low Variance，T-Score，Chi-Square Score，Gini Index等。

（五）基于集成树模型的特征选择方法

现在的集成树模型例如lightgbm，XGboost，Catboost，随机森林都有feature_importance这一个属性，它们都有一套属于自己的特征选择方法。其实这种算法和特稀疏学习比较像，但是上面的方法是基于损失函数的正则化项。

三在Structured feature数据上的特征选择

现有的传统数据的特征选择方法是基于一个强烈的假设，即特征相互独立，而忽略了固有的特征结构。然而，在许多实际的应用程序中，特性可以表现出各种结构，每一种不同的特征结构都具有不同的特征选择方法，下面就是几种Structured feature的特征选择情况。具体的方法太多了，以后慢慢学习，用到了就会更新

（一）Group Feature

特征可以表现出组的结构。最常见的例子之一是，在多因素方差分析（差方差分析）中，每个因素都与几个组相关，可以用一组虚拟特征来表示。例如在本人参加的全球蛋白质亲和力预测大赛当中，一组数据可以用来表示抗体链A的特征，一组可以用来表示抗体链B的特征。

（二）Tree Feature Structures

特征还可以显示树状结构。例如，在人脸识别中，一张照片的所有不同的像素可以表示为一个树，其中根节点表示整个人脸，其子节点可以是不同的器官，每个特定的像素都被视为一个叶节点。树状特征图如下图所示：

（三）Graph Feature Structures

在许多情况下，特性可能有很强的成对交互作用。例如，在自然语言处理中，如果我们将每个单词作为一个特征，那么我们就有了不同单词之间的同义词和反义词关系。此外，许多生物学研究表明，基因之间存在着很强的成对依赖关系。