mutual information feature selection, MIFS:互信息特征选择

Smymetrical uncertainty, SU

Fast Correlation-Basd Filter Solution, FCBF:基于相关性快速过滤的特征选择算法

Conditional Mutual Information Maximization, CMIM:条件互信息最大化

Joint Mutual Information Maximiza, JMIM:联合互信息最大化

Normalized Joint Mutual Information Maximiza, NJMIM:归一化联合互信息最大化

Feature Interaction Maximization, FIM:特征交互最大化

Interaction-weight-based Feature Selection Algorithm, IWFS:基于交互权重的特征选择算法

Max-relevance and max-interaction, MRMI:最大相关性最大交互性(准则)

摘要:特征选择的目的是在数据挖掘、模式识别和机器学习中选择能够提高学习性能的重要特征。过滤器特征选择方法提供了计算效率和特征评价标准,而特征交互信息可以大大提高分类精度,但它往往被忽略。在这项工作中,我们提出了一种新的特征选择算法,是呀“最大最大”准则来选择高度相关的特征和它们最大限度的交互特征。在30个UCI数据集上进行了大量的实验,以评估所提出方法在特征选择数量和分类精度上的性能。结果表明,该算法不仅能有效选择相关特征和交互特征,而且能使分类器获得比10中具有代表性的竞争特征选择算大更好或较好的分类精度。

1 Introduction

在数据挖掘、机器学习、自然语言处理和人脸识别等许多实际应用中,特征选择已经被理论和经验证明是一种非常有用的方法。它通常被认为是分类和聚类学习的预处理步骤。特征选择的主要目标是选择一个能够携带原始特征全部信息近似值的最优子集。换句话说就是保留相关特征,去除冗余特征,从而简化学习模型,减少训练时间,降低学习错误率。

特征选择的研究大多集中在特征质量评估和搜索策略方面。特征质量评估是特征选择的关键问题之一,常用于从原始子集中选择相关特征。从评价标准的角度来看,特征选择方法一般可以分为两类:过滤器方法和包装器方法。由于分类器的独立性,过滤器方法简单而有效。它们选择能最大化目标函数或特征评价标准的最佳特征子集。比较常见的是使用度量方法如距离、相关性和一致性来评估候选子集的质量。距离通常被认为是可分性、发散性或依赖性的度量方法。相关性通常被用来描述特征和类标签之间的相关性。一致性被视为可以用来评估分类特征质量的样本比率。而包装器方法根据学习算法的结果来选择特征。虽然包装器模型的算法更精确,但它们通常是计算密集型的,特别是在处理超高维数据时。一般来说,过滤器方法比包装器方法更快,且前者的鲁棒性使得它可以很容地应用于高维数据中。因此,文章将关注过滤器方法。

普遍来说,现有的过滤器特征选择方法通过选择相关特征及其交互特征,去除不相关和冗余特征。相关特征对学习算法是非常有用的,但不相关和冗余特征没有提供有用的甚至提供负面的信息,这可能会混淆学习算法,破坏学习和挖掘性能。最近许多文章详细介绍了特征质量的评估。众所周知,信息论被用来确定特征的质量。除了哪些常见的评价指标如熵、信息增益,交互信息是经常被忽视但很重要的指标。虽然交互特征个体与类别无关,但它们可以极大地提高分类的准确性。一个经典的案例是XOR(异或)问题,两个特征中都单独与类标签无关,但两者结合时,它们都与类标签密切相关。在这种情况下,使用它们可以比使用单独特征 的分类器获得更好的分类性能。

近年来,许多研究都集中在度量特征的交互作用,,但大多研究都是基于包装器模型或者加入特征排序的过滤器模型。因此,使用过滤器模型研究特征交互仍然是一项具有挑战性的任务。文章提出了一种基于相关性的交互式特征选择方法。我们首先直接处理了特征的相关性、冗余性和交互性,然后提出了一种基于度量特征相关性和交互性的特征选择算法。

2 Background theory

信息熵

3 Related work

给定一个数据集D,包含m个离散特征和类。 是一个完整的特征集合,且  是维度  的候选特征集。特征选择的关键是选择可以产生相同甚至更好的分类精度的特征子集  ,即识别与类标签相关但与其他特征都冗余的特征。

实际上,利用过滤器模型进行各种选择可以看作是一个搜索问题。在预定义的特征质量评价标准下,搜索一个或多个相关特征。信息论被应用于许多特征选择算法中,许多研究者把重点放在了基于信息的度量方法上。

MIFS是Battiti(1944)提出的一种算法,它使用互信息索引,通过贪婪搜索算法从全部特征中选择最相关的k个特征。MIFS的目标就是最大化下面函数,其中  用来选择相关特征,原来确定冗余特征:

2002年Kwak和Choi在MIFS的基础上改进冗余索引,提出了MIFS-U,它的目标函数定义为:

2014年Hoque、Bhattacharyya和Kalita提出一种结合特征间交互信息和特征与类标签间交互信息的 贪心特征选择方法,以找到一个最小化冗余性最大化相关性的最优子集。其目标函数定义为:

2005年由Peng、Long和Ding提出的另一个MIFD的扩展,mRMR,用来选择与目标类相关性最好冗余度最低的特征。目标函数如下:

最近基于mRMR的扩展研究越来越多,它们通过度量特征的相关性和冗余度来选择特征。这些方法尝试利用互信息索引来识别相关特征和冗余特征,但存在局限性:(1)它们没有完全去除冗余特征;(2)在贪婪搜索策略性,计算代价较高;(3)没有考虑特征交互。

为解决上述前两个问题已经做出了各种努力。如Yu和liu(2004)提出的FCBF方法,通过SU确定特征的相关性和冗余度。FCBF选择优势特征,通过马尔科夫毯策略搜索算法去除高度相关的特征:

文献中也介绍了其它指标类似的方法(如条件互信息和联合互信息)。Fleuret(2004)引入CMIM准则进行特征选择。CMIM公示如下:

因为CMIM可以隐式识别特征间的联合相关性,所以采用CMIM来度量特征间的相关性和冗余度。Bennasar、Hicks和Setchi(2015)提出了JMIM和NJMIM准则,采用联合互信息和最小极值法来选择最相关的特征。目标函数定义为:

在交互问题上,越来越多研究者通过对特征交互信息的研究来提高分类精度和识别冗余互补特征。据我们所知,三向交互信息最早由Jakulin(2003,2005)明确引入。Zhao和Liu(2007,2009)提出了三向交互的扩展,并提出了一种基于SU和一致性贡献的向后消除过滤器交互算法。一致性贡献是指特征的消除对一致性的影响有多大。该算法包括两部分:第一部分根据SU值对特征降序排列;第二部分逐一评估已排序的特征。如果某个特征的一致性贡献小于预定义的阈值,则删除该特征;否则被选中。实验结果表明这个方法能够有效处理特征交互问题以及识别相关特征。

此外,Bennasar、Setchi和Hicks(2013)介绍了一种新的特征选择方法FIM,它使用三向交互信息度量特征冗余度。这个方法采用最小最大准则,使用如下目标函数评估候选特征的相关性和冗余度:

2015年Zeng、Zhang、Zhang和Yin提出一种新的考虑特征交互的特征选择方法。作者首先在信息论的框架下重新定义了特征相关性、特征冗余度和特征交互,然后介绍了IWFS,该算法能够反映出特征是冗余的还是交互的。两个随机特征间的交互权重因子定义为:

虽然FIM和IWFS都在监督学习中考虑了特征交互,但它们都是通过特征排序的方法来选择特征子集,不能按照自己的标准结束。事实上,基于无监督学习的研究很少。在这个背景下,Ng、Pham和Jia(2012)开发了一种新的框架,在模糊度量和Choquet积分的基础上将特征交互的重要性纳入子空间聚类中,成为FISC。考虑到特征间的相互作用,FISC可以有效的识别最优特征子集(子空间),提高分类结果。

总体来说,大多数的方法都是通过最大化交互信息来考虑特征交互,且经常采用贪心搜索算法。基于这些原因,它们在计算上很费时。因此制定更好的搜索标准和有效的搜索策略是很有必要的。

4 Proposed method for feature selection

文章提出一种新的考虑特征相关性、冗余度和交互的特征选择方法。这个算法的目标是基于马尔科夫毯选择相关和交互特征并去除尽可能多的冗余特征。

在过去十几年里,许多研究集中在特征相关性和冗余度的定义。文章将采用以下定义。

定义1:特征相关性,当且仅当

特征  为相关的,否则为不相关。

定义2:马尔科夫毯,给定一个特征  ,使  ,当且仅当

 为特征  的马尔科夫毯。马尔科夫毯的条件要求了  不仅包含特征  关于  的信息,还要包含其他所有特征的信息。

定义3:特征冗余,如果特征  在当前特征集合中有一个马尔科夫毯  ,则特征  对于其他特征来说是冗余的。

关于类标签的特征相关和冗余的定义依赖于概率分布。因此,很容易从整个特征集中识别出相关的以及冗余的特征。然而,要删除一个与类标签相关性弱或不相关但与其它选定的特征交互的特征并不容易。

大多数研究者认为真正的交互特征之间可能是互补的,当它们一起使用时,可以极大地提高分类精度。因此特征交互对于特征选择非常重要。 Jakulin(2005)指出三向交互信息可以区分真假交互:真交互产生正交互信息,假交互产生负交互信息,非交互特征对的交互信息大多接近于0。基于此,我们给出特征交互的定义。

定义4:特征交互,当且仅当

我们说特征  和特征  是交互的。定义4表示 特征  和特征  的交互作用越强,它们结合在一起的信息越多。即缺少特征对  会降低分类结果。

4.1 Max-relevance and max-interaction criterion

大多数研究的关键思想是用最小最大标准选择特征时尽力优化相关性和冗余度之间的关系。然而,相关性和冗余度不能识别交互特征。文章提出一种新的准则MRMI,目标是提高相关性和交互性分析以及最大最大准则来选择最相关的特征及其最大的交互性特征。MRMI准则定义为:

等式右边的第一项度量了特征  对类标签的相关性,第二项用来识别与特征  弱冗余强相关的最大交互特征  。这个标准具有选择协同特征的优势,因此能够促进分类性能。

如上图韦恩图展示了候选特征  、选择 特征  和类标签 C 之间不同情况下的关系。(a)和(b)中交互信息  (区域r3)即特征  和特征  之间的协同作用为正,然而这两个特征本身没有什么作用。显然交互作用的两种情况要么是正要么是负,当  和  一起使用时,(a)提供的信息要比(b)更多。相关性和冗余的关系很直接:如果  ,那么  和  可以给类标签 提供更多的信息。相反则它们可以被认为是彼此的冗余特征。因此MRMI应该满足条件: 并且  非常高。

4.2 Proposed feature selection algorithm

信息论中使用的大多数特征选择算法很少同时处理相关性、冗余性和交互性。文章利用MRMI准则来识别相关和交互特征,并利用马尔科夫毯去除冗余特征。具体步骤如下。

MRMI是一种没有额外预定义参数的典型过滤器特征选择算法。当候选特征子集中没有更多的特征可以被选择时就停止。算法MRMI的主要计算包括两部分:对于预计算步骤,我们需要计算m个特征与类标签之间的SU,即当有m个特征时时间复杂度为;对于特征选择步骤,我们需要计算候选子集的交互  ,因此最坏的情况是没有特征被去除的时候时间复杂度为;所以最坏情况下总的时间复杂度为

5 Experiment

5.1 Experimental setup

对比算法:FCFB、Consistency、mRMR、INTERACT、CFS、Relief-F、CMIM、JMIM、IWFS、IG。除Consistency外,其余算法都基于信息论;CFS、FCBF和mRMR通过识别相关特征去除冗余特征来选择最优特征集,INTERACT、CMIM、JMIM和IWFS用于处理特征交互。这些算法中,mRMR、Relief-F、CMIM、JMIM、IWFS和IG通过排序选择特征,其余算法根据自己的标准结束。

5.2 Empirical result

评价标准:(1)如果特征选择方法能够获得比其他方法更大的分类精度,则其性能优于其他方法;(2)如果两个或两个以上的特征选择算法产生相似的分类精度,使用最少的特征数量达到这种精度的算法是最好的,因为它可以实现更简单的模型和更有效的分类。

5.2.1 Performance comparison of CFS, Consistency, FCBF, and INTERACT

5.2.2 Performance comparison of mRMR, Relief-F, CMIM, JMIM,IWfS and IG

6 Conclusions and future work

未来:N交互

A feature selection method via analysis of relevance, redundancy, and interaction相关推荐

  1. #论文笔记#【MRM-Lasso:A sparse Multiview Feature Selection Method Via Low-Rank Analysis】论文笔记

    前言       从现在开始记录一下看的每篇论文,也算是给研究生三年一个交代,不然三年过去了啥也没干不太好.虽然以后可能不会从事这个行业,但是把当下的事做好,不管什么行业,自律是很重要的,从去年进实验 ...

  2. 【计算神经科学冒险者们】2.3 神经编码:特征选择(Neural Encoding:Feature Selection)...

    Today's Task:How to find the components of this model 1 选取特征Feature 1.1 How to proceed? Our problem ...

  3. R语言的特征选择(Feature Selection)包:Boruta和caret

    转载自:http://www.zhizhihu.com/html/y2011/3188.html 对于大数据的分析,特征选择Feature Selection和降维是必不可少的,R有很多做FS的包,这 ...

  4. 特征选择(Feature Selection)

    主要内容: 为什么要进行特征选择? 什么是特征选择? 怎么进行特征选择 特征选择: 在现实生活中,一个对象往往具有很多属性(以下称为特征),这些特征大致可以被分成三种主要的类型: 相关特征:对于学习任 ...

  5. Feature Selection Techniques

    Table of Contents 1  Feature Selection Techniques特征选择技术 1.1  Agenda 1.2  Introduction to Feature Sel ...

  6. Feature selection

    原文:http://scikit-learn.org/stable/modules/feature_selection.html The classes in the sklearn.feature_ ...

  7. 机器学习Machine Learning:特征选择Feature Selection 与 数据降维Dimension Reduction的区别?

    为什么会有降维和特征选择??? 我们知道机器学习的终极目标就是为了预测,当然预测前我们要对数据进行训练.通常我们不会拿原始数据来训练,为什么呢?可能有些人觉得原始信息(original data)包含 ...

  8. 论文阅读报告:Feature Selection for Multi-label Classification Using Neighborhood Preservation,Zhiling Cai

    文章目录 1. 论文出处 2. 流程(示意图) 3. 预备知识 3.1 相似性保持特征选择(Similarity Preserving Feature Selection) 3.2 多标签 4. 论文 ...

  9. Feature Selection详解(附带Relief、Relief-F、LVM详解)(一)

    Feature Selection详解 第二十五次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习.这一篇主要是针对特征选择问题的几种常见方法进行阐述,并介绍其 ...

最新文章

  1. Kaggle知识点:数据扩增方法
  2. 闪电网络运行过程中存在的一些问题
  3. sitemesh排除装饰action的心得
  4. 暑期总结之--c#界面设计作业Mini U-NET(多图杀猫)
  5. WebService入门篇
  6. 如何建立程序代码包的联接?
  7. linux 2.6.36代码构架,Linux 内核笔记(2.6.36)(二)
  8. linux远程登录 密钥,使用密钥认证机制远程登录Linux
  9. Android Wear计时器开发
  10. 洛谷P1074 靶形数独 [搜索]
  11. 设计模式之一:单例模式SingleTon
  12. 会话(状态)管理Cookie与Session(一)
  13. 计算机组成原理(第3版)唐朔飞著 知识点总结
  14. UDS 协议软件架构
  15. GMP认证计算机化系统验证
  16. 算法产品化---人脸识别采集终端的摄像头品质要求
  17. PHP Include文件
  18. 兼职平台java设计_基于jsp的高校兼职平台-JavaEE实现高校兼职平台 - java项目源码...
  19. 双11快速拉新促活,容联云智能客服助力商家提升GMV
  20. 公司“内部管理混乱,工作很难开展”!

热门文章

  1. 谷歌经营之道(How Google Works )
  2. mvc2 手敲几个程序轻松学会springmvc,妈妈再也不用担心我的学习了!
  3. 重试组件 Spring Retry
  4. 魅族 计算机 隐藏,魅族Flyme中隐藏的功能,90%的人都不知道,不用白买了
  5. iOS 有关界面设计规范的一些总结
  6. 基于FPGA的学校打铃器(VHDL)
  7. 谁说理工男不浪漫?电子工程师的恋爱神器
  8. 网络层-B类地址子网划分
  9. mysql的回收站Recycle_bin功能使用
  10. 滁州市专精特新企业认定奖励及材料条件