特征选择作为常见的降维方法是数据挖掘中的研究热点之一。特征选择时指从原始的特征集合中选取出以某种标准最优的特征子集。其目的就是选出最优的特征子集,进而达到使分类或回归模型更好的预测精度。

一、定义:

特征选择是从N个特征的集合中选出具有M个特征的子集(N>=M).也称为属性简约,可以为满足一些应用再不失去数据的原来的价值的基础上选择最优的属性子集,去除掉了不相关的和冗余的属性。

二、特征选择四要素:

1、搜索的起点和方向。顾名思义,在进行特征选择时,要有选择的起点和方向。搜索方向即评价的特征子集产生的次序,搜索的方向有从空集开始的前向搜索、从全集开始的后向搜索、双向搜索和随机搜索等,

2、搜索策略。特征选择的搜索策略有穷举式搜索、序列搜索、随机搜索。

3、特征评估函数。评价标准在特征选择中有重要作用,是特征选择的依据。评价标准可分为两种:一种是用于单独衡量每个特征的预测能力的评价标准;另一种是用于评价某个特征子集整体预测性能的评价标准。

4、停止原则。停止原则决定什么时候停止搜索,结束算法的执行。一般停止原则有三种,一是执行时间即实现规定了算法的执行时间,二是评价次数即制定算法需要运算多少次,三是设置阈值即给算法目标设置一个评价阈值,通过目标与该阈值的比较决定算法是否停止。

三、特征选择算法的分类:

1、根据在特征选择过程中,特征子集的评价是否用到在决策机器构造过程中所使用的学习算法可以分类三类。

1)Filter(过滤)方法:相关测量法、类间类內距离测量法、信息熵法、检验以及Relief等。

2)Wrapper(包装)方法:在特征选择时依赖具体机器学习算法,它在筛选特征的过程中直接所选特征子集来训练学习器,根据测试集在学习器上的性能表现来评价该特征子集的优劣。

3)Filter和Wrapper组合式方法。

2、根据搜索策略划分特征选择算法可分为三类。

1)采用全局最优搜索特征选择算法。举例:分支界定算法

2)采用随机搜索策略的特征选择算法。举例:基于遗传算法、k近邻分类器特征选择方法、使用算法结合人工神经网络分类器进行特征选择的方法。

3)采用序列搜索策略的特征选择算法。该类特征选择算法可分为:单独最优特征组合、序列前向选择方法、 广义序列向前选择方法、 序列后向选择方法、广义序列后向选择方法、增l去r选择方法、广义增l去r特征选择方法、浮动搜索方法。

四、影响特征权值的因素:

1、词频

文本内中频词往往具有代表性,高频词区分能力较小,而低频词或者稀有出现词也常常可以做为关键特征词。所以词频是特征提取中必须考虑的重要因素,并且在不同方法中有不同的应用公式。

2、词性

文本中的一些虚词,如感叹词、介词、连词等,对于标识文本的类别特性并没有贡献,也就是对确定文本类别没有意义的词。如果把这些对文本分类没有意思的虚词作为文本特征词,将会带来很大噪音,从而直接降低文本分类的效率和准确率。因此,在提取文本特征时,应首先考虑剔除这些对文本分类没有用处的虚词,而在实词中,又以名词和动词对于文本的类别特性的表现力最强,所以可以只提取文本中的名词和动词作为文本的一级特征词。

3、文档频率

出现文档多的特征词,分类区分能力较差,出现文档少的特征词更能代表文本的不同主题。

4、标题

标题是作者给出的提示文章内容的短语,对摘要内容的影响不可忽视。标题的正确识别能在一定程度上提高文摘的质量。

5、位置

首句和末句的权重上可通过统计数字扩大一个常数倍。首段、末段、段首、段尾、标题和副标题、子标题等处的句子往往在较大程度上概述了文章的内容。对于出现在这些位置的句子应该加大权重。

6、语法结构

句式与句子的重要性之间存在着某种联系,比如摘要中的句子大多是陈述句,而疑问句、感叹句等则不具内容代表性。而通常“总之”、“综上所述”等一些概括性语义后的句子,包含了文本的中心内容。

7、专业词库

通用词库包含了大量不会成为特征项的常用词汇,为了提高系统运行效率,系统根据挖掘目标建立专业的分词表,这样可以在保证特征提取准确性的前提下,显著提高系统的运行效率。

8、信息熵

信息熵方法的基本目的是找出某种符号系统的信息量和多余度之间的关系,以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。信息熵是数学方法和语言文字学的结合。我们将可以将信息论中的熵原理引入到特征词权重的计算中。

9、文档、词语长度

一般情况下,词的长度越短,其语义越泛。一般来说, 中文中词长较长的词往往反映比较具体、下位的概念, 而短的词常常表示相对抽象、上位的概念一般说来, 短词具有较高的频率和更多的含义, 是面向功能的;而长词的频率较低, 是面向内容的, 增加长词的权重, 有利于词汇进行分割, 从而更准确地反映出特征词在文章中的重要程度。词语长度通常不被研究者重视。但是本文在实际应用中发现,关键词通常是一些专业学术组合词汇,长度较一般词汇长。

10、词语间关联

11、单词的区分能力

一个词的区分能力是确定该词是否为特征词的关键因素,因此单词的在类內和类间的区分能力是影响特征权值的主要因素。在TF*IDF公式的基础上,又扩展了一项单词的类区分能力。新扩展的项用于描述单词与各个类别之间的相关程度。

12、词语分布偏差

词语分布偏差所考虑的是词语在文章中的统计分布。在整篇文章中分布均匀的词语通常是重要的词汇。

五、常见的特征选择的算法:

1、TF-IDF

单词权重最有效的方法就是TF-IDF。其中TF称为词频,用于计算该词描述文档内容的能力;IDF称为逆文档频率,用于计算该词区别文档的能力。TF-IDF就是建立在这样一条基本假设之上的:在一个文本中出现很多次的单词,在另一个同类文本中出现的次数也会很多,反之亦然。所以如何特徵空间坐标系取TF词频作为测度,就可以体现同类文本的特点,另外还要考虑单词区别不同类别的能力,TF-IDF认为一个单词出现的文本频率越小,它区别不同类别的能力就越大,所以引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度。

2、词频方法(Word Frequyency)

词频是一个词在文档中出现的次数。通过词频进行特征选择就是将词频小于某一个阈值的词删除,从而降低特征空间的维数。这个方法是基于这样一个假设,即出现频率小的词对过滤的影响也比较小。但是在信息检索的研究中认为,有时频率小的词含有更多的信息,因此在特征选择的过程中不宜简单地根据词频大幅度删词

3、文档频次方法(Document Frequency)

文档频率是最为简单的一中特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词,在训练文本集中对每个特征计算它的文档频率,并且根据预先设定的阈值取出那些文档频次特别低和特别高的特征。文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集,计算复杂度较低,能够适用于任何语料,因此是特征降维的常用方法。在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF 值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2 种极端的情况。DF 特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。DF 的优点在于计算量很小,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征选择。

4、互信息(Mutual Information)

互信息衡量的是某个词和类别之间的统计独立关系。互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉熵近似。互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度,如果特征词属于该类的话,它们的互信息量最大。

5、期望交叉熵(Expected Cross Entropy)

交叉熵与信息量的定义相似。交叉熵 ,也称KL距离,它反映了文本主题类的概率分布和在出现了某特定词汇的条件下文本主题类的概率分布之间的距离,词汇w的交叉熵越大,对文本主题类分布的影响也越大。它与信息增益唯一的不同之处在于没有考虑单词未发生的情况,只计算出现在文本中的特征项。如果特征项和类别强相关, P ( Ci | w )就大,若P( Ci) 又很小的话,则说明该特征对分类的影响大。交叉熵反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离, 特征词t 的交叉熵越大, 对文本类别分布的影响也越大。熵的特征选择效果都要优于信息增益。

6、二次信息熵(QEMI)

将二次熵函数应用于互信息评估方法中,取代互信息中的Shannon熵,就形成了基于二次熵的互信息评估函数。基于二次熵的互信息克服了互信息的随机性,是一个确定的量,因此可以作为信息的整体测度,另外它还比互信息最大化的计算复杂度要小,所以可以比较高效地用在基于分类的特征选取上。

7、CHI统计方法

CHI 统计方法是度量词条和文档类别之间的相关程度的统计测试方法,其最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。

X2统计量用于度量特征w和主题类C之间的独立性。而表示除w以外的其他特征,C表示除C以外的其他主题类,当特征w和主题类C之间完全独立的时候,X2统计量为0。X2统计量和互信息的差别在于它是归一化的统计量,但是它对低频特征的区分效果也不好。X2 统计得分的计算有二次复杂度, 相似于互信息和信息增益。在 X2 统计和互信息之间主要的不同在于 X2 是规格化评价, 因而 X2 评估分值对在同类中的词是可比的, 但是 X2 统计对于低频词来说是不可靠的。利用X2 统计方法来进行特征抽取是基于如下假设:在指定类别文本中出现频率高的词条与在其他类别文本中出现频率比较高的词条,对判定文档是否属于该类别都是很有帮助的.

8、信息增益方法(Information Gain)

信息增益方法是机器学习的常用方法,在过滤问题中用于度量已知一个特征是否出现于某主题相关文本中对于该主题预测有多少信息。通过计算信息增益可以得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征。

9、遗传算法(Genetic Algorithm, GA)

遗传算法是一种通用型的优化搜索方法,它利用结构化的随机信息交换技术组合群体中各个结构中最好的生存因素,复制出最佳代码串,并使之一代一代地进化,最终获得满意的优化结果。在将文本特征提取问题转化为文本空间的寻优过程中,首先对Web文本空间进行遗传编码,以文本向量构成染色体,通过选择、交叉、变异等遗传操作,不断搜索问题域空间,使其不断得到进化,逐步得到Web文本的最优特征向量。

10、模拟火腿算法(Simulating Anneal,SA)

模拟退火算法来源于固体退火原理, 其实也是一 种贪心算法, 但是它的搜索过程引入了随机因素。模拟退火算法以一定的概率来接受一个比当前解要差的解, 因此有可能会跳出这个局部的最优解, 达到全局的最优解。

数据挖掘中特征选择算法的基本综述相关推荐

  1. 数据挖掘中聚类算法概述

    1 聚类方法概述 聚类方法是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程被成为聚类.由聚类所组成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此类似,与其他簇中的对象相异.在许多应 ...

  2. 数据挖掘中分类算法小结

    数据挖掘中分类算法小结   数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势 ...

  3. 大数据基础课11 让你一看就懂的数据挖掘四大经典算法

    上一讲,我们从流程上介绍了数据挖掘,而在整个数据挖掘实施的流程中,数据挖掘算法可能是我们的算法工程师最关注的环节.在常见的数据挖掘过程中,通常会用到什么类型的算法,不同的算法又应对什么样的问题?在实际 ...

  4. 深度学习在轨迹数据挖掘中的应用研究综述

    深度学习在轨迹数据挖掘中的应用研究综述 人工智能技术与咨询 来源:< 计算机科学与应用> ,作者李旭娟等 关键词: 深度学习:数据挖掘:轨迹挖掘:长短时记忆:序列到序列 摘要: 在过去十年 ...

  5. ML之FE:机器学习算法/数据挖掘中特征选取(变量筛选)的简介、常用方法(单变量分析并筛选—Filter/Wrapper/Embedded、多变量间相关性分析并筛选—PCC/MIC/IV)之详细攻略

    ML之FE:机器学习算法/数据挖掘中特征选取(变量筛选)的简介.常用方法(单变量分析并筛选-Filter/Wrapper/Embedded.多变量间相关性分析并筛选-PCC/MIC/IV)之详细攻略 ...

  6. 数据挖掘中的十个著名算法

    2006年的ICDM(the IEEE International Conference on Data Mining) 上,评选出了数据挖掘领域的十大算法,分别是 1,C4.5 C4.5是一系列用在 ...

  7. 浅谈关于特征选择算法与Relief的实现

    一. 背景 1) 问题 在机器学习的实际应用中,特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致如下的后果: 1.     特征个数越多,分析特征.训练模型所需的时间就越 ...

  8. 数据挖掘技术的算法与应用读书报告

    数据挖掘作为现在比较有用的支持决策系统的一种手段有着广泛的应用.其有很多种方法,本文主要基于关联规则类等相关问题进行论述.按照挖掘过程进行组织.首先,有数据仓库的建立和数据挖掘的概述.其次是关联规则的 ...

  9. 数据挖掘技术的算法与应用

    研究方向前沿读书报告 数据挖掘技术的算法与应用 目录 第一章 数据仓库... 5 1.1 概论... 5 1.2 数据仓库体系结构... 6 1.3 数据仓库规划.设计与开发... 7 1.3.1 确 ...

  10. python特征选择relieff图像特征优选_基于Relief特征选择算法的研究与应用

    作者姓名导师姓名文献出处论文摘要伴随着当代科学技术的高速发展,人类已经进入了信息爆炸的时代.数据挖掘技术通过从大量数据中揭示出隐含的信息,将海量的高维数据转换为有用的信息和知识.特征选择是数据挖掘中的 ...

最新文章

  1. VMware vSphere四种迁移类型的区别与适应场景
  2. Error during job, obtaining debugging information... FAILED: Execution Error, return code 2 from org
  3. Spring Security和多个过滤器链
  4. spark sql hbase java_Spark 读写 HBase 的两种方式(RDD、DataFrame)
  5. sdut 图的深度遍历
  6. SpringCloud系列十三:Feign对继承、压缩、日志的支持以及构造多参数请求
  7. linux mv时间,简介Linux中cp和mv搭配{,}在shel_l当中的用法
  8. Android内存优化2 了解java内存分配 2
  9. (转)思科VPP源码分析(feature机制分析)
  10. 实战!Servlet简单实践,完成上次的任务
  11. 磊科Q3刷236W 免交换机双拨
  12. torch.stft()与librosa.stft()的对比
  13. 小车PWM调速-串口控制
  14. 一个屌丝程序猿的人生(八十三)
  15. poj-2905 The Pilots Brothers' refrigerator
  16. IOS直播平台开发简单的队列效果实现
  17. WEB攻防-JavaWeb项目
  18. blur事件与click事件的冲突
  19. State Threads 回调终结者
  20. 4Gwifi无线远程非接触红外测温传感器mqtt/http推送数据

热门文章

  1. 读《林锐-我的大学十年》
  2. 如何修改pop3服务器地址,win7如何配置pop3服务器地址
  3. Unity编辑器扩展工具Shader Forge和Behavior Designer(行为树)和 Cinema Director
  4. 三张图看懂 clientheight、offsetheight、scrollheight
  5. html缎带按钮,6款丝带蝴蝶结系法图解_乌托家家居网
  6. 基于MATLAB OCR的发票识别系统
  7. linux开源监控工具,十款开源免费监控软件
  8. php前台切图,php网页切图/js切图
  9. [转]中国著名黑客你知道多少?
  10. 收银系统 mysql数据库_解决哗啦啦收银系统数据库备份问题