【原】文本挖掘—

特征选择有很多方法，看了很多资料后，我总结了以下几种，以后有新内容会随时修改

1.DF——基于文档频率的特征提取方法

概念：DF（document frequency）指出现某个特征项的文档的频率。

步骤：1).从训练语料中统计出保函某个特征的文档频率（个数）

　　 2).根据设定的阈值（min&max），当该特征的DF值小于某个阈值时，去掉。因为没有代表性。当该特征的DF值大于某个阈值时，去掉。因为这个特征使文档出现的频率太高，没有区分度。

优点：降低向量计算的复杂度，去掉部分噪声，提高分类的准确率，且简单易行。

缺点：对于出现频率低但包含较多信息的特征，对分类很重要，去掉会降低准确率

2.IG——信息增益

概念：IG（Information Gain）根据某特征项t(i)能为整个分类提供的信息量来很衡量该特征的重要程度，来决定对该特征的取舍。通俗点，什么是一个特征的信息增益呢，说白了就是有这个特征和没有这个特征对整个分类能提供的信息量的差别。信息量用什么衡量？熵。所以一个特征的信息增益=不考虑任何特征时文档所含的熵-考虑该特征后文档的熵（具体公式等我学会这个博客怎么用公式编辑器后再加上来）

步骤：1.计算不含任何特征整个文档的熵

　　　2.计算包含该特征的文档的熵

　　　3.前者-后者

优点：准，因为你选择的特征是对分类有用的特征（这里需不需要设置阈值？）

缺点：实际情况里，有些信息增益较高的特征出现的频率较低（？跟频率有毛线关系？还是这里也要把所有特征的信息增益算出来然后从高到低排列？可是这根频率也没有关系啊。哦，是跟公式计算有关。这里没写公式，所有有疑问，回头把公式补上，争取用最简单的话描述出来）

解决方法：1).训练语料中出现的所有词的信息增益

　　　　　2).指定阈值。低于阈值的，删。或者指定选择的特征数，把所有特征的信息增益降序排列来选择。

3.CHI——卡方统计量

概念：CHI衡量的是特征项t(i)和C(j)之间的相关联程度。假设t(i)和C(j)之间符合具有一阶自由度的卡方分布，如果特征对于某类的卡方统计值越高，它与该类之间的相关性越大，携带的信息越多，繁殖则越少。

步骤：两种方法：1.计算特征对每个类别的CHI值，在整个语料上分贝找每个类别的最大的值，把这个值设置为阈值，低于阈值的，删。

　　　　　　　　 2.计算个特征对于各类别的平均值，以这个平均值作为各类别的CHI值（为什么要这样做呢？可不可以取中值啥的？这个效果怎么样？）

优点：待补充

缺点：待补充

4.MI——互信息法

概念：MI（mutual information）指互信息，越大，则特征t(i)和C(j)之间共同出现的程度越大，如果两者无关，那么互信息=0。

步骤：两种方法，和CHI一样，最大值方法和平均值法

优点：待补充

缺点：待补充

还有一些其他的，针对中文的，英文的，等等，周一回来补充好了，顺便把公式补上。今晚还要赶火车 = =

【原】文本挖掘——特征选择相关推荐

python文本分类特征选择_文本挖掘之特征选择(python 实现)
机器学习算法的空间.时间复杂度依赖于输入数据的规模,维度规约(Dimensionality reduction)则是一种被用于降低输入数据维数的方法.维度规约可以分为两类: 特征选择(feature ...
浅谈特征选择的原理和Python实现
0.引言在现实世界中,我们总是倾向于收集尽可能多的特征来描述一个事物,以期能够更加全面准确的对其进行刻画.然而,我们了解事物的目的是变化着的,所以并非每一次对事物的刻画都需要所有特征.例如在机器学习 ...
【原】python中文文本挖掘资料集合
这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加: 1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88 ...
现代信息检索(原书第2版)
<现代信息检索(原书第2版)> 基本信息原书名:Modern Information Retrieval:The Concepts and Technology behind Searc ...
【机器学习入门】(12) 特征工程：特征选择、数据降维、PCA
各位同学好,今天我和大家分享一下python机器学习中的特征选择和数据降维.内容有: (1)过滤选择:(2)数据降维PCA:(3)sklearn实现那我们开始吧. 一个数据集中可能会有以下问题: ( ...
python相关性分析特征过滤_特征选择-Filter过滤法后续（相关,互信息法）
3.1.2 相关性过滤方差挑选完毕之后,我们就要考虑下一个问题:相关性了.我们希望选出与标签相关且有意义的特征,因为这样的特征能够为我们提供大量信息.如果特征与标签无关,那只会白白浪费我们的计算内 ...
Feature Selection: A Data Perspective --阅读笔记1 特征选择的概述
摘要 INTRODUCTION Traditional Categorization of Feature Selection Algorithms Feature Selection Algorit ...
中文文本挖掘预处理流程总结
在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结. 1. 中文文本挖掘预处理特点首先我们看看中文文本挖掘预处理 ...
文本挖掘预处理之向量化与Hash Trick
在文本挖掘的分词原理中,我们讲到了文本挖掘的预处理的关键一步:"分词",而在做了分词后,如果我们是做文本分类聚类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Tric ...

【原】文本挖掘——特征选择

【原】文本挖掘——特征选择相关推荐

最新文章

热门文章