【原】文本挖掘——特征选择
特征选择有很多方法,看了很多资料后,我总结了以下几种,以后有新内容会随时修改
1.DF——基于文档频率的特征提取方法
概念:DF(document frequency)指出现某个特征项的文档的频率。
步骤:1).从训练语料中统计出保函某个特征的文档频率(个数)
2).根据设定的阈值(min&max),当该特征的DF值小于某个阈值时,去掉。因为没有代表性。当该特征的DF值大于某个阈值时,去掉。因为这个特征使文档出现的频率太高,没有区分度。
优点:降低向量计算的复杂度,去掉部分噪声,提高分类的准确率,且简单易行。
缺点:对于出现频率低但包含较多信息的特征,对分类很重要,去掉会降低准确率
2.IG——信息增益
概念:IG(Information Gain)根据某特征项t(i)能为整个分类提供的信息量来很衡量该特征的重要程度,来决定对该特征的取舍。通俗点,什么是一个特征的信息增益呢,说白了就是有这个特征和没有这个特征对整个分类能提供的信息量的差别。信息量用什么衡量?熵。所以一个特征的信息增益=不考虑任何特征时文档所含的熵-考虑该特征后文档的熵(具体公式等我学会这个博客怎么用公式编辑器后再加上来)
步骤:1.计算不含任何特征整个文档的熵
2.计算包含该特征的文档的熵
3.前者-后者
优点:准,因为你选择的特征是对分类有用的特征(这里需不需要设置阈值?)
缺点:实际情况里,有些信息增益较高的特征出现的频率较低(?跟频率有毛线关系?还是这里也要把所有特征的信息增益算出来然后从高到低排列?可是这根频率也没有关系啊。哦,是跟公式计算有关。这里没写公式,所有有疑问,回头把公式补上,争取用最简单的话描述出来)
解决方法:1).训练语料中出现的所有词的信息增益
2).指定阈值。低于阈值的,删。或者指定选择的特征数,把所有特征的信息增益降序排列来选择。
3.CHI——卡方统计量
概念:CHI衡量的是特征项t(i)和C(j)之间的相关联程度。假设t(i)和C(j)之间符合具有一阶自由度的卡方分布,如果特征对于某类的卡方统计值越高,它与该类之间的相关性越大,携带的信息越多,繁殖则越少。
步骤: 两种方法:1.计算特征对每个类别的CHI值,在整个语料上分贝找每个类别的最大的值,把这个值设置为阈值,低于阈值的,删。
2.计算个特征对于各类别的平均值,以这个平均值作为各类别的CHI值(为什么要这样做呢?可不可以取中值啥的?这个效果怎么样?)
优点:待补充
缺点:待补充
4.MI——互信息法
概念:MI(mutual information)指互信息,越大,则特征t(i)和C(j)之间共同出现的程度越大,如果两者无关,那么互信息=0。
步骤:两种方法,和CHI一样,最大值方法和平均值法
优点:待补充
缺点:待补充
还有一些其他的,针对中文的,英文的,等等,周一回来补充好了,顺便把公式补上。今晚还要赶火车 = =
【原】文本挖掘——特征选择相关推荐
- python文本分类特征选择_文本挖掘之特征选择(python 实现)
机器学习算法的空间.时间复杂度依赖于输入数据的规模,维度规约(Dimensionality reduction)则是一种被用于降低输入数据维数的方法.维度规约可以分为两类: 特征选择(feature ...
- 浅谈特征选择的原理和Python实现
0.引言 在现实世界中,我们总是倾向于收集尽可能多的特征来描述一个事物,以期能够更加全面准确的对其进行刻画.然而,我们了解事物的目的是变化着的,所以并非每一次对事物的刻画都需要所有特征.例如在机器学习 ...
- 【原】python中文文本挖掘资料集合
这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加: 1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88 ...
- 现代信息检索(原书第2版)
<现代信息检索(原书第2版)> 基本信息 原书名:Modern Information Retrieval:The Concepts and Technology behind Searc ...
- 【机器学习入门】(12) 特征工程:特征选择、数据降维、PCA
各位同学好,今天我和大家分享一下python机器学习中的特征选择和数据降维.内容有: (1)过滤选择:(2)数据降维PCA:(3)sklearn实现 那我们开始吧. 一个数据集中可能会有以下问题: ( ...
- python相关性分析特征过滤_特征选择-Filter过滤法后续(相关,互信息法)
3.1.2 相关性过滤 方差挑选完毕之后,我们就要考虑下一个问题:相关性了.我们希望选出与标签相关且有意义的特征,因为这样的 特征能够为我们提供大量信息.如果特征与标签无关,那只会白白浪费我们的计算内 ...
- Feature Selection: A Data Perspective --阅读笔记1 特征选择的概述
摘要 INTRODUCTION Traditional Categorization of Feature Selection Algorithms Feature Selection Algorit ...
- 中文文本挖掘预处理流程总结
在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结. 1. 中文文本挖掘预处理特点 首先我们看看中文文本挖掘预处理 ...
- 文本挖掘预处理之向量化与Hash Trick
在文本挖掘的分词原理中,我们讲到了文本挖掘的预处理的关键一步:"分词",而在做了分词后,如果我们是做文本分类聚类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Tric ...
最新文章
- IndexError: too many indices for array
- [architecture]-DMB、DSB 和 ISB指令的深度解读
- Nslookup 命令使用浅析
- android intent和intent action大全
- 换发型算法_GitHub - fredliu168/yry: yry(颜如玉)—— 一个实现人脸融合的算法,可以接近腾讯天天P图疯狂变脸功能的效果...
- php 日期时间运算的小结(计算当前时间之后(之前)的时间)
- 2440 linux文件写,添加yaffs2文件系统 - Linux2.6.39在S3C2440上的移植_Linux编程_Linux公社-Linux系统门户网站...
- python测试抽奖脚本_B站动态转发抽奖脚本+教程
- [C#]System.Timers.Timer
- (0.2.2)如何下载mysql数据库(二进制、RPM、源码、YUM源)
- 谷歌放弃火狐的谷歌工具栏产品
- caniuse-lite is outdated. Please run next command `npm update caniuse-lite browserslist`
- 企业电子邮箱怎么写?企业邮箱登录入口是什么?
- 百度地图获取规划路径信息
- 2022强国杯初赛部分题目
- 【图书】前端工程化:体系设计与实践
- 查询天气的接口api收集总结
- NT151应用案例:西门子PLC S7-1200与派克ACR9000的通信(Part 3)
- AUTOSAR DiagnosticLogAndTrace DLT(三)-- 消息的发送、DLT命令的发送与接收
- Java课后题第十二章:12.18(添加包语句)
热门文章
- 鸿蒙手机发布失败,华为:没有推出鸿蒙手机计划,「自拍」会让人觉得你孤独和失败...
- 计算机一级2016版本ms,2016计算机等级一级《MS Office》试题与答案
- python中初始化方法_Python中类的初始化特殊方法
- dll文件懒加载_dll编写与使用操作手册
- Django讲课笔记08:定义商城的数据模型
- 《天天数学》连载35:二月四日
- Linux学习笔记:安装CentOS与Linux常用命令
- 安卓学习笔记21:常用控件 - 列表视图
- 【BZOJ2584】memory,扫描线+拓扑图+骗
- 1.极限——例子_4