在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法:

互信息

  一个常用的方法是计算文档中的词项t与文档类别c的互信息MI,MI度量的是词的存在与否给类别c带来的信息量。

卡方是基于显著统计性来选择特征的,因此他会比MI选出更多的罕见词项,而这些词项对分类并不靠谱。

  虽然卡方和互信息的出发点不同,但它们的准确性却相差不多,因为大部分文本分类问题中,只有很少的强特征,大部分都是弱特征。只要所有的强特征和很多弱特征被选出,那么分类的准确率就不会低。

  另外上面介绍的两种特征选择主要用于文本的分类等用监督学习,而不适宜聚类等无监督学习,因为聚类我们不知道每篇文档属于的类别,也就无从计算互信息和卡方值,这时一般使用TF-IDF作为特征词的选取方法。

参考:http://blog.csdn.net/leiting_imecas/article/details/52233137

互信息 卡方 - 文本挖掘相关推荐

  1. Scikit-learn学习系列 | 4. sklearn特征降维方法汇总(方差过滤,卡方,F过滤,互信息,嵌入法)

    如有错误,恳请指出. 以下内容整理自专栏:博主"文火冰糖的硅基工坊"的专栏--机器学习与scikit-learn,对部分的文章的简化与整理. 文章目录 1. 常见的降维方法简介 1 ...

  2. python 特征选择卡方_特征选择

    2020-01-10 皮尔逊相关系数 image.png 衡量线性相关性,检查数据集里目标和数值特征之间皮尔逊相关系数的绝对值.根据这个准则保留前n个特征.def cor_selector(X, y, ...

  3. python实现卡方(Chi-Squared Test)相关性检验

    python实现卡方(Chi-Squared Test)相关性检验 独立性检验是统计学的一种检验方式,与适合性检验同属于X2检验,即卡方检验(英文名:chi square test),它是根据次数资料 ...

  4. R卡方独立性检验(Chi-Square Test of Independence)

    R卡方独立性检验(Chi-Square Test of Independence) 目录 R卡方独立性检验(Chi-Square Test of Independence) R卡方独立性检验 数据创建

  5. java矩阵传递给r_从JAVA调用R得到卡方统计和p值

    我在JAVA中有两个4 * 4矩阵,其中一个矩阵包含观察计数和其他预期计数. 我需要一种自动的方法来计算这两个矩阵之间的卡方统计量的p值; 但是,就我所知,JAVA没有这样的功能. 我可以通过将两个矩 ...

  6. 卡方 matlab,matlab卡方分布 卡方检验(Chi-square test)及其MATLAB实现 - 余姚娱乐网

    拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据.独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题. 2.卡方检验的应用条件 四格表: 1 ...

  7. UA MATH566 统计理论 推导卡方拟合优度检验

    UA MATH566 统计理论 推导卡方拟合优度检验 卡方拟合优度检验主要是检验categorical data的,假设一共有ddd种category,每一种理论比例为pip_ipi​,满足 ∑i=1 ...

  8. 【数据处理】python变量分箱常见手法:分类型、数值型、卡方、自定义

    """ 分箱逻辑:1.类别型特征: 1)类别数在5个以下,可以直接根据类别来分箱 (binning_cate) 2)类别数在5个以上,建议做降基处理,再根据降基后的类别做 ...

  9. python评分卡建模-卡方分箱(2)之代码实现

    卡方值计算 计算卡方值的函数需要输入numpy格式的频数表.对于pandas数据集,只需使用pd.crosstab计算即可,例如变量"总账户数" 与 目标变量 "是否坏客 ...

最新文章

  1. 500分求助,delphi里用standred来配置dbf文件
  2. 《食堂远程下单系统》需求规格说明书
  3. 洛谷P1246C语言,codevs1246 丑数
  4. 分别安装搭建lamp服务环境
  5. Html之实例练习(轮播图片、放大镜效果、面板拖动)
  6. VSCode远程链接Could not establish connection to “hz.matpool.com”
  7. CodeBlock:Process terminated with status1073741510
  8. 计算机信息处理工具教案设计,高一信息技术《现代信息处理工具》教案
  9. 商业银行会计学个人笔记
  10. Python字典:选手统计票数和姓名进行排序
  11. Rhythmbox乱码的解决办法
  12. android8虚拟键布局,Android 虚拟按键在不同版本上的位置问题
  13. Python机器学习应用之监督学习-上证指数涨跌预测实例
  14. linux c程序中判断能不能ping,c语言源码ping ip通不通 检测摄像头在不在线 立即返回结果linux...
  15. 四十八个音素发音方法
  16. 高级项目管理师论文写作要点参考
  17. labview 加密VI如何破解密码
  18. Compose 正式发布,来打造一个 Flappy Bird! | 开发者说·DTalk
  19. 视频流媒体服务器中怎么降低直播出现的延迟现象?
  20. 前端开发:npm run serve和npm run dev的区别

热门文章

  1. 剑指offer十:矩形覆盖
  2. python八:列表(list)
  3. 从功能测试到性能测试的转型之路
  4. shell-awk常见用法
  5. CentOS 6.7安装python3.5
  6. sqlserver2000 中文排序问题
  7. 用软件lm_sensors监测Linux系统和CPU温度(转)
  8. 使用JavaScript动态添加复选框Checkbox
  9. C#自定义控件一下拉颜色框
  10. [收藏]Linux下update错误 E: Dynamic MMap ran out of room. 解决方法