(转载请注明出处,作者:finallyliuyu)

前言:

经了解,园子里有很多已经工作,但是对信息检索和自然语言处理感兴趣的同仁,也有很多相关领域的从业者。目前本人正在从事文本特征选择方面的研究。所以打算写一系列有关此方向的科普型博客,和大家分享见解。也希望在算法的理解方面和业内人士多多交流。

此系列的计划是介绍各种特征词选择方法,参考自Yiming Yang 1997年的论文"A comparative Study on Feature Selection in TextCategorization"。

更确切地说是采用中文语料库(语料库来源:搜狗开放语料库 要特此对搜狗实验室的无私奉献表示感谢)对Yiming Yang此篇论文中的见解进行实际验证。

陆游有一句诗"纸上得来终觉浅,觉知此事要躬行"。所以才有了此系列博客。此系列博客将不仅介绍各种特征词选择算法的效率,还会提供已经处理好的语料库(libsvm数据格式 注语料库使用者请注明语料来源:网友finallyliuyu提供 )供研究者,学习者下载。写此博客有两个目的:一:像我一样的初级学习者,不用在耗尽眼力从黑白色的教科书、论文中那些没有颜色区分的图中寻找关于各种特征词选择方法效率的蛛丝马迹了。在这一系列博文中,你将看到彩色的图片,得到对此类问题的第一手直观的理解。更重要的,你也有下载语料库,自己调用libsvm分类,调用matlab画图,来体验下各种特征词选择算法的"魅力"。二。我们也有开源的libsvm格式数据,以后的libsvm初级使用者,将不再只局限于它的网站上给出的那些分类材料。三,所有的语料库由于博客园上传能力有限,将放在csdn下载频道,无任何积分即可下载

鉴于本人理工科背景出身,且文笔拙劣,有叙述不清楚的地方,希望大家指正。同时也希望和欢迎大家对我的博客内容提出异议,批评和指正。

(一) 特征词选择是否有用?

有人(包括我自己在内)曾怀疑那些所谓的特征词选择算法是否真的能在减少特征维度的前提下保持或提高分类准确率?是不是特征词数目越多分类准确率越高?

请看如下几张图表。

N:代表文档集规模,M代表特征维数

不采用任何特征词选择算法,从词袋子中顺序取M个词作为特征词的5折交叉验证准确率曲线如下图(1,2)

图三运用IG法选取M维特征词

从图1,图2可以看出  :

从上面两幅图可以看出:在顺序选取M个特征词(即先从第一类形成的词袋子中选词,若M>第一类形成的词袋子中的词的总数,余下的部分从第二类形成的词袋子中选)的时候,i)最低分类准确率在50%以上。这个不难理解,因为最坏的情况是所选择的M个特征词都在第一类训练文档集所形成的词袋子中那么这些词能够保证对属于第一类的测试文档有良好的预测作用;ii)随着特征词数目的增加,分类准确率总体呈上升趋势,理由“i)”中的分析,但是总体准确率不高,在特征维数为3000的时候,最高准确率为(91 +-1)%。

从图3可以看出:

特征词选择算法是有效的,经过特征词选择算法,选取的特征词能够使分类准确率得到提高 ;并不是特证词维数越高,分类准确率越高。从图2可以看出,当文档集规模》200时,分类准确率随着特征词维数的增加呈平稳下降趋势。

文本分类中的特征词选择算法系列科普(前言AND 一)相关推荐

  1. 从文本分类问题中的特征词选择算法追踪如何将数学知识,数学理论迁移到实际工程中去...

    博文转载请注明作者和出处(作者:finallyliuyu :出处博客园) 附:<卡方特征词选择算法> <DF特征词选择算法> 一.数学背景 将数学知识.数学理论以及数学思想迁移 ...

  2. 文本分类中的文本特征表示

    Introduce 文本话题分析文本分类的一个应用领域,主要是针对文本表现的主题的划分.目前,针对文本话题分类的研究还是很热的,主要包括微博,知乎等大型话题社区,论坛类网站.之前知乎针对该问题在著名的 ...

  3. 公开课报名 | 那些年,我们在文本分类中遇到的坑

    文本分类问题是企业在 NLP 领域中处理文本数据时经常会遇到的一个问题,很多时候,我们需要将文本信息进行分类,或提相关的接口以供外部进行文本上传,在针对于用户所上传的文档信息就需要进行文档内容的分类, ...

  4. EMNLP 2021 | 多标签文本分类中长尾分布的平衡策略

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者 | 黄毅 作者简介:黄毅,本文一作,目前为罗氏集团的数据科学家 ...

  5. 【自然语言处理】词袋模型在文本分类中的用法

    词袋模型在文本分类中的用法 1.加载数据 20 Newsgroups:数据被组织成 20 个不同的新闻组,每个新闻组对应一个不同的主题.一些新闻组彼此非常密切相关(例如 comp.sys.ibm.pc ...

  6. paddle2.0高层API实现自定义数据集文本分类中的情感分析任务

    paddle2.0高层API实现自定义数据集文本分类中的情感分析任务 本文包含了: - 自定义文本分类数据集继承 - 文本分类数据处理 - 循环神经网络RNN, LSTM - ·seq2vec· - ...

  7. label-embedding在文本分类中的应用

    ©PaperWeekly 原创 · 作者|蔡杰 学校|北京大学硕士生 研究方向|QA 最近在做文本分类相关的工作,目标是想提高分类器泛化新样本的能力,当有新样本产生的时候能够不需要重新训练分类器.所以 ...

  8. C++ text search文本检索在较长的文本段落中搜索单词的算法(附完整源码)

    C++ text search文本检索在较长的文本段落中搜索单词的算法 C++ text search文本检索在较长的文本段落中搜索单词的算法完整源码(定义,实现,main函数测试) C++ text ...

  9. FastText文本分类中的n-grams

    FastText文本分类中的n-grams FastText FastText模型结构 FastText n-grams n-grams如何计算 FastText FastText是facebook ...

最新文章

  1. jQuery 入门教程(1): 概述
  2. Coding:C++类定义实现部分成员函数
  3. postman下载教程linux,linux 安装postman
  4. shiro前后端分离_为什么要前后端分离?前后端分离的优点是什么?
  5. 更改span标签样式_CSS 内嵌样式
  6. python设置堆大小_Python中的堆问题
  7. 国家集训队2011 happiness
  8. scikit-learn——快速入门 - daniel-D(转)
  9. 速更新!流行的开源邮件客户端 Mozilla Thunderbird 91.3修复多个高危缺陷
  10. 【Flutter】Dart的类方法和对象操作符
  11. AI 大规模分布式SGD:瞬间训练完基于ImageNet的ResNet50
  12. 移动机器人路径规划算法综述(二)
  13. 中国电科发布新型智慧城市顶层设计
  14. Eclipse中Folder和SourceFolder
  15. Xshell “所选的用户密钥未在远程主机上注册,请再试一次”SSH 登录远程linux服务器(良心整理)
  16. 小米2s、2sc解激活锁和root
  17. 黑马JAVA P121 时间日期:Date、SimpleDateformat、Calendar
  18. WINDOWS备份与恢复
  19. Bert 得到中文词向量
  20. MATLAB科学绘图-MATLAB画图技巧与实例(一):常用函数

热门文章

  1. Android中使用HttpClient实现HTTP通信效果
  2. java后台常见问题
  3. 题解:一些递推的题。
  4. 安卓.点击头像--编辑个人姓名--提交后.同时调用js关闭页面--返回上一层
  5. Apache以及PHP的默认编码问题解决(详解)
  6. 分析ip流量的python脚本
  7. 原来,爱情是与旁观者有关的。。。
  8. JQiery选择器中的表单元素
  9. typescript基本类型demo
  10. Iterator 遍历器的简单使用