【文本分类】采用同义词的改进TF-IDF权重的文本分类
·摘要:
尝试使用相似词之间的关联性,来改变TF-IDF权重,依次改进普通TF-IDF文本分类算法的精确度,失败。
·参考文献:
[1]但唐朋,许天成,张姝涵.基于改进TF-IDF特征的中文文本分类系统[J].计算机与数字工程,2020,48(03):556-560.
[2]任姚鹏,陈立潮,张英俊,袁英.结合语义的特征权重计算方法研究[J].计算机工程与设计,2010,31(10):2381-2383+2387.DOI:10.16208/j.issn1000-7024.2010.10.022.
[3]田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报(信息科学版),2010,28(06):602-608.
[1] 基于改进TF-IDF特征的中文文本分类系统
论文提出了一种改进计算TF-IDF权重的算法,提出了一个a因子乘上原TF-IDF公式,a因子是根据特征词之间的相似度关系得到的,而词语相似度是基于“知网”计算的。详细情况可以参考上一篇博客:【文本分类】基于改进TF-IDF特征的中文文本分类系统
[注一]:基于“知网”来实现词语相似度之间的计算,需要Linux平台,暂时不好实现;
[注二]:本篇论文的实验结果显示,改进方法只比传统TF-IDF好一点点。我通过代码复现,发现只要在传统的TF-IDF公式上给TF(即词频)开方,在特征词在万以内,精确度就会比传统好1.4%左右。所以这篇论文的实验结果并不能表明是a因子提升了精确度,有99%的可能是因为加了平方根。
[2] 结合语义的特征权重计算方法研究
论文提出一种改进TF-IDF权重的方法,应用于文本聚类,对于文本分类具有参考价值。
论文主要改进IDF(逆文档频率),把计算IDF公式中的DF(文档频率)计算方式加以改进。传统DF就是在所有文本中特征词t出现过的文本数量,改进DF是在所有文本中特征词t与它的相似词出现过的文本数量的平均数。
特征词之间的相似关系,基于“知网”来实现。
[注一]:基于“知网”来实现词语相似度之间的计算,需要Linux平台,暂时不好实现;
[注二]:将此改进权重应用于文本分类,采用同义词词林来做词语相似度计算,效果不明显。
[3] 基于同义词词林的词语相似度计算方法
《同义词词林》是梅家驹等人于1983年编纂而成,哈工大完成了一部具有汉语大词表的哈工大信息检索研究室《同义词词林扩展版》,《同义词词林扩展版》收录词语近7万条。
《同义词词林扩展版》不仅包括近义词,还包括同类词、关联词。
对于一类相似词语,具有一个指定的编码,编码表如下:
对于输入的两个词a、b,使用一定的算法,对a、b两个词的编码进行相似度计算,计算结果在[0,1]。计算结果越大表示越相似。
实验思路
【文本分类】采用同义词的改进TF-IDF权重的文本分类相关推荐
- tf-idf词向量和bow_使用词袋Bow和TF IDF进行多标签分类
tf-idf词向量和bow 1.加载数据 (1. Load the data) For this study, we are using Kaggle data for Toxic Comment C ...
- 搜索引擎:文本分类——TF/IDF算法
原理 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.TFIDF实际上是:TF * IDF,TF ...
- 使用lingpipe自然语言处理包进行文本分类/** * 使用 lingpipe的tf/idf分类器训练语料 * * @author laigood */ public class trai
/** * 使用 lingpipe的tf/idf分类器训练语料 * * @author laigood */ public class traintclassifier { //训练语料文件 ...
- 【文本分类】基于类信息的TF-IDF权重分析与改进
摘要:改进TFIDF,增加了类间因子.类内因子,应用于文本的特征选择,提高了精度 . 参考文献:[1]姚严志,李建良.基于类信息的TF-IDF权重分析与改进[J].计算机系统应用,2021,30(09 ...
- 文本特征抽取的向量空间模型(VSM)和TF/IDF方法
文本特征抽取 两组小说,一组是爱情的,另一组是科幻的.我们能否用支持向量机训练一个模型,用来识别小说类型呢? 这个并不容易.因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入.如果用它来做文 ...
- 【文本分类】基于改进TF-IDF特征的中文文本分类系统
摘要:改进TFIDF,提出相似度因子,提高了文本分类准确率. 参考文献:[1]但唐朋,许天成,张姝涵.基于改进TF-IDF特征的中文文本分类系统[J].计算机与数字工程,2020,48(03):556 ...
- 【文本分类】基于改进CHI和PCA的文本特征选择
摘要:改进CHI算法后,结合PCA算法,应用于文本的特征选择,提高了精度. 参考文献:[1]文武,万玉辉,张许红,文志云.基于改进CHI和PCA的文本特征选择[J].计算机工程与科学,2021,43( ...
- 关键词提取算法—TF/IDF算法
关键词提取算法一般可分为有监督学习和无监督学习两类. 有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键 ...
- html文本分类输出,构建中文网页分类器对网页进行文本分类
网络原指用一个巨大的虚拟画面,把所有东西连接起来,也可以作为动词使用.在计算机领域中,网络就是用物理链路将各个孤立的工作站或主机相连在一起,组成数据链路,从而达到资源共享和通信的目的.凡将地理位置不同 ...
- 文本分类 决策树 python_NLTK学习笔记(六):利用机器学习进行文本分类
关于分类文本,有三个问题 怎么识别出文本中用于明显分类的特征 怎么构建自动分类文本的模型 相关的语言知识 按照这个思路,博主进行了艰苦学习(手动捂脸..) 一.监督式分类:建立在训练语料基础上的分类 ...
最新文章
- 「android」查看应用占用cpu和内存消耗情况
- [LeetCode]Perfect Squares
- C++继承中父类和子类之间的赋值兼容
- springboot 使用webflux响应式开发教程(一)
- C语言位运算,醍醐灌顶式教学
- 这是一则计算机视觉顶级会议CVPR与腾讯的爆闻,啥?
- 需求分析——使用类图建模
- 【变色龙】app封装系统源码+完美版在售封装系统
- taskkill 命令:
- 硅谷新一代媒体巨头Mode Media突然宣布关闭
- If,for,range混合使用笔记-(VBA视频教程2:使用IF进行逻辑判断)
- CSS Hack(兼容ie8一下的浏览器)
- 飞信2009_AfterShip CTO 洪小军—我的移动互联网十年造梦记:飞信时代
- 【爬虫】花瓣图片爬虫,Python图片采集下载源码
- 手把手教你开发红外遥控器
- 自制可运行pe的iso
- 社群空间站一键发布微信群精品优质社群的搜索和发布平台源码
- 【javaweb简单教程】1.搭建Web环境、初识JSP
- Windows服务简介(转)
- 有道云笔记转CSDN博客