基于知网语义相似度的中文文本分类研究

1.传统的文本处理大部分是根据词频和逆向文档频率将文本表示成向量空间模型,实践证明这种模型确实简单高效并且得到了广泛应用,但这种模型表示缺乏对语义的理解,忽略了词与词之间的语义信息丢失了很多重要的语义信息。

1.许多学者虽然将知网引入到向量空间模型中,使用知网的知识库计算文本中词语的相似度,但有着各种各样的缺漏,如:没有考虑词语在文本中所占的比重,没有全面考虑义原关系,没有进行词义的消歧等。

1.利用TF-IDF算法计算特征词项权值,并将基于知网的语义相似度计算引入中文文本分类中,运用基于词语消歧的知网语义相似度计算方法,提出加权的文本相似度计算方法。全面综合考虑了特征词项在文本中所占的比重,对文本相似度进行加权处理,提出新的文本相似度计算公式,以提升文本分类的精度。

1.该方法较传统的文本相似度计算方法在文本分类性能上有所提高。

1.知网是我国著名机器翻译专家董振东和董强历经10多年创建的一个知识系统。它以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念所具有的属性之间的关系为基本内容的常识知识库。其由两个主要概念:“概念”和“义原”。“概念”是对词汇语义的一种描述,每个词可以表达为几个概念。而而“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原”。“义原”是用于描述一个“概念”的最小意义单位。根据属性,“义原”被分为三组:“基本义原”用于描述单个概念的语义特征;“语法义原”描述词语语法特征;“关系义原”描述概念和概念之间的关系。知网描述了义原之间的8种关系,其中最重要的是上下位关系,基本义原通过上下位关系组织成一个树状义原层次体系,这是语义相似度计算的基础。

1.消歧:对待分析的文本进行分词和词性标注,去掉句子中的虚词、保留实词,保留词性为名词、动词、形容词等。对于存在歧义的词语,如果词语在该标注的词性下只有一个概念,则直接消歧。如果有多个概念解释,则根据句法分析得到与该词语所有关联的实词。通过依存句法分析提取出歧义词所在句子中预期相关联的实词。将这些实词的所有义项(概念)分解成义原。再对歧义词的义项作同样处理,定义每个义原的初始权重为1.判断歧义词的每个义原与关联词语的某个义原是否存在知网规定的8种义原关系或为相同义原。如果存在关系,则歧义词相应的义原权重加1,最后计算该医院所在义项的权重。

2. 提出一种加权的文本相似度计算方 法。在基于词语消歧、知网语义相似度计算的基础上, 定义一个相似度阈值, 大于这个阈值即认为这两个词 语具有相似性。如果两个文本所具有的相似词语越多, 而且相似词语在文本中的权值越高, 则这两个文本的 相似程度就越高。

1.实验数据采用从新浪、搜狐网站上爬取的 6 000 篇新闻文稿, 分为财经、体育、汽车、娱乐、科技、教育 6 个类别(其中财经、体育、汽车来自搜狐网站, 娱 乐、科技、教育来自新浪网站), 每个类别 1 000 篇文 本, 从 6 000 篇文本中每个类别选取 800 篇文本共计 4 800 篇作为训练集, 其余的 1 200 篇文本(每个类别 200 篇)作为测试集。选用中国科学院计算技术研究所 的 ICTCLAS[14]进行分词, 选取哈尔滨工业大学中文 停用词表[15], 包含767个中文停用词, 采用KNN分类 器, 经过反复测验, K取15时实验效果最佳, 使用CHI 特征选择方法进行特征降维, 特征项权值计算采用 TF-IDF 算法, 词汇相似度阈值定为 0.8。对比实验中, 第一组实验采用传统的文本相似度 计算方法即不考虑语义的文本相似度计算公式进行文 本分类; 第二组实验采用本文所述的基于知网语义相 似度加权的文本相似度计算方法。

2.结果分析:测试集和训练集的比例是1:4, F1值大多处 于 80%左右, 而个别的像汽车、体育等类别其专业术 语较多, 具有较高的区分度, F1 值达到 90%以上。在 表 2 中, F1 值无论是在各个类别上还是在平均值上都 有所提高。这主要是因为在计算文本相似度时充分考 虑了词与词之间的语义关系, 从而提高了文本相似度 计算的准确性, 体现在最终分类的结果上就表现为分 类精度的提高。对于传统分类方法 分类精度相对较低的类别, 例如财经、娱乐、科技、 教育等类别, 使用本文提出的方法其分类精度能得到 改善, 而像体育、汽车等类别, 其分类精度的改善虽不 是很明显但亦有所提升, 这主要是因为其使用传统方 法的分类精度已经很高, 达到 90%以上。

1.该算法的时间复杂度较高,文本分类的处理速度有待提高。

java 知网 语义 相似度,基于知网语义相似度的中文文本分类研究 论文笔记相关推荐

  1. 基于python文本挖掘实战_python实现CNN中文文本分类

    [实例简介] CNN 中文文本挖掘 文本分类 python 深度学习 机器学习 [实例截图] [核心代码] zh_cnn_text_classify-master └── zh_cnn_text_cl ...

  2. textcnn文本词向量_基于Text-CNN模型的中文文本分类实战

    1 文本分类 文本分类是自然语言处理领域最活跃的研究方向之一,目前文本分类在工业界的应用场景非常普遍,从新闻的分类.商品评论信息的情感分类到微博信息打标签辅助推荐系统,了解文本分类技术是NLP初学者比 ...

  3. 《基于机器视觉的输电线路交叉点在线测量方法及技术方案》论文笔记

    <基于机器视觉的输电线路交叉点在线测量方法及技术方案>论文笔记 原文链接:On-line Measurement Method and Technical Scheme of Transm ...

  4. 【文本分类】基于改进TF-IDF特征的中文文本分类系统

    摘要:改进TFIDF,提出相似度因子,提高了文本分类准确率. 参考文献:[1]但唐朋,许天成,张姝涵.基于改进TF-IDF特征的中文文本分类系统[J].计算机与数字工程,2020,48(03):556 ...

  5. 中文文本分类的java包_java实现中文文本分类

    基于libsvm 的中文文本分类原型支持向量机(Support Vector M... 基于SSPP-KELM多标签文本分类算法的实现_电子/电路_工程科技_专业资料.文本数据分类后,根据类标签的个数 ...

  6. python中文文本分析_基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景)...

    基于cnn的中文文本分类算法 简介 参考IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW实现的一个简单的卷积神经网络,用于中文文本分类任 ...

  7. 【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究

    ·阅读摘要:   本文利用BERT的预训练数据,结合CNN,应用于专利分类.由于专利的特性,本文还提出使用多层级方法来增强模型.(文章发表在<中文信息学报>,核心期刊) ·参考文献:    ...

  8. 基于CNN中文文本分类实战

    一.前言 之前写过一篇基于循环神经网络(RNN)的情感分类文章,这次我们换种思路,采用卷积神经网络(CNN)来进行文本分类任务.倘若对CNN如何在文本上进行卷积的可以移步博主的快速入门CNN在NLP中 ...

  9. 基于深度学习模型的电力变压器故障声音诊断方法研究-论文阅读笔记

    基于深度学习模型的电力变压器故障声音诊断方法研究 论文来源 DOI:10.16311/j.audioe.2020.01.020 论文目的 在变压器不停止工作的情况下,基于变压器的三种状态:正常.老化和 ...

最新文章

  1. 学历越高,大脑退化越慢!这项历时7年的研究出结果了
  2. html单选框背景图片,如何更改radio、checkbox选项框背景图?
  3. java float 转double_将float转换为double而不会丢失精度
  4. 数据结构之优先队列--二叉堆(Java实现)
  5. php图片是啥,php图片处理类(附实例)
  6. Hamcrest Matchers,Guava谓词和Builder设计模式
  7. LeetCode 2149. 按符号重排数组(双指针)
  8. Job 存储和持久化 (第二部分)
  9. 以房养老骗局高发,背后套路何在?
  10. Eventbus收录
  11. 【Chrome/插件】Chrome 插件 推荐
  12. 422器件与lvds接收器的区别_TVS管与ESD保护二极管的区别
  13. 载硫酸庆大霉素PLGA纳米粒PNPs(GS修饰PLGA纳米粒)/cRGD修饰PLGA纳米粒的制备方法
  14. 使用freemarker引擎动态生成word文件
  15. 创建标准化工程目录脚本
  16. WordNet相关API介绍及语义相似度计算方法
  17. pandas 筛选数据的 8 个骚操作
  18. 几种机器学习常用调参方式对比(网格搜索,随机搜索,贝叶斯优化)
  19. 解决Vue中重复点击相同路由控制台报错问题
  20. Container with most water(盛水最多的容器)

热门文章

  1. 6. 【containerd】containerd已经停止,containerd-shim还存在?
  2. 1024 发福利,送你一份珍藏依旧的 Java,大数据礼包,确定不收藏 ?拒绝白嫖 !
  3. 想搭建一个专属于你的网站吗??新手向超详细攻略
  4. 云计算是什么 如何分类 有什么
  5. .Net 微信支付集成
  6. 如何在Windows 7中管理操作中心
  7. Programming Rust Fast, Safe Systems Development(译) 错误处理(第七章)
  8. 用Python画樱花树的代码
  9. 用IDEA新建一个工程项目并编写HelloWorld
  10. 飞腾服务器如何查看cpu型号,飞腾cpu怎么样 飞腾cpu简介及对比评测【详解】