词语相似度分析(《知网》、同义词词林、word2vec)

本篇对刚刚接触词语相似度分析的小白提供一个方向

词义相似度计算方法分两种,一种是基于世界知识或某种分类体系的方法,例如基于《知网》、同义词词林的。;另一种是基于统计的上下文向量空间模型方法,例如word2vec此类工具。
1.基于世界知识或某种分类体系的方法
(1)基于《知网》。推荐《基于《知网》的词汇语义相似度计算》 与 《基于语义理解的文本相似度算法》两篇论文。后者是在前者的基础上进行补充和改进,给出了词语与词语、句子与句子、段落于段落的相似度分析方法。主要根据组成不同概念的义原在义原层次结构树中所处的位置深度来对其相似度进行计算。
(2)基于同义词词林。推荐《基于同义词词林的词语相似度计算方法》与上述所使用的知识库不同。同义词词林不仅考虑词语的词义相似性还考虑来了词语的相关程度,例如“学习”与“拜师”词义相似度较低,但是却有很强的相关性。
2.基于统计的上下文向量空间模型方法
这就提到了“词向量”这一关键词。词向量用通俗的话解释就是,让某一个单独的词呈现在一个与所提供文本有关的空间中。其坐标不仅代表其位置,还能够通过与其他词的远近距离体现出与其他词语的相似程度。而这个空间与改词所在的语料有关,这个词向量也与该词所处的上下文有关。
word2vec是应用此方法进行词义相似度分析的工具。可以根据某词上下文分析出该词的可能值,也可以根据该词分析得出可能的上下文。简单的来说就是,在对“我爱北京”的分析后,对于“我喜欢北京”其可以认为“喜欢”与“爱”同义词。但是与上述方法1不同,这些分析都与所提供的语料有关,不同的语料得出的结果也不同。而方法一中,只要基于相同的知识库,无论给出什么文本,其对某两词的分析结果都应该是一致的。
可以根据自己的需要选择适合的工具进行相似度的分析计算

词语相似度分析(《知网》、同义词词林、word2vec)相关推荐

  1. 同义词词林 java_基于同义词词林扩展版的词语相似度计算

    词语相似度计算 词义相似度计算在很多领域中都有广泛的应用,例如信息检索.信息抽取.文本分类.词义排歧.基于实例的机器翻译等等.国内目前主要是使用知网和同义词词林来进行词语的相似度计算. 本文主要是根据 ...

  2. java 知网 语义 相似度,基于知网语义相似度的中文文本分类研究 论文笔记

    基于知网语义相似度的中文文本分类研究 1.传统的文本处理大部分是根据词频和逆向文档频率将文本表示成向量空间模型,实践证明这种模型确实简单高效并且得到了广泛应用,但这种模型表示缺乏对语义的理解,忽略了词 ...

  3. CiteSpace的入门学习,分析知网文献与web of science

    毕业的时候,我们总是要写文献. 算了不废话了,直接开始教程,我们学习的东西,就是CiteSpace,我只是单纯的把老师将的东西,在这个上面展示,管你听没听懂,看就完事! 我们先安装这个文件,我提供了, ...

  4. 词语相似度计算方法总结

    词语相似度方法 本文是作者参看相关资料的简单总结,具体内容的链接可以参看下文的参考链接. 词语相似度计算在很多领域中都有广泛的应用,如信息检索.信息抽取.文本分类.机器翻译等方面.目前常用的词语相似度 ...

  5. 知网关键词搜索爬取摘要信息

    知网关键词搜索爬取摘要信息 由于技术不成熟,代码冗余度较高.同时代码也可能会存在错误,也请各路高人指正. 本篇文章应用范围为期刊搜索(不包括外文文献),其他内容,没有进行测试!!! 本次爬虫所采用到的 ...

  6. 知网等数据库文献快速直接导入EndNote的方法

    这个方法的前提是了解 EndNote 的一个机制:使用 EndNote 打开 txt 或 pdf 文件时,EndNote 会自动解析并尝试将文件导入到 EndNote 中,而用 EndNote 打开文 ...

  7. 基于多重继承与信息内容的知网词语相似度计算 - 论文及代码讲解

    文章目录 概念 example.py HybridSim.py howNet.py 论文:<基于多重继承与信息内容的知网词语相似度计算>-2017-张波,陈宏朝等 查看 代码:https: ...

  8. python根据词向量计算相似度_基于词向量的词语间离和句子相似度分析

    基于词向量的词语间离和句子相似度分析 苟瀚文 1 苟先太 2 [摘 要] 分析了词向量在自然语言处理中的作用.使用已经训练好的词向量进 行了简单类比推理.词语间离和句子相似度分析.给出一种结合词向量和 ...

  9. python 语义similarity_GitHub - samelltiger/word_similarity: 基于《知网》的语义相似度计算 python2.7 API...

    基于<知网>的语义相似度计算 python2.7 API 本项目使用python语言实现根据义原树来计算词语之间的语义相似度,并提供对应的 API. 词语距离有两类常见的计算方法,一种是根 ...

  10. 基于信息内容的词林词语相似度计算 - 论文及代码讲解

    文章目录 论文 同义词林简介 特点 代码 获取词的编码 求IC值 求相似度 选取相似度最大值 论文:<基于信息内容的词林词语相似度计算 >-2018-彭琦,朱新华等 查看 代码:https ...

最新文章

  1. Oxford Nanopore碱基识别(basecalling)软件性能大比拼
  2. 骗子防不胜防,我们该如何安全上网?
  3. Java黑皮书课后题第5章:**5.32(游戏:彩票)修改程序清单3-8,产生一个两位数的彩票。这两位数是不同的
  4. 密码方法三层三级联动
  5. python preference界面设置_偏好设置如何更改Preference的样式
  6. mysql to char 用法_postgresql 中的to_char()常用操作
  7. python序列化模块struct_Python-序列化模块-json-62
  8. 自学stm32的一些个人经验
  9. css3导航渐变 滑过显示动画
  10. python shell常用命令_python 之 shell命令执行
  11. 关于local storage及session storage 应用问题
  12. leetcode探索队列和栈(一)
  13. 对linux课程的体会和看法,我的linux体会和看法
  14. TASKCTL4.1安装选项详解
  15. MT8665原理图芯片资料介绍
  16. 类似于失落之城的解谜游戏都有哪些
  17. 怎么看公司邮箱服务器地址,怎么看企业邮箱是哪里的
  18. 微软官方硬盘备份软件SyncToy
  19. java 拼图游戏_Java学员作品-拼图游戏
  20. 星辉信息科技教程-Centos上silk微信语音转换成mp3格式

热门文章

  1. daemontools的安装、示例、简介
  2. 前端UI配色辅助RGB颜色调色板配色表HTML源码
  3. 物联网平台发展的4个阶段和5个实践案例
  4. mysql经纬度与度分秒转换
  5. Guitar Pro8版本 吉他绘谱创作乐谱
  6. 联想x100e linux,联想小红ThinkPad X100e笔记本拆解!
  7. photoshop下载教程
  8. 小学计算机课动画制作的评课稿,信息技术评课稿
  9. MyQQ project
  10. 计算机用户密码怎么查看,怎么查看电脑开机密码【具体阐明】