文章目录

  • 论文
    • 同义词林简介
    • 特点
  • 代码
    • 获取词的编码
    • 求IC值
    • 求相似度
    • 选取相似度最大值

论文:《基于信息内容的词林词语相似度计算 》-2018-彭琦,朱新华等 查看
代码:https://github.com/yaleimeng/Final_word_Similarity

论文

同义词林简介




将词表保存在new_cilin.txt文件中:

特点

1,父节点包含子节点,是子节点内容的抽象。
2,同一个子节点有多个词语,他们看作同义词。

代码

获取词的编码

HybridSim.py cls.ci_lin.sim2018(w1, w2)函数 --> ciLin.py sim2018(self, w1, w2)

比如把’起重机’(w1)的编码找到:[‘Bo01A’, ‘Bo01A13=’]

对应文件new_cilin.txt


第一个是编码,后面都是同义词。

求IC值

对应函数为self.Info_Content(xx)
IC值代表包含信息的多少,越高层包含信息越少。
对应论文:

可以极值法考虑.
1,根节点,hypo( C)=maxnode, IC=1-1=0。
2,叶子节点,hypo( C)=0,IC=1-0=1。

LCS = self.get_common_str(c1, c2) #找到公共字符串,比如此处为“B”

self.Info_Content(LCS)是求LCS得IC值

求相似度

对应函数:sim_by_IC(c1, c2)

对应论文:

代码和论文有点不一样,但原理相同。

极值法考虑代码公式:
1,两个词处于同一个节点,完全相似,IC(LCS) 非常大,和(IC(w1)+IC(w2))/2相同,最后sim为1
2,两个词完全不同,公共节点在根节点上,IC(LCS)非常小,则结果可能为:0-0.8 +1 = 0.2,sim值为0.2
说明逻辑正确。

选取相似度最大值

基于信息内容的词林词语相似度计算 - 论文及代码讲解相关推荐

  1. 基于多重继承与信息内容的知网词语相似度计算 - 论文及代码讲解

    文章目录 概念 example.py HybridSim.py howNet.py 论文:<基于多重继承与信息内容的知网词语相似度计算>-2017-张波,陈宏朝等 查看 代码:https: ...

  2. 同义词词林 java_基于同义词词林扩展版的词语相似度计算

    词语相似度计算 词义相似度计算在很多领域中都有广泛的应用,例如信息检索.信息抽取.文本分类.词义排歧.基于实例的机器翻译等等.国内目前主要是使用知网和同义词词林来进行词语的相似度计算. 本文主要是根据 ...

  3. Python基于word2vec的词语相似度计算

     词语相似度计算 在商品搜索的过程中,可以计算用户输入的关键字与数据库中商品名间的相似度,在商品数据库中找出相似度最大的商品,推荐给用户.比如"凳子"跟"椅子" ...

  4. 词语相似度计算:6、实验报告

    词汇相似度计算报告 摘要 1 一.简介 2 二.工具和资源说明 5 三.实验方法 5 3.1.方法1 5 3.2.方法2 6 3.3.方法3 6 3.4.方法4 7 3.5.方法5 7 3.6.方法6 ...

  5. 基于深度学习的红外和可见光图像融合论文及代码整理

    基于深度学习的红外和可见光图像融合论文及代码整理 首先附上近期整理基于深度学习的图像融合论文的思维导图 本篇博客主要整理基于深度学习的红外和可见光图像融合的论文和代码 图像融合系列博客还有: 图像融合 ...

  6. 基于深度学习的全色图像锐化(Pansharpening)论文及代码整理

    基于深度学习的全色图像锐化(Pansharpening)论文及代码整理 首先附上近期整理基于深度学习的图像融合论文的思维导图 本篇博客主要整理基于深度学习的全色图像锐化(Pansharpening)的 ...

  7. 基于SSM的物流仓储管理系统(包远程安装配置和代码讲解)

          博主介绍:✌在职Java研发工程师.专注于程序设计.源码分享.技术交流.专注于Java技术领域和毕业设计✌ 项目名称 基于SSM的物流仓储管理系统 演示视频 基于SSM的物流仓储管理系统( ...

  8. 基于神经网络模型的文本语义通顺度计算研究-全文复现(还没弄完)

    该硕士学位论文分为两个部分: ①基于依存句法分析的语义通顺度计算方法 ②基于神经网络模型的语义通顺度计算方法 本篇记录摘抄了该论文的核心内容以及实验复现的详细步骤. 在N-gram模型下进行智能批改场 ...

  9. 词向量 文本相似度计算

     一.abstract 为把人们所理解的自然语言让计算机也能够认识并且操作,需要将人的语言(即文字)转换成计算机的语言(即数字) 二 .词的两种表示方法 1.1离散表示(one-hot represe ...

最新文章

  1. ctex 图片裁剪 盖住文字_新媒体运营们不可或缺的图片编辑神器!
  2. 凭借这份Java面试题集,分布式宝典:限流+缓存+通讯
  3. 网站建设要重视与客户之间的沟通
  4. 神经网络weight参数怎么初始化
  5. linux内核头文件 cdev.h 解析
  6. 企业门户网站服务器,企业或个人门户网站对服务器前的重要准备 - 酷番云
  7. 卡巴斯基误杀奇虎360
  8. WinForm控件开发总结(五)-----为控件的复杂属性提供类型转换器
  9. 剑指offer之把二叉树打印成多行
  10. Day10(--JSP与JSP内置对象)
  11. 腾讯是如何一刀刀,在15年间干死那些竞争对手的?! (zz)
  12. The kernel appears to have died. It will restart automatically.
  13. 学习前端——仿写哔哩哔哩直播部分
  14. pycharm环境下导入包
  15. 让闲置物品“换”出财富
  16. SQL中rand和order by rand()用法
  17. 往事的回忆:木星如何抓获小彗星
  18. Flink集群部署OnYarn模式
  19. 关于加装新的SSD后,机械盘不识别(不显示)的问题解决
  20. teamviewer一直验证账户_奇葩的Synchrony Bank ID验证过程(解锁Amazon Store Card)

热门文章

  1. LabView程序上传systemlink
  2. 为知笔记 | Windows版帮助手册 | 快捷键
  3. 浙江大学PAT (Basic Level) Practice (中文)1014福尔摩斯的约会JAVA实现代码及分析
  4. 中小团队要怎样搭建架构?腾讯大佬来教你,直接跟着大佬吃经验!
  5. 数字图像处理(12): 形态学处理——图像腐蚀与图像膨胀
  6. 计算机相近相关专业职称,电子与智能化工程相关专业职称包括计算机、电子、通信、自动化、...
  7. 百度语音识别(采集麦克风声音 并自动转为文字)
  8. 计算机机型分pc机和什么,pc机是什么
  9. 震旦ADC208复印机显示“请更换显影组件K”后 “哒哒…”的异响
  10. OpenGL基础(三):三角形