基于知网的词汇语义相似度计算-hownet!

基于《知网》的词汇语义相似度计算

刘群?? 李素建?

{liuqun,lisujian}@

? 中国科学院计算技术研究所

? 北京大学计算语言学研究所

摘要:

《知网》是一部比较详尽的语义知识词典。在基于实例的机器翻译中,词语相似度计算是一个重要的环节。不过,由于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语相似度的计算带来了麻烦。这一点与WordNet和《同义词词林》不同。在WordNet和《同义词词林》中,所有同类的语义项(WordNet的synset或《同义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。而在《知网》中词语相似度的计算存在以下问题:

每一个词的语义描述由多个义原组成,例如“暗箱”一词的语义描述为:part|部件,%tool|用具,body|身,“写信”一词的语义描述为:#TakePicture|拍摄write|写,ContentProduct=letter|信件;

词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。

我们的工作主要包括:

研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义原之间的关系,区分其在词语相似度计算中所起的作用;

提出利用《知网》进行词语相似度计算的算法;

通过实验验证该算法的有效性,并与其他算法进行比较。

关键词:《知网》 词汇语义相似度计算 自然语言处理

引言

在基于实例的机器翻译中,词语相似度的计算有着重要的作用。例如要翻译“张三写的小说”这个短语,通过语料库检索得到译例:

1)李四写的小说/the novel written by Li Si

2)去年写的小说/the novel written last year

通过相似度计算我们发现,“张三”和“李四”都是具体的人,语义上非常相似,而“去年”的语义是时间,和“张三”相似度较低,因此我们选用“李四写的小说”这个实例进行类比翻译,就可以得到正确的译文:

the novel written by Zhang San

如果选用后者作为实例,那么得到的错误译文将是:

* the novel written Zhang San

通过这个例子可以看出相似度计算在基于实例的机器翻译中所起的作用。

在基于实例的翻译中另一个重要的工作是双语对齐。在双语对齐过程中要用到两种语言词语的相似度计算,这不在本文所考虑的范围之内。

除了基于实例的机器翻译之外,词语相似度计算在信息检索、信息抽取、词义排歧等领域都有着广泛的应用。

词语相似度及其计算的方法

什么是词语相似度

什么是词语相似度?

我们认为,词语相似度是一个主观性相当强的概念。脱离具体的应用去谈论词语相似度,很难得到一个统一的定义。因为词语之间的关系非常复杂,其相似或差异之处很难用一个简单的数值来进行度量。从某一角度看非常相似的词语,从另一个角度看,很可能差异非常大。

不过,在具体的应用中,词语相似度的含义可能就比较明确了。例如,在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度;而在信息检索中,相似度更多的要反映文本或者用户查询在意义上的符合程度。

本文的研究主要以基于实例的机器翻译为背景,因此在本文中我们所理解的词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。

相似度是一个数值,一般取值范围在[0,1]之间。一个词语与其本身的语义相似度为1。如果两个词语在任何上下文中都不可替换,那么其相似度为0。

相似度这个概念,涉及到词语的词法、句法、语义甚至语用等方方面面的特点。其中,对词语相似度影响最大的应该是词的语义。

词语相似度与词语距离

度量两个词语关系的另一个重要指标是词语的距离。

一般而言,词语距离是一个[0,∞)之间的实数。

一个词语与其本身的距离为0。

词语距离与词语相似度之间有着密切的关系。

两个词语的距离越大,其相似度越低;反之,两个词语的距离越小,其相似度越大。二者之间可以建立一种简单的对应关系。这种对应关系需要满足以下几个条件:

两个词语距离为0时,其相似度为1;

两个词语距离为无穷大时,其相似度为0;

两个词语的距离越大,其相似度越小(单调下降)。

对于两个词语W1和W2,我们记其相似度为Sim(W1,W2),其词语距离为Dis(W1,W2),那么我们可以定义一个满足以上条件的简单的转换关系:

…… (1)

其中α是一个可调节的参数。α的含义是:当相似度为0.5时的词语距离值。

这种转换关系并不是唯一的,我们这里只是给出了其中的一种可能。

在很多情

java 知网 语义 相似度,基于知网的词汇语义相似度计算-hownet!.doc相关推荐

  1. java 知网 语义 相似度,基于知网语义相似度的中文文本分类研究 论文笔记

    基于知网语义相似度的中文文本分类研究 1.传统的文本处理大部分是根据词频和逆向文档频率将文本表示成向量空间模型,实践证明这种模型确实简单高效并且得到了广泛应用,但这种模型表示缺乏对语义的理解,忽略了词 ...

  2. 我用Java+Redis+ES+Kibana技术对数百万知乎用户进行了数据分析,得到了这些...

    点击上方蓝色"方志朋",选择"设为星标" 回复"666"获取独家整理的学习资料! 作者:_artoria_ http://tinyurl.c ...

  3. python爬虫知网实例-python爬取知网

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! https:github.comgnemougdistribute_crawler ...

  4. 基于神经网络模型的文本语义通顺度计算研究-全文复现(还没弄完)

    该硕士学位论文分为两个部分: ①基于依存句法分析的语义通顺度计算方法 ②基于神经网络模型的语义通顺度计算方法 本篇记录摘抄了该论文的核心内容以及实验复现的详细步骤. 在N-gram模型下进行智能批改场 ...

  5. Java语言开发在线购物推荐网 购物商城推荐系统 基于用户、物品的协同过滤推荐算法 SSM(Spring+SpringMVC+Mybatis)开发框架 大数据、人工智能、机器学习项目开发

    Java语言开发在线购物推荐网 购物商城推荐系统 基于用户.物品的协同过滤推荐算法 SSM(Spring+SpringMVC+Mybatis)开发框架 大数据.人工智能.机器学习项目开发ShopRec ...

  6. Java语言开发在线音乐推荐网 音乐推荐系统 网易云音乐爬虫 基于用户、物品的协同过滤推荐算法 SSM(Spring+SpringMVC+Mybatis)框架 大数据、人工智能、机器学习项目开发

    Java语言开发在线音乐推荐网 音乐推荐系统 网易云音乐爬虫 基于用户.物品的协同过滤推荐算法 SSM(Spring+SpringMVC+Mybatis)框架 大数据.人工智能.机器学习项目开发Mus ...

  7. Java语言springboot开发框架实现个性化美食推荐网 在线美食推荐系统 基于用户、物品的协同过滤推荐算法实现

    Java语言springboot开发框架实现个性化美食推荐网 在线美食推荐系统 基于用户.物品的协同过滤推荐算法实现WebFoodRecSystem 一.项目简介 1.开发工具和使用技术 IDEA/E ...

  8. 中国知网html阅读说明什么区别,知网研学和中国知网的区别

    都是一家,都差不多的,没有太大差异,一个搜索比较大众,另个一比较专业. 知网研bai学(原E-Study)集文献检索.下载.管du理.笔记.写作zhi.投稿于一体dao,为学习和研究提供全过程支持. ...

  9. Java开发在线购物推荐网 购物商城推荐系统 基于用户、物品的协同过滤推荐算法 京东商城爬虫 SSM(Spring+SpringMVC+Mybatis)开发框架 大数据、人工智能、机器学习项目开发

    Java开发在线购物推荐网 购物商城推荐系统 基于用户.物品的协同过滤推荐算法 京东商城爬虫 SSM(Spring+SpringMVC+Mybatis)开发框架 大数据.人工智能.机器学习项目开发Sh ...

  10. 基于JAVA桂林恒保健康防护有限公司官网计算机毕业设计源码+数据库+lw文档+系统+部署

    基于JAVA桂林恒保健康防护有限公司官网计算机毕业设计源码+数据库+lw文档+系统+部署 基于JAVA桂林恒保健康防护有限公司官网计算机毕业设计源码+数据库+lw文档+系统+部署 本源码技术栈: 项目 ...

最新文章

  1. lua创建文件和文件夹
  2. 论文速读:AI能从人类的愚蠢中学到什么?
  3. 三角数字(某年南理工研究生入学上机试题)
  4. 《Java并发编程入门与高并发面试》or 《Java并发编程与高并发解决方案》笔记
  5. 网站优化工作关键——稳定排名!
  6. python数据分析numpy_利用python进行数据分析-NumPy高级应用
  7. vue动态设置文字布局方式_详解Vue动态添加模板的几种方法
  8. Blockchain Patent Players and domain
  9. 【Python基础】Python处理文件的几个常用小知识
  10. 锁相放大器sr830_各位谁会用Stanford SR830啊,我都快被这个锁相放大器折腾死了!!!!-北京搜狐焦点...
  11. Android之javax.net.ssl.SSLPeerUnverifiedException: Hostname ip not verified:解决办法
  12. Java面向对象(3)--类的成员方法
  13. 汇编分析golang循环
  14. php header 无法跳转,PHP利用header跳转失效解决方法
  15. Android binder机制---概述
  16. 首届“十大最具价值”互联网创新创业项目遴选榜单丨Xtecher联合中投协权威发布...
  17. 基于python的三维射线追踪库-ttcrpy详解(3)
  18. treetable怎么带参数_treeTable的使用(ajax异步获取数据,动态渲染treeTable)
  19. c语言二次方程的实根,C程序求二次方程的根
  20. Python3,9行代码进行压缩和解压缩,从此告别压缩软件。

热门文章

  1. Linux安装Wiznote为知笔记的方法
  2. 怎样学手机拼音打字html t=45,如何学会拼音(怎样快速学会拼音打字)
  3. 使用BeautifulSoup爬取“0daydown”网站的信息(1)
  4. Drool规则引擎入门实例
  5. 切分窗体:MFC界面设计
  6. 使用说明 思迅收银系统_思迅天店标准版收银系统条码秤+计价秤操作指南
  7. LaTeX通用简洁模板
  8. 【FLY】C语言知识点总结
  9. gx works2产品id_gx works2中文版下载|
  10. python程序设计——班级档案管理系统