论文笔记整理:潘锐,天津大学硕士。


来源:AAAI 2020

链接:https://arxiv.org/pdf/1912.01795.pdf

摘要

义原被定义为人类语言的最小语义单位。义原知识库(KBs)是一种包含义原标注词汇的知识库,它已成功地应用于许多自然语言处理任务中。然而,现有的义原知识库建立在少数几种语言上,阻碍了它们的广泛应用。为此论文提出在多语种百科全书词典BabelNet的基础上建立一个统一的多语种义原知识库。首先建立一个数据集作为多语种义原知识库的种子知识库。它为超过1.5万个synset,并由人工手动标注若干义原。然后,首次提出并正式定义了BabelNet synset 义原预测任务,旨在将种子数据集扩展为一个可用的知识库。论文还利用了不同的synset信息提出了两个简单有效的模型。最后,进行定量和定性分析,探究任务中的重要因素和难点。

研究背景

人类语言可以划分成不同层次——句子可以划分成短语或词组,再进一步划分成词。词是最小的可以独立运用的单位,也是自然语言处理最常用的语言单位。但从语义层面讲,词还可以进一步细分为义原——也即语言学家定义的最小的语义单位。一些语言学家认为所有语言的所有词语的意思都可以用一个有限的义原集合来表达。并且有语言学家认为义原体系在任何语言中都是适用的,并不与特定语言相关。为了能在自然语言处理实践中应用义原,董振东和董强花费数十年时间构建了最著名的义原知识库——知网(HowNet)。HowNet预定义了两千多个义原,并用其标注了十万多个中/英文词语。每个词语的每个义项都用若干义原标注以表达其语义。

研究动机

然而,HowNet中已标注义原的英文词语数量有限,仅占WordNet英文词数的 32.8%,且中英之外其他语言的词语没有义原标注。这导致义原在自然语言处理领域的应用范围被大大局限——也是此前义原主要被用于中文自然语言处理任务的原因。为了解决这一问题,有人提出跨语言词语的义原预测 ,旨在通过双语词表示对齐的方式为其他语言的词语预测义原。但这种方法一次只能为一种语言的词语预测义原,不是非常高效,并且该方法无法进行义项层面的义原预测。

研究方法

和跨语言词语义原预测的思路不同,本文提出基于BabelNet来构建多语言义原知识库的方案。BabelNet是一个多语言百科词典,由BabelNet synset组成,每个synset包含意义相同的不同语言的词语,下图给出了一个例子——这个synset包含英语、汉语、法语、德语等各种语言表示「丈夫」这个意思的词语。

一个synset中不同语言的词语都应该被标注同样的义原,换言之,直接为BabelNet synset标注义原就可以同时为多个语言的词语标注义原,从而高效地构建一个多语言义原知识库。除了高效之外,基于BabelNet来构建多语言义原知识库的方案还有其他好处:直接将义原标注在义项层面;BabelNet蕴含的丰富的信息都可以为义原预测所用——包括维基百科、WordNet、FrameNet等等。

1 BabelSememe 数据集

为了推进大规模多语言义原知识库的构建,本文首先标注了一个种子知识库BabelSememe。它包含约一万五千个synset,每个synset由人工标注了若干义原。由于此前义原的结构鲜少被使用,同时为了节省成本,BabelSememe的标注暂时忽略了义原的结构。下图给出了BabelSememe数据集的分词性统计。

2 BabelNet synset义原预测形式化定义

有了种子知识库,下一步就是基于有义原标注的synset,为无标注的synset标注义原,进而将种子知识库不断扩充成最终的大规模义原知识库。本文首次提出并正式定义了BabelNet synset义原预测任务。BabelNet synset义原预测形式化如下:

定义为对BabelNet的某个Synset “b” 的预测义原集合,P(s|b)为给定b时,义原s的预测分数,为义原预测分数阈值。即为某个synset预测义原时,首先使用某种方法计算所有义原被预测给当前synset的分数,然后选取预测分数高于某个阈值的义原作为最终预测结果。

3 方法一:基于语义表示的Synset义原预测

这种方法的思路非常直观,即意思相近的synset其所标注义原也应该相似——这和推荐系统中常用的协同过滤方法非常类似。其中synset之间的相似性利用了BabelNet提供的NASARI synset embedding的余弦相似度衡量。

这种方法的公式如下图 所示,

4 方法二:基于关系表示的Synset义原预测

BabelNet包含很多synset之间的关系,例如同义、反义、上下位等。与此同时,HowNet也定义了若干种义原之间的关系,那么自然地,synset之间的关系和synset所标注的义原之间的关系应该是对应的,利用这种性质便可以进行义原预测。例如,

上图中better和worse这两个synset存在反义的关系,他们分别被标注了superior和inferior这两个同样存在反义关系的义原。那么,在已知better和worse、superior 和 inferior这两对反义关系,以及better有superior这个义原,很容易推测出中worse含有inferior这个义原。

基于此,本文建立了一个语义图,节点有synset和义原两种,关系有三种:synset之间的关系、义原之间的关系以及synset和义原之间被标注的关系(hava_sememe)。synset义原预测也就转化为了知识图谱中实体预测的任务,即给定头实体——待义原预测的synset,给定关系have semem,预测尾实体义原。这篇论文利用了知识图谱任务中经典的TransE模型来学习这些实体和关系的表示以进行预测。

此外,考虑到synset义原预测任务的特殊性,文中还额外引入了一个语义相等约束。词的语义可以由其义原组合而成,synset也有类似的性质,因此文中提出synset与其义原之和有一个语义等价的关系,并且在模型训练时额外引入语义相等约束。例如:

上图中husband这个synset加上语义相等关系等于义原embedding的和。因此方法二训练时的总损失函数为两者之和,如下图所示。

此外,文中还通过简单的顺序倒数加权相加的方式将两种方法进行了集成。

实验

该文利用自己构建的BabelSememe数据集对提出的synset义原预测模型进行了评测。其中为了对比,设置了两个基线方法:(1)同样使用了synset的语义表示(NASARI embedding)的逻辑回归(LR)和(2)基于关系表示的TransE。

通过实验结果发现,文中提出的方法一和方法二分别好于两个基线模型,而且集成模型Ensemble获得了最好的结果。

此外,论文还进行了一系列的定量分析,以探讨影响synset义原预测结果的因素。发现义原预测结果和synset以及义原度数(即方法二的语义图中节点度数)都成正相关,随着sysnet义原数量的增加先增加后减小。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...相关推荐

  1. 论文浅尝 - AAAI2020 | 多通道反向词典模型

    论文笔记整理:朱珈徵,天津大学硕士,自然语言处理方向. 链接:https://arxiv.org/pdf/1912.08441.pdf 动机 反向词典将一段描述作为输入,并一起输出与该描述匹配的其他词 ...

  2. 论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

    笔记整理:谭亦鸣,东南大学博士生 来源:EACL'21 链接:https://aclanthology.org/2021.eacl-main.284.pdf 概述 本文关注将语言模型(LM)视作一个知 ...

  3. 论文浅尝 - AAAI2020 | 从异质外部知识库中进行基于图的推理实现常识知识问答...

    会议:AAAI2020 论文链接:https://arxiv.org/pdf/1909.05311.pdf 摘要 常识问答旨在回答需要背景知识的问题,而背景知识并未在问题中明确表达.关键的挑战是如何从 ...

  4. 论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法

    论文笔记整理:郝凯龙,南京大学硕士. 来源:AAAI2020 链接:https://arxiv.org/pdf/1911.10699.pdf 动机 推荐系统实际上是在做用户-商品二部图上的链路预测,仅 ...

  5. 论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习

    论文笔记整理:耿玉霞,浙江大学直博生.研究方向:知识图谱,零样本学习等. 来源:AAAI2020 论文链接:https://arxiv.org/pdf/2001.02332.pdf 本文是发表在AAA ...

  6. 论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战

    论文笔记整理:谭亦鸣,东南大学博士. 来源:EMNLP 2020 链接:https://arxiv.org/pdf/2005.00692.pdf 1.背景介绍 跨语言实体链接(XEL)旨在将任一非英语 ...

  7. 论文浅尝 | 面向 cQA 的跨语言问题检索方法

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答. 来源:WWW2019 链接:https://dl.acm.org/citation.cfm?doid=3308558.3313502 本文 ...

  8. 论文浅尝 | XQA:一个跨语言开放域问答数据集

    论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生. Citation: Liu, J., Lin, Y., Liu, Z., & Sun, M. (2019,July). XQA: A ...

  9. 论文浅尝 - AAAI2020 | 利用自然语言推断生成人称一致的对话

    链接: https://arxiv.org/pdf/1911.05889.pdf 动机 虽然最近几年通过利用社交网络上大量人人交互数据训练开放域对话模型取得了很大的成功,但是这些数据驱动的对话系统仍然 ...

最新文章

  1. 初识Redux-Saga
  2. 40亿骚扰电话拨出,6亿用户隐私泄露,央视315曝光AI黑暗面
  3. 汉诺塔算法python_经典算法:汉诺塔
  4. C#开源项目:SiMay远程控制管理系统
  5. EFCore.Sharding(EFCore开源分表框架)
  6. linux中wait()系统调用的例子,linux进程管理之wait系统调用
  7. MyBatis查询返回类型为int,查询结果为空NULL,报异常解决
  8. 获取列表的最后一个元素
  9. WEB2.0 XHTML代码规范
  10. windows安装补丁慢 360安全卫士和腾讯电脑管家安装同样卡住 解决办法
  11. 【测试】软件测试报告应该包含哪些内容
  12. [POJ3537]Crosses and Crosses
  13. vue上线后图片不显示_vue页面中图片不显示解决
  14. Codeforces 273D Dima and Figure
  15. checkpoints are occurring too frequently
  16. 康奈尔rtems笔记(1)
  17. 虚拟专用网和IPv6路由配置【Cisco】
  18. 浩方cs全是虚拟服务器,在浩方里面的CS1.5 如何建立服务器
  19. 如何透彻理解 Paxos 算法?
  20. Redis做接口限流

热门文章

  1. Mplayer后台播放没有声音
  2. get请求可以传body吗_都9102年了,GET和POST的区别掌握了没有?
  3. ps绿化工具_绿化消防车价位
  4. mft按钮设计_哈汽机组660MW超临界空冷机组ETS设计及逻辑说明
  5. React中的fragment和StrictMode
  6. LeetCode 836. 矩形重叠
  7. LeetCode 874. 模拟行走机器人(set)
  8. 文本查询TextQuery类文件编写
  9. java 主方法 this_java main 方法怎么创建
  10. 语言4位bcd码怎么加加_S7300400如何使用SCL语言调用SFC1(READ_CLK)读取日期和时间?...