2019-12-31 05:44:06

作者 | 岂凡超(清华大学)

责编 | Camel

本文对清华大学完成的已被 AAAI-20 录用的论文《Towards Building a Multilingual Sememe Knowledge Base: Predicting Sememes for BabelNet Synsets》进行解读。

论文链接:arxiv.org/pdf/1912.0179

代码和数据:https://github.com/thunlp/BabelNet-Sememe-Prediction

该文旨在借助 BabelNet 这个多语言百科词典来构建一个多语言的义原知识库,即为多种不同语言的词语标注义原。该文构建了一个小规模的种子知识库,并且提出了两种使用不同信息的模型——为 BabelNet 中的 synset 自动预测义原进而将小规模种子知识库扩充成最终可用的大规模义原知识库。

一、研究背景

人类语言可以划分成不同层次——句子可以划分成短语或词组,再进一步划分成词。词是最小的可以独立运用的单位,也是自然语言处理最常用的语言单位。但从语义层面讲,词还可以进一步细分为义原——也即语言学家定义的最小的语义单位。

一些语言学家认为所有语言的所有词语的意思都可以用一个有限的义原集合来表达。例如「男孩」这个词的意思可以由「人类」、「男性」、「儿童」这三个义原的组合所表达,「女孩」则可以由「人类」、「女性」、「儿童」的组合来表达。并且有语言学家认为义原体系在任何语言中都是适用的,并不与特定语言相关。

图 1 HowNet 中的义原标注示例

为了能在自然语言处理实践中应用义原,董振东和董强先生花费数十年时间构建了最著名的义原知识库——知网(HowNet)[1]。HowNet 预定义了两千多个义原,并用其标注了十万多个中/英文词语。每个词语的每个义项都用若干义原标注以表达其语义。如图 1 中的例子,「husband」这个多义词在 HowNet 中有「丈夫」和「节俭」两个义项(意思),其中「丈夫」这个意思被标注了「人类」、「家庭」、「男性」、「配偶」这四个义原,而「节俭」这个意思则被标注了「节约」这一个义原。

HowNet 一经提出,就引起了自然语言处理研究界的轰动,无数将义原应用于不同的自然语言处理任务的工作相继提出,例如词相似度计算 [2],词义消歧 [3],情感分析 [4] 等等。近年来,也有一些工作将义原应用于基于神经网络的自然语言处理,例如词表示学习 [5],语言模型 [6],语义组合 [7],aspect 抽取 [8],文本对抗 [9],序列建模 [10] 等。

二、研究动机

然而,HowNet 中已标注义原的英文词语数量有限,仅占 WordNet 英文词数的 32.8%(50879/155287),且中英之外其他语言的词语没有义原标注。这导致义原在自然语言处理领域的应用范围被大大局限——也是此前义原主要被用于中文自然语言处理任务的原因。

为了解决这一问题,有人提出跨语言词语的义原预测 [11],旨在通过双语词表示对齐的方式为其他语言的词语预测义原。但这种方法一次只能为一种语言的词语预测义原,不是非常高效,并且该方法无法进行义项层面的义原预测。

三、研究方法

和跨语言词语义原预测的思路不同,该文提出基于 BabelNet 来构建多语言义原知识库的方案。BabelNet[12] 是一个多语言百科词典,由 BabelNet synset 组成,每个 synset 包含意义相同的不同语言的词语,图 2 给出了一个例子——这个 synset 包含英语、汉语、法语、德语等各种语言表示「丈夫」这个意思的词语。

一个 synset 中不同语言的词语都应该被标注同样的义原,换言之,直接为 BabelNet synset 标注义原就可以同时为多个语言的词语标注义原,从而高效地构建一个多语言义原知识库。除了高效之外,基于 BabelNet 来构建多语言义原知识库的方案还有其他好处:直接将义原标注在义项层面;BabelNet 蕴含的丰富的信息都可以为义原预测所用——包括维基百科、WordNet、FrameNet 等等。

3.1 BabelSememe 数据集

为了推进大规模多语言义原知识库的构建,该文首先标注了一个种子知识库 BabelSememe。它包含约一万五千个 synset,每个 synset 由人工标注了若干义原。由于此前义原的结构鲜少被使用,同时为了节省成本,BabelSememe 的标注暂时忽略了义原的结构。图 2 给出了「丈夫」对应的 synset 被标注的 4 个义原。图 3 给出了 BabelSememe 的数据统计。

图 3 BabelSememe 数据集分词性统计

3.2 BabelNet synset 义原预测形式化定义

有了种子知识库,下一步就是基于有义原标注的 synset,为无标注的 synset 标注义原,进而将种子知识库不断扩充成最终的大规模义原知识库。该文首次提出并正式定义了 BabelNet synset 义原预测任务。

如图 4 所示,

图 4 BabelNet synset 义原预测形式化

定义 为对 BabelNet 的某个 Synset “b” 的预测义原集合,P(s|b) 为给定 b 时,义原 s 的预测分数, 为义原预测分数阈值。即为某个 synset 预测义原时,首先使用某种方法计算所有义原被预测给当前 synset 的分数,然后选取预测分数高于某个阈值的义原作为最终预测结果。

3.3 方法一:基于语义表示的 Synset 义原预测

这种方法的思路非常直观,即意思相近的 synset 其所标注义原也应该相似——这和推荐系统中常用的协同过滤方法非常类似。其中 synset 之间的相似性利用了 BabelNet 提供的 NASARI[13] synset embedding 的余弦相似度衡量。

这种方法的公式如图 5 所示,

图 5 基于语义表示的 Synset 义原预测公式

为已有义原标注的 Synset 集合, 和 分别表示 Synset 和′的 embedding, 用来判断义原 s 是否在集合 中, 为递减置信因子。

3.4 方法二:基于关系表示的 Synset 义原预测

第二种方法是基于关系表示的。BabelNet 包含很多 synset 之间的关系,例如同义、反义、上下位等。与此同时,HowNet 也定义了若干种义原之间的关系,那么自然地,synset 之间的关系和 synset 所标注的义原之间的关系应该是对应的,利用这种性质便可以进行义原预测。例如,

图 6 利用 Synset 之间的关系与其义原之间的关系相一致的特性进行义原预测

图 6 中 better 和 worse 这两个 synset 存在反义的关系,他们分别被标注了 superior 和 inferior 这两个同样存在反义关系的义原。那么,在已知 better 和 worse、superior 和 inferior 这两对反义关系,以及 better 有 superior 这个义原,很容易推测出中 worse 含有 inferior 这个义原。

基于此,这篇论文建立了一个语义图,节点有 synset 和义原两种,关系有三种:synset 之间的关系、义原之间的关系以及 synset 和义原之间被标注的关系(hava_sememe)。synset 义原预测也就转化为了知识图谱中实体预测的任务,即给定头实体——待义原预测的 synset,给定关系 have semem,预测尾实体义原。这篇论文利用了知识图谱任务中最经典的 TransE 模型来学习这些实体和关系的表示以进行预测。

此外,考虑到 synset 义原预测任务的特殊性,文中还额外引入了一个语义相等约束。词的语义可以由其义原组合而成,synset 也有类似的性质,因此文中提出 synset 与其义原之和有一个语义等价的关系,并且在模型训练时额外引入语义相等约束,

图 7 synset 与其义原之和存在语义相等关系

图 7 中 husband 这个 synset 加上语义相等关系等于义原 embedding 的和。因此方法二训练时的总损失函数为两者之和,如图 8 所示。

图 8 方法二训练时的总损失函数

此外,文中还通过简单的顺序倒数加权相加的方式将两种方法进行了集成: 。

四、实验

该文利用自己构建的 BabelSememe 数据集对提出的 synset 义原预测模型进行了评测。其中为了对比,设置了两个基线方法:(1)同样使用了 synset 的语义表示(NASARI embedding)的逻辑回归(LR)和(2)基于关系表示的 TransE。

图 9 synset 义原预测实验结果(按照 synset 词性分别评测)

通过观察图 9 给出的实验结果发现,文中提出的方法一 SPBS-SR 和方法二 SPBS-RR 分别好于两个基线模型,而且集成模型 Ensemble 获得了最好的结果。

图 10 定量分析(synset 度数、synset 义原数、义原度数对预测结果的影响)

此外,论文还进行了一系列的定量分析,以探讨影响 synset 义原预测结果的因素。发现义原预测结果和 synset 以及义原度数(即方法二的语义图中节点度数)都成正相关,随着 sysnet 义原数量的增加先增加后减小。

五、结论

该文首次提出基于 BabelNet 构建多语言义原知识库这一思路来为其他语言的词语标注义原,相比于此前的方法更加高效和经济。并且还提出了 BabelNet synset 义原预测任务以及两种不同类型的预测方法,对这一任务进行了大量的定量分析。

该文论文已经公开在 arXiv:arxiv.org/pdf/1912.0179,代码和数据也已经放在 GitHub:https://github.com/thunlp/BabelNet-Sememe-Prediction

参考文献

[1] Dong, Z., and Dong, Q. 2003. HowNet-a hybrid language and knowledge resource. In Proceedings of NLP-KE.

[2] Liu, Q., and Li, S. 2002. Word similarity computing based on HowNet. International Journal of Computational Linguistics & Chinese Language Processing 7(2):59–76.

[3] Duan, X.; Zhao, J.; and Xu, B. 2007. Word sense disambiguation through sememe labeling. In Proceedings of IJCAI.

[4] Fu, X.; Liu, G.; Guo, Y.; and Wang, Z. 2013. Multi-aspect sentiment analysis for Chinese online social reviews based on topic modeling and HowNet lexicon. Knowledge-Based Systems 37:186–195.

[5] Niu, Y.; Xie, R.; Liu, Z.; and Sun, M. 2017. Improved word representation learning with sememes. In Proceedings of ACL.

[6] Gu, Y.; Yan, J.; Zhu, H.; Liu, Z.; Xie, R.; Sun, M.; Lin, F.; and Lin, L. 2018. Language modeling with sparse product of sememe experts. In Proceedings of EMNLP.

[7] Qi, F.; Huang, J.; Yang, C.; Liu, Z.; Chen, X.; Liu, Q.; and Sun, M. 2019a. Modeling semantic compositionality with sememe knowledge. In Proceedings of ACL.

[8] Luo, L.; Ao, X.; Song, Y.; Li, J.; Yang, X.; He, Q.; and Yu, Dong. 2019. Unsupervised Neural Aspect Extraction with Sememes. In Proceedings of IJCAI.

[9] Zang, Y.; Yang, C.; Qi, F.; Liu, Z.; Zhang, M.; Liu, Q.; and Sun, M. 2019. Textual adversarial attack as combinatorial optimization. arXiv preprint arXiv:1910.12196.

[10] Qin, Y.; Qi, F.; Ouyang, S.; Liu, Z.; Yang, C.; Wang, Y.; Liu, Q.; and Sun, M. 2019. Enhancing recurrent neural networks with sememes. arXiv preprint arXiv:1910.08910.

[11] Qi, F.; Lin, Y.; Sun, M.; Zhu, H.; Xie, R.; and Liu, Z. 2018. Crosslingual lexical sememe prediction. In Proceedings of EMNLP.

[12] Navigli, R., and Ponzetto, S. P. 2012a. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network. Artificial Intelligence 193:217–250.

[13] Camacho-Collados, J.; Pilehvar, M. T.; and Navigli, R. 2016. Nasari: Integrating explicit knowledge and corpus statistics for a multilingual representation of concepts and entities. Artificial Intelligence 240:36–64.

AAAI 2020 论文集:

AAAI 2020 | 这 10 篇论文值得你了解(附PPT下载)

AAAI 2020 | 清华大学:借助BabelNet构建多语言义原知识库相关推荐

  1. PW Live 直播 | 清华大学博士生岂凡超:义原知识库的应用和扩充

    「PW Live」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义, ...

  2. 论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...

    论文笔记整理:潘锐,天津大学硕士. 来源:AAAI 2020 链接:https://arxiv.org/pdf/1912.01795.pdf 摘要 义原被定义为人类语言的最小语义单位.义原知识库(KB ...

  3. 清华大学岂凡超:义原知识库的应用和扩充

    12月31日,"智源论坛Live"第3期邀请到清华大学自然语言处理与社会人文计算实验室在读博士生,开源工具OpenHowNet.在线系统万词王(WantWords)的主要开发者岂凡 ...

  4. AAAI 2020 | 清华大学牛人为BabelNet同义词集预测Sememe建立多语言知识库

    作者信息 本文的目的是利用多语种百科词典BabelNet建立一个多语种义元知识库,即为多种语言的词标记义元.本文构造了一个小规模的种子知识库,提出了利用不同信息的两种模型. 研究背景 单词是人类语言中 ...

  5. “智源论坛Live”报名 | 清华大学岂凡超:义原知识库的应用和扩充

    报名请点击「阅读原文」 在线直播时间:12月31日19:30-20:30 "智源论坛Live"第3期 "智源论坛Live"是智源论坛系列活动之一,通过在线直播形 ...

  6. 【论文解读 AAAI 2020 | Bi-GCN】Rumor Detection on Social Media with Bi-Directional GCN

    论文题目:Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks 论文来源:AAAI 2020 ...

  7. 一文全览,AAAI 2020上的知识图谱

    2020-02-15 05:34:40 作者 | 杨晓凡 责编 | 贾伟 AI 科技评论按:2020 年 2 月 9 日,AAAI 2020 的主会议厅讲台上迎来了三位重量级嘉宾,这三位也是我们熟悉. ...

  8. 清华华为发布“万词王”反向词典系统,入选AAAI 2020

    本文部分内容源自清华大学计算机系在读博士岂凡超在AI科技评论发布的:话到嘴边却忘了?这个模型能帮你 | AAAI 2020.会议之眼参考论文对模型框架.背景知识以及数据来源.评测部分进行了补充. 岂凡 ...

  9. 报名即将关闭丨AAAI 2020论文预讲会

    AAAI 2020 论文预讲会,来啦! 30多位论文作者,来自五湖四海,齐聚北大.预会议内容方向包括:翻译对话与生成.文本分析与内容挖掘.知识理解与NLP应用.自然语言中的机器学习等,此外还有两场特邀 ...

  10. AAAI 2020 开源论文 | 一种针对图嵌入模型的受限黑盒对抗攻击框架

    AAAI(人工智能促进协会年会)是人工智能领域的顶级国际会议之一.今年的 AAAI 2020 是第 34 届,于 2 月 7 日至 12 日在美国纽约举行.今年,第 3 次参会的腾讯 AI Lab 共 ...

最新文章

  1. asp.net 2.0 中GridView里设置日期格式
  2. 一步步学习SpringBoot(一) 快速搭建一个web
  3. 改变linux终端颜色
  4. sap中二级品报工问题解决方案
  5. Java 入门课程视频实战-0基础 上线了,猜拳游戏,ATM实战,欢迎围观
  6. 在Mac电脑上:更改移动硬盘的格式
  7. node连接数据库_数据库2
  8. yii ccaptcha php模块,yii验证码无法显示
  9. 海贼王热血航线服务器维护4月,航海王热血航线4月29日停服公告一览
  10. Linq 语法的一系列问题,菜鸟求解。
  11. 人工智能应用场景分析
  12. Photoshop Elements 10 All-in-One For Dummies 免积分下载
  13. V神赞许的Aztec,如何让以太坊更隐私?
  14. 面向对象之:三大特性:继承(已讲),封装,多态
  15. 布尔教育php视频下载,布尔教育2016视频:PHP留言板制作教程
  16. word 模板生成ftl并实现转换成pdf
  17. 应届生求职网,职位信息函数爬取!!!稳得一比
  18. Unity灯光的一些设置(二)天空盒创建更换与Lighting面板的介绍
  19. 要成为一个牛逼程序猿,你要勇于尝试这10种姿势
  20. js 正则验证手机号,用户名,密码

热门文章

  1. 苹果雪豹系统_AI知识图谱,让我撸到了一只天山上的雪豹
  2. 苹果XS怎么截屏_iPhoneXR 到底怎么样?真香 还是真烂?
  3. python手机端抢票大麦网_手把手教你用python抢票回家过年 !
  4. 版权声明--关于本人BLOG发表的带有原创标识的文章相关
  5. 查看elasticserc版本_Elasticsearch版本和客户端介绍
  6. h5页面 请在微信客户端打开链接_电脑版微信网页授权提示请在微信客户端打开链接?...
  7. 2021-06-03TunePat Amazon Video Downloader使用教程:如何下载电影和电视节目
  8. 一定要收藏,一位百万年薪Python程序员手写资料(附实例分享)
  9. 关于程序员的教育和培训
  10. MySQL的函数-窗口函数