作者信息

本文的目的是利用多语种百科词典BabelNet建立一个多语种义元知识库,即为多种语言的词标记义元。本文构造了一个小规模的种子知识库,提出了利用不同信息的两种模型。

研究背景

单词是人类语言中可以独立存在的最小元素,但不是最小的不可分割的语义单元。实际上,单词的含义可以分为较小的部分。例如,“人”的含义之一可以表示为“人”,“男性”和“成人”的含义的组合。

在语言学中,将“名素”(Bloomfield 1926)定义为人类语言的最小语义单位。一些语言学家认为,任何语言中所有单词的含义都可以由一组有限的预定义义素来分解,这与通用语义原语的概念有关。词素含蓄在词语中。为了在实际应用中利用它们,人们手动注释带有预定义音素的单词以构建音素知识库(KB)。

图1:HowNet中“丈夫”一词的Sememe注释。

知网(HowNet)它使用大约2,000种独立于语言的成语来注释超过10万个中文和英文单词。图1举例说明了如何在HowNet中用字素注释单词。与大多数语言知识库(例如WordNet)通过词级关系来解释单词的含义不同,诸如Sememe一样,古韵文库(Komenet)还提供了使用词下义素的词义定义。

Sememe KB具有两个独特的优势。第一个是它们的准音词语义组合性,这赋予了它们特别适合集成到神经网络中的功能。第二个特征是,有限的音素可以代表无限的含义,这使得音素在低数据体制下非常有用,例如,改善了低频词的嵌入。实际上,已经证明,sememe KBs对于各种NLP任务都是有益的,例如单词义消歧和情感分析。大多数语言都没有sememe KB,这会阻止这些语言的NLP应用程序受益于sememe知识。

动机

然而,HowNet中英文注释原语的数量有限,仅占WordNet英文单词的32.8%,除中文和英文之外的其他语言中的单词没有原语注释。这使得在自然语言处理领域的应用受到很大的限制,这也是义原主要用于汉语自然语言处理任务的原因。

为了解决这个问题,有人提出了跨语言词汇的意义预测,目的是通过双语词汇表示对齐来预测其他语言词汇的意义。然而,这种方法一次只能预测一种语言中的一个词。它的效率不高,不能从意义项目层面预测义元的意义。

方法

与跨语言词汇语义预测的思想不同,本文提出了一种基于BabelNet的多语言语义知识库构建方案。BabelNet是一个多语种百科全书词典,由BabelNet语法集组成,每个语法集包含不同语言中不同意义的单词。图2给出了一个例子,这个语法集包含英语、汉语、法语、德语和其他语言,意思是“丈夫”。

图2:ID为bn:00045106n的BabelNet同义词集的注释符号。 同义词集包含不同语言的单词(多语言同义词),具有相同的含义“女人嫁给的男人”,并且它们在右侧共享四个义位。

在一个语法集中,不同语言中的单词应该用相同的意思标记。也就是说,直接标注BabelNet synset的词义可以同时标注多种语言中的词义,从而有效地构建多语言词义源知识库。基于BabelNet的多语种义元知识库的构建方案除了效率高外,还具有其他优点:直接在义项层标注义元;BabelNet中包含的丰富信息可以用于义元预测,包括Wikipedia、WordNet、FrameNet等。

  • BabelSememe 数据集

    为了促进大规模多语种外生知识库的建设,本文首先标记了种子知识库babelsemee。它包含大约15000个语法集,每个语法集都被手动标记为多个含义。因为之前很少使用Yoshihara的结构,为了节省成本,Babelsemee的注释暂时忽略了Yoshihara的结构。图2显示了对应于“丈夫”的语法集的4个含义。表1显示了babelsemee的统计数据。

    表1:BabelSememe中具有不同POS标签的BabelNet同义词集的统计信息

  • BabelNet synset 义原预测形式化定义

    利用种子知识库,下一步是基于未标记的synset对synogen进行标记,然后将种子知识库扩展到最终的大规模语义源知识库中。本文首先提出并正式定义了BabelNet synset 义原预测任务:

    定义为BabelNet的某个Synset“b”的预测义元集合。当P(s | b)给定时,的预测得分是沂源预测得分的阈值。也就是说,当一个synset对一元进行预测时,首先用某种方法计算出当前synset对所有被预测的一元的得分,然后选择预测得分高于某一阈值的一元作为最终的预测结果。

  • 基于语义表示的 Synset 义原预测
    这种方法的思想非常直观,即具有相似含义的synset应该具有相似的含义,这与推荐系统中常用的协同过滤方法非常相似。通过BabelNet提供的NASAR synset嵌入余弦相似度来度量synset之间的相似度。

  • 基于关系表示的 Synset 义原预测
    第二种方法是基于关系表示。BabelNet包含许多句法集之间的关系,如同义、反义和从属。同时,HowNet还定义了义元之间的几种关系,因此自然地,synset与以synset为标志的义元之间的关系应该是对应的,利用这个性质进行原始预测。

    图3:BabelNet同义词集之间的关系与各个音位之间的关系如何一致的示例。 注意,我们仅在BabelNet同义词集中显示英语同义词。

    在此基础上,本文建立了一个包含两类节点的语义图:synset和义原。共有三种关系:合集之间的关系、义原之间的关系、合集与义原之间的标记关系(hava_sememe)。在知识地图中将义元预测转化为实体预测任务,即给定一个头部实体-一个由语义源预测的义元集合,给定一个具有语义元的关系,预测尾部实体义元。本文利用知识图任务中最经典的样条模型来学习这些实体的表示和关系,以便进行预测。此外,考虑到synset预测任务的特殊性,引入了额外的语义等式约束。一个词的语义可以由它的意义组成。Synset也有类似的属性。因此,文中提出了synset与语义之和具有语义等价关系,并在模型训练过程中引入了额外的语义等价约束。


    图 4 synset 与其义原之和存在语义相等关系

    丈夫的句法集加上语义平等关系等于义元嵌入的总和。因此,方法二期间的总损失函数是二者之和。


    此外,这两种方法在本文中通过简单的顺序倒数加权加法进行了集成:

实验结果

在本文中,作者使用建立的babelsemee数据集来评估所提出的synset预测模型。为了进行比较,我们设置了两种基线方法:

(1)Logistic回归(LR),它也使用synset的语义表示(NASARI嵌入)(2)基于关系表示的TransE。

表2:测试集上所有模型的总体和POS标签特定的SPBS结果。

通过观察图5,6,7所示的实验结果,发现方法1 SPBS-SR和方法2 SPBS-RR优于两个基线模型,并且集成模型集成获得了最佳结果。

图5:不同程度范围内的同义词集的SPBS结果。 六个范围内的同义词集的数量分别为72、340、231、110、84和131。

图6:Semset的SPBS结果,其同义词为不同范围。 六个范围内的同义词集的数量分别为218、239、179、179、88和65

图7:同义词的同义词集的平均SPBS结果,其程度在不同范围内。 七个范围内的音素数分别为1186、235、68、47、32、26和28。

本文还进行了一系列的定量分析,探讨了影响synset预测结果的因素。研究发现,易源的预测结果与synset和易源度(即方法2语义图中的节点度)呈正相关,且随着sysnet senseogen数目的增加先增大后减小。

总结

论文地址或源码下载地址:关注“图像算法”wx公众号 回复"Sememe",本文首先提出了一种基于BabelNet的多语种语义源知识库的构建思想,用以标注其他语言中的语义词。并提出了BabelNet synset义元预测任务和两种不同类型的预测方法,对该任务进行了大量的定量分析。

AAAI 2020 | 清华大学牛人为BabelNet同义词集预测Sememe建立多语言知识库相关推荐

  1. 【论文解读 AAAI 2020 | Bi-GCN】Rumor Detection on Social Media with Bi-Directional GCN

    论文题目:Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks 论文来源:AAAI 2020 ...

  2. 清华华为发布“万词王”反向词典系统,入选AAAI 2020

    本文部分内容源自清华大学计算机系在读博士岂凡超在AI科技评论发布的:话到嘴边却忘了?这个模型能帮你 | AAAI 2020.会议之眼参考论文对模型框架.背景知识以及数据来源.评测部分进行了补充. 岂凡 ...

  3. 报名即将关闭丨AAAI 2020论文预讲会

    AAAI 2020 论文预讲会,来啦! 30多位论文作者,来自五湖四海,齐聚北大.预会议内容方向包括:翻译对话与生成.文本分析与内容挖掘.知识理解与NLP应用.自然语言中的机器学习等,此外还有两场特邀 ...

  4. 清华姚班“斩获”AAAI 2020最佳学生论文:首届弟子贝小辉携手本科在读李子豪,攻坚算法博弈研究...

    本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处 本文约1700字,建议阅读5分钟 江湖英雄辈出,又是姚班少年郎. 江湖英雄辈出,又是姚班少年郎. 第34届美国人工智能协会年 ...

  5. AAAI 2020 时间交错网络 | ICCV19多标签视频理解冠军方案

    本文主要介绍三个部分: 一个高效的 SOTA 视频特征提取网络 TIN,发表于 AAAI 2020 ICCV19 MMIT 多标签视频理解竞赛冠军方案,基于 TIN 和 SlowFast 一个基于 P ...

  6. 【AAAI 2020】RiskOracle: A Minute-level Citywide Traffic Accident Forecasting Framework

    RiskOracle: A Minute-level Citywide Traffic Accident Forecasting Framework [前言]城市计算领域中,智能交通.智慧出行一直是一 ...

  7. AAAI 2020论文解读:商汤科技提出新弱监督目标检测框架

    来源 | Object Instance Mining for WeaklySupervised Object Detection 编辑 | Carol 出品 | AI科技大本营(ID:rgznai1 ...

  8. AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法

    来源 | Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow 编辑 | Carol 出品 | AI科技大 ...

  9. 必看!52篇深度强化学习收录论文汇总 | AAAI 2020

    所有参与投票的 CSDN 用户都参加抽奖活动 群内公布奖项,还有更多福利赠送 来源 | 深度强化学习实验室(ID:Deep-RL) 作者 | DeepRL AAAI 2020 共收到的有效论文投稿超过 ...

最新文章

  1. “2017 和 2019的对比”刷屏!各路高手出招,画风逐渐失控
  2. 2016年3月23日作业(项目进度管理、项目成本管理)
  3. C# 动态执行批处理命令
  4. 数学之美 系列十五 繁与简 自然语言处理的几位精英
  5. boost::contract模块实现overload的测试程序
  6. 如何下载今日头条视频
  7. maven依赖范围_Maven依赖范围
  8. 数据库:存储过程_数据科学过程:摘要
  9. 【Python基础】11_Python中的字符串
  10. 将汇编语言翻译成C语言,如何把汇编语言转换成C语言
  11. 利用文字技术帮助选购商品,慧眼“识”物的人都这样做……
  12. 排序专题之C++中的sort函数调用
  13. flash实用工具类+开源包收藏
  14. 【电脑故障】打印机驱动程序无法使用且print spooler错误1068
  15. mysql杀死锁死的进程_如何杀死MySQL进程
  16. SRAM与DRAM的区别
  17. 关于商业智能BI,你需要知道的相关知识都在这里了
  18. FFMPEG框架学习——(2)视频的提取和解码
  19. Node.js报错:UnhandledPromiseRejectionWarning: Unhandled promise rejection
  20. 零基础Bootstrap入门教程(16)--模态框

热门文章

  1. vscode 设置用户代码片段(怎么用命令式快速生成一段代码)
  2. 植物大战僵尸用户存档修改(CSDN任务1,20210418)
  3. Python快速计算函数耗时timeit
  4. 点击事件@click 失效问题
  5. Chrome浏览器滚动条样式设置
  6. asp创建mysql表_asp创建数据库
  7. elementui固定表格头部
  8. 7种网页图片切换方式代码
  9. Pytorch:NLP 迁移学习、NLP中的标准数据集、NLP中的常用预训练模型、加载和使用预训练模型、huggingface的transfomers微调脚本文件
  10. 织梦dede文章列表调用标签的用法和规则