笔记整理 | 刘克欣,天津大学硕士


链接:https://arxiv.org/pdf/1911.11298.pdf

动机

知识图谱对于许多下游应用(例如搜索,知识问答和语义网)至关重要。然而,现有知识图谱面临不完整的问题。知识图谱补全工作能让知识图谱变得更加完整,是目前人工智能领域的一个研究热点。现有的知识图谱补全工作大多需要大量的实体对来进行关系推断。但是,实际数据集中关系的频率分布通常具有长尾问题, 关系的很大一部分在知识图谱中只有很少的实体对。处理数量有限(数量很少)的实体对的关系是非常重要且具有挑战性的。针对上述问题,文章提出了一种少样本关系学习模型FewShot Relation Learning model(FSRL),其目的是学习一个匹配函数,该函数可以在给定每个关系的少量参考实体对的情况下,有效地推断出真正的实体对。

亮点

文章的亮点主要包括:

(1)首次提出小样本情景下的知识图谱补全任务,更适合实际场景;

(2)提出了一种融合了一些可学习神经网络模块的小样本关系学习模型解决小样本知识图谱补全问题。

概念及模型

针对小样本知识图谱预测,FSRL要解决的具体问题是:给出少量实体对(参考集)的情况下,根据给定头实体 




 和查询关系 




 预测尾实体 














 。

FSRL由三个主要部分组成:

(1)为每个实体编码异构邻居;

(2)对每个关系的少量参考实体对进行汇总;

(3)将查询对与参考集进行匹配以进行关系预测。

模型整体框架如下:

编码异构邻居

此模块功能为一个关系可感知的异构邻居编码器。基于给定头实体 




 的关系邻居的集合被表示为:

其中,表示背景知识图谱, , 分别表示第个关系和相应的的尾部实体。

文章引入注意力机制计算的异构邻居特征,并使用以下公式计算的embedding:

其中,分别表示预学习的的embedding。

融合小样本参考集

此部分的功能是对参考集中的每个关系的embedding进行聚合。

其中, 







 是一个聚合函数。

基于图的embedding,作者设计了一个循环自编码聚合器。更具体来说,实体对embeddings 被顺序喂到循环自编码器:

其中,是参考集的大小。编码器和解码器的隐藏状态和通过以下公式计算:

优化自编码器的重构损失如下:

为了形成参考集的embedding,作者聚合了所有编码的隐层状态并通过残差连接与注意力权重机制进行拓展。的计算公式如下:

其中,为聚合的embedding的维度。

匹配查询集和参考集

在前两个模块的基础上,现在可以基于参考集有效的对每个查询实体对进行匹配操作。首先通过对查询实体对和参考集分别进行操作,从而分别得到两个embedding向量:

为了衡量两个向量的相似性,作者采用了一个循环处理器 去完成多步匹配。第个过程步的如下:

其中,输入为,隐藏状态为,细胞状态为过程步后的隐层状态记为:

目标函数和模型训练

对于每一个关系,我们随机选择一些正样本实体对并把它们作为参考集。剩余的实体对作为正样本查询对。此外,也构建了负样本实体对。排列损失记为:

其中, 为标准的hinge 损失,表示安全边界距离(本文取值为5)。

最终优化函数如下:

其中,表示参考集聚合的重构损失。表示两者的权衡因子(本文取值为0.0001)。


理论分析

实验

作者采用了2个公开数据集进行实验,分别是:NELL (Mitchell et al. 2018)和Wikidata (Vrandeˇci´c and Kr¨otzsch 2014)。首先是有效性实验,模型的评价指标为:Hits@k 和 MRR。

图邻居编码器方法(GMatching)优于关系嵌入方法,表明将图局部结构和匹配网络相结合对于学习实体嵌入和预测新关系的事实是有效的。

本文提出的FSRL在所有情况下均能达到最佳性能。在NELL和Wiki数据中,相对于最佳基准方法的平均相对改进分别高达34%和15%。它证明了FSRL模型的有效性。异构邻居编码器和递归自动编码器聚合网络有利于知识图谱中的小样本关系预测。

除了所有关系预测的整体性能,我们还进行实验以评估模型对于NELL测试数据中每个关系的预测性能。在大多数情况下,FSRL的性能要优于GMatching。它证明了我们的模型对于不同的关系是鲁棒的,并且在大多数关系上都优于GMatching。

作者还进行了实验以分析小样本中每类样本数K的影响。

随着K的增加,两个模型的性能都会提高。这表明较大的参考集可以为该关系产生更好的参考集嵌入。在不同的K中,本文的模型始终优于GMatching,这证明了所提出的模型对于知识图谱中的小样本关系补全的稳定性。

文章还可视化了每个关系的正候选实体对和负候选实体对的2D嵌入。

从图中可以看出,两种方法都能很好地区分正候选和负候选的嵌入。然而,本文的模型取得了更好的性能,并且两个类的嵌入明显不同,这进一步证明了所提出的模型在可视化方面的优越性能。


总结

文章提出了一个新的小样本知识图谱补全问题,并提出了一种创新的小样本关系学习模型,即FSRL,以解决该问题。FSRL对关系感知的异构邻居编码器、递归自动编码器聚合网络和匹配网络进行联合优化。在两个公共数据集上的实验表明,FSRL方法的性能优于现有的基准方法。此外,消融研究验证了每个模型组件的有效性。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

论文浅尝 - AAAI2020 | 小样本知识图谱补全相关推荐

  1. 论文浅尝 | 学习开发知识图谱中的长期关系依赖 - ICML 2019 ​

    本文转载自公众号:南大Websoft. 论文:https://arxiv.org/abs/1905.04914 代码:https://github.com/nju-websoft/RSN 背景 知识图 ...

  2. powerbuilder查询符合条件的数据并且过滤掉其他数据_论文浅尝 ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询...

    论文笔记整理:胡楠,东南大学博士. 来源:ISWC 2020 动机 像Wikidata这样的现代知识图已经捕获了数十亿个RDF三元组,但是它们仍然缺乏对大多数关系的良好覆盖.同时在NLP研究的最新进展 ...

  3. 论文浅尝 - ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询

    论文笔记整理:胡楠,东南大学博士. 来源:ISWC 2020 动机 像Wikidata这样的现代知识图已经捕获了数十亿个RDF三元组,但是它们仍然缺乏对大多数关系的良好覆盖.同时在NLP研究的最新进展 ...

  4. 论文浅尝 | 基于常识知识图谱感知和图注意力机制的对话生成

    OpenKG 祝各位读者中秋快乐! 链接:http://coai.cs.tsinghua.edu.cn/hml/media/files/2018_commonsense_ZhouHao_3_TYVQ7 ...

  5. 论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答

    论文题目:Zero-shot Visual Question Answering using Knowledge Graph 本文作者:陈卓(浙江大学).陈矫彦(牛津大学).耿玉霞(浙江大学).Jef ...

  6. 论文浅尝 | AutoETER: 用于知识图谱嵌入的自动实体类型表示

    论文链接:https://arxiv.org/pdf/2009.12030.pdf 动机 传统的KGE使用附加的类型信息改善实体的表示,但是这些方法完全依赖于显式类型,或者忽略了特定于各种关系的不同类 ...

  7. 论文浅尝 | 面向时序知识图谱推理的循环事件网络

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答. 来源:arXiv (short version accepted at ICLR 2019Workshop on Representati ...

  8. 论文浅尝 | 基于时序知识图谱的问答

    笔记整理:姚云志,浙江大学在读博士,研究方向为自然语言处理. 链接:https://arxiv.org/pdf/2106.01515.pdf 时序知识图谱是一种多关系的知识图谱,相较于常规的知识图谱, ...

  9. 论文浅尝 | 用于学习知识图谱嵌入的一种基于注意力机制的新型异构 GNN 框架HRAN...

    笔记整理 | 李爽,天津大学 链接:http://hfbix45521e79b0484907sowxo0fubpp9b6xwx.fiiz.eds.tju.edu.cn/stamp/stamp.jsp? ...

最新文章

  1. lucene集成IK实现中文分词检索
  2. 2.5.3 工作日处理函数(自定义节假日).sql
  3. 给接口自动化测试框架增色,实现企业微信测试报告
  4. centos6.8 配置 tomcat
  5. JMeter学习(七)聚合报告之 90% Line 正确理解
  6. 将英文的week 转换为中文的 简单的方法
  7. oracle12cr2发布时间,Oracle 12cR2 发布在即
  8. php操作xml类,PHP实现的XML操作类【XML Library】
  9. “华尔街之狼”:预计BTC价格将反弹至10万美元
  10. VB 显示当前时间 24小时制
  11. 紫色金融仿给你花网贷平台源码|借贷系统|带计息费用
  12. 语音数据增强—使用kaldi对语音加噪
  13. 从数据库索引到数据库优化
  14. Android可折叠收缩伸展的Expandable分组RecyclerView:模型抽象和封装(二)
  15. 第三方支付账务系统论述
  16. php steamcommunity,使用PHP和Regex获取Steam社区市场上商品的价格
  17. linux安装glib,glib源码安装使用方法
  18. 预算一万以内的机器学习台式机/主机配置推荐
  19. html css基础笔记,学习html/css基础的重点笔记
  20. Windows10安装MG2580打印机

热门文章

  1. Python核心教程(第二版)读书笔记(三)
  2. ubuntu命令行登录
  3. 当卷烟厂也那么卷后……
  4. asp.net通过登录后修改个人信息_微信号终于可以修改了!快来改一个
  5. c语言编辑的库存管理软件,C语言课程设计,商品库存管理系统怎么做啊?
  6. 每日一题(48)—— 中断
  7. 电源管理 解析_智能电源控制箱
  8. python 串口_如何使用Python开发串口通讯上位机(一)
  9. 【Pytorch神经网络理论篇】 12 卷积神经网络实现+卷积计算的图解
  10. LeetCode 1748. 唯一元素的和