论文作者:Farahnaz Akrami,美国德州大学阿灵顿分校,博士生。

笔记整理:南京大学,张清恒,硕士生。


链接:https://arxiv.org/pdf/2003.08001.pdf

代码:https://github.com/idirlab/kgcompletion

一、概述

目前的知识图谱(KG)规模庞大,但还远远不够完备。近年来,知识图谱补全(KGC)研究已然成为热门话题,其目标是将缺失的事实补充到KG中。研究者们对KG表示学习模型或嵌入(embedding)模型进行了广泛的研究,提出了众多新的嵌入模型。我们进行了实验研究以评估这些方法,本文将发表在SIGMOD 2020。

本文主要研究了KGC方法的真实有效性,同时发现了基准数据集FB15k、WN18以及YAGO3-10中存在的缺陷。这些数据集被广泛用于训练和评估众多嵌入模型,它们包含大量的反向和重复三元组,本文揭示了这些数据集中存在的数据冗余和测试集遗漏问题对嵌入模型的影响。本文研究的另一问题是FB15k数据集中存在笛卡尔积关系。数据集中存在的上述问题会导致模型准确性出现误差。此外,使用这些数据集训练KGC模型容易导致过拟合,使用上述三元组优化的模型,很难被推广到真实的应用场景中。简而言之,通过研究有以下发现:

  1. 广泛使用的基准数据集中存在数据冗余和测试集遗漏等问题,导致许多模型的准确性被高估了19%-175%;

  2. 我们发现笛卡尔积关系也会导致性能评估出现误差;

  3. 用于评估模型的许多测试用例在现实场景中不是真实存在的。

二、嵌入模型与相关数据集

对于KG中的三元组(head entity, relation, tail entity),使用 (h, r, t) 表示,嵌入模型学习它们的多维表示 h,r,t。众所周知,数据集在训练机器学习模型中起着重要作用。用于训练和测试嵌入模型的数据集存在各种问题,因此这些模型在真实场景下难以发挥效果。

FB15k & FB15k-237

FB15k数据集中包含很多反向关系,存在大量的反向三元组(h,r,t)和(h,r^{-1}, t),其中 r 和 r^{-1} 是反向关系。例如,(Avatar, film/directed_by, James Cameron)和(James Cameron, director/film, Avatar)是一对反向三元组。事实上,Freebase 使用一种特殊的关系reverse_property 来表示反向关系,例如,(film/directed_by, reverse_property, director/film)。在FB15k中,训练集中大约有70%的三元组存在反向关系,在测试集中大约有70%的三元组,其对应的反向三元组存在于训练集中。

这些数据特征表明,在链接预测任务中,嵌入模型将偏向于学习反向关系。更具体地说,该任务在很大程度上可以推断出两个关系r1和r2是否形成反向对。考虑到数据集中存在大量的反向三元组,可以不使用复杂的实体和关系嵌入模型实现上述目标。可以使用数据集中三元组的统计信息来生成类似(h,r1,t) => (h, r2, t)形式的简单规则。实际上,本文使用这样一个简单的模型,在FB15k上 FHits@1↑ 指标达到了71.6%,作为对比,目前性能最优的模型在FB15k上FHits@1↑ 的结果为73.8%。

值得注意的是,如果给定这类数据,链接预测任务在真实世界中是不存在的。对于FB15k而言,来自Freebase的冗余反向关系是人为创建的。新的事实总是作为一对反向三元组添加到Freebase中,由关系reverse_property明确表示。对于这种总是成对出现的内在逆向关系,当某个三元组对应的反向三元组已经出现在KG中时,我们是不需要预测该三元组的。因此,使用FB15k训练KGC模型会出现过拟合问题,因为学习的模型针对反向三元组进行了优化,而反向三元组无法推广到实际应用中。

文章[1]注意到了FB15k存在的上述问题,并通过去除反向关系构造了新的数据集FB15k-237。为了进一步研究FB15k中冗余数据的影响,我们进行了一些实验,比较了FB15k与FB15k-237上的几种嵌入模型的结果,下表显示了这些模型在不同指标上的结果。

通过实验得出的总体观察结果如下:

1. 删除反向关系后,所有方法的性能都会大大降低。正如下面的雷达图所示,在FB15k-237上嵌入模型的性能大大降低。该结果验证了基于嵌入的方法只能在反向关系上表现良好,然而,基于反向关系推理的直接方法可以实现相当甚至更高的精度。

2. 先前的很多工作认为一些基于TransE的改进方法明显优于TransE,我们在FB15k上的实验也证实了这一点,但在FB15k-237上它们的差距并不大。我们认为这些模型主要在反向和重复三元组上提升了结果,因此在删除这些三元组后,它们没有表现出明显的优势。这个假设可以通过我们的发现得到验证,这些模型能够正确预测而TransE未能正确预测的大多数三元组,在训练集中都有反向或重复的三元组。

WN18 & WN18-RR

WN18也存在反向关系的问题,WN18中共有18种关系,其中14种关系构成了7对反向关系对,例如(europe, has_part, republic_of_estonia)和(republic_of_estonia, part_of, europe)是反向三元组,它们涉及到的反向关系是has_part和part_of。与此同时,WN18中还有三种自反关系,分别是verb_group、similar_to和derivationally_related_form。训练集中约有93%的关系三元组,而测试集中有93%的三元组,在训练集种存在反向三元组。

为了消除WN18反向关系,文章[2]通过保留每对反向关系中的一个关系,构造了新的数据集WN18-RR。我们比较了在WN18和WN18-RR上嵌入模型的结果,得出的结论与在FB15k和FB15k-237上观察到的结论相同。具体结果如下表所示。

YAGO3-10 & YAGO3-10-DR

YAGO3-10具有37种关系,其中isAffiliatedTo (r1)和playsFor (r2)这两个关系所涉及到的三元组,在训练集种分别占35%和30%。在现实世界的语义上,r1包含r2,但由于它们的(subject, object)对基本上重叠,因此它们在此数据集中以重复关系出现。根据我们的实验,各种模型在r1和r2上取得的结果比其他关系要强得多。通过删除YAGO3-10中的冗余数据,本文构造了一个新的数据集YAGO3-10-DR。通过对比YAGO3-10和YAGO3-10-DR,我们得出的结论与在其他数据集上观察到的结论相同。

三、笛卡尔积关系

本文还在FB15k上发现了另一个问题,本文称为笛卡尔积关系(Cartesian product relations)问题,这个问题会导致嵌入模型的现有性能指标与实际不符。对于一个笛卡尔关系,其所涉及到的三元组中的subject-object对构成了对应的笛卡尔积。例如,关系climate是一个笛卡尔积关系,因为(a, climate, b)对于每个可能的城市a和月份b,都是有效的三元组。再例如,关系position也是一个笛卡尔积关系,因为在确定的职业体育联盟中的每个队伍都有相同的位置。对于这样的关系,链接预测问题就变成了预测一个城市是否有其一月份的气候,或者某支NFL球队是否有四分卫位置。这些关系的存在变相提高了模型的精度,而且这样的预测任务意义不大。与我们观察到的反向关系相同,FB15k中笛卡尔积关系也是人为构建的。实际上,60%的笛卡尔积关系是由特殊的“中介节点”造成的。如果要对笛卡尔积关系进行链接预测,一种简单的方法比学习复杂的嵌入模型更有效。我们实现了一种简单的方法来查找笛卡尔积关系,并在这些关系上进行链接预测任务。我们在FB15k中的9个笛卡尔积关系上进行了实验,使用简单方法获得的平均FHits@10↑ 为98.3%,高于TransE的效果(96.3%)。

参考文献

[1]Toutanova, Kristina , and D. Chen. "Observed Versus Latent Features for Knowledge Base and Text Inference." Workshop on Continuous Vector Space Models & Their Compositionality 2015.

[2]Tim, Dettmers, and Pasquale, Minervini, and Pontus, Stenetorp, and Sebastian, Riedel. "Convolutional 2D Knowledge Graph Embeddings." AAAI 2018.


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 重新实验评估知识图谱补全方法相关推荐

  1. AAAI 2020 开源论文 | 可建模语义分层的知识图谱补全方法

    ©PaperWeekly · 作者|蔡健宇 学校|中国科学技术大学 研究方向|知识图谱 近些年,知识图谱(Knowledge Graph)在自然语言处理.问答系统.推荐系统等诸多领域取得了广泛且成功的 ...

  2. 直播 | WWW 2021:基于结构增强文本表示学习的知识图谱补全方法

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  3. 论文浅尝 | 可建模语义分层的知识图谱补全方法

    本文转载自公众号:PaperWeekly. 论文作者:蔡健宇,中国科学技术大学,研究方向:知识图谱 近些年,知识图谱(Knowledge Graph)在自然语言处理.问答系统.推荐系统等诸多领域取得了 ...

  4. 论文浅尝 | 基于置信度的知识图谱表示学习框架

    本文转载自公众号:PaperWeekly. 作者丨谢若冰 单位丨腾讯微信搜索应用部 研究方向丨知识表示学习 知识图谱被广泛地用来描述世界上的实体和实体之间的关系,一般使用三元组(h,r,t)(head ...

  5. 论文浅尝 | AAAI2020 - 基于规则的知识图谱组合表征学习

    论文笔记整理:康矫健,浙江大学计算机科学与技术系,硕士研究生. 论文链接:https://arxiv.org/pdf/1911.08935.pdf 发表会议:AAAI 2020 Motivation ...

  6. 论文浅尝 | Rot-Pro:通过知识图谱嵌入中的投影建模关系的传递性

    笔记整理:陈湘楠,浙江大学硕士在读. 研究背景 知识图嵌入模型学习知识图谱中实体和关系的表示,以预测实体之间的缺失链接(关系).它们的有效性深受建模和推断不同关系模式(如对称.不对称.逆向.组合和传递 ...

  7. 论文浅尝 | 利用类比推理优化知识图谱向量表示

    链接:https://arxiv.org/pdf/1705.02426.pdf 本文的主要创新点就是把类比推理应用到 KG embedding 中,通过对模型的 score function 添加某些 ...

  8. 论文浅尝 | 打通推荐系统与知识图谱: 第一个公开的大规模链接数据集合

    本文转载自:RUC智能情报站,知乎专栏链接:https://zhuanlan.zhihu.com/RucAIBox 前言:近年来,知识图谱(KB)被广泛应用于推荐系统(RS),但尚未有公开将推荐系统物 ...

  9. 论文浅尝 | 二维卷积知识图谱嵌入

    链接:https://arxiv.org/pdf/1707.01476.pdf 本文主要关注 KG Link prediction 问题,提出了一种多层卷积神经网络模型 ConvE,主要优点就是参数利 ...

最新文章

  1. qt4的quick程序升级到qt5_最新8月书单出炉!送给你程序员
  2. Python语言程序设计之Python3 SMTP发送邮件
  3. Debugging WebLogic Server Applications Using Eclipse and the WebLogic-Plugin
  4. linux下查看系统进程占用的句柄数
  5. 使用Guava MapSplitters配置Hadoop
  6. 【289天】跃迁之路——程序员高效学习方法论探索系列(实验阶段47-2017.11.21)...
  7. Datawhale 零基础入门数据挖掘-Task4 建模调参
  8. 英语本科 国外跨计算机,跨专业考研需具备哪些条件,如英语,计算机的过级情况...
  9. stm32码盘传感器_STM32电机测速(正交或者霍尔编码器)
  10. 英语的形容词变为of加名词形式的具体用法
  11. 移动硬盘遇到无法访问,文件或目录损坏且无法读取的解决办法
  12. UE4-4.26蓝图功能实现:按键控制物体旋转的“延伸”(点名系统Get all actors of class)
  13. ue4 项目模板_卡牌游戏项目模板
  14. ThinkAdmin漏洞(CVE-2020-25540 )复现
  15. 通过游戏学java(适合初学者)
  16. TeamViewer14 ubuntu 破解商业环境
  17. Nyist 915 +-字符串
  18. 阿里浅尝元宇宙成功了吗?
  19. 全网最全Skywalking8.9.1源码解析系列文章
  20. 实现智能化工厂,从导入APS系统开始

热门文章

  1. 解决eclipse无法解析导入org.eclipse.swt库
  2. 高效KMP字符匹配算法就这么简单
  3. 用一张图片告诉你芯片设计
  4. Android-HIDL实例解析
  5. linux python 信号,Python模块之信号(signal)
  6. python parser count_8个超实用的Python脚本,收藏备用
  7. java连接cdh集群_有一台电脑需要通过beeline的方式连接到CDHclouderahadoop集群,提示报错。...
  8. 二十、PHP框架Laravel学习笔记——模型的作用域
  9. python网络爬虫系列(八)——常见的反爬手段和解决方法
  10. LeetCode MySQL 1777. 每家商店的产品价格(行列转换)