简介

近年来,张量分解模型凭借模型简洁、计算速度快等优点在知识图谱补全任务上取得了令人瞩目的成就。但是,这些模型较易受到过拟合的影响,在性能上通常落后于其他类型的模型。为解决过拟合问题,包括 L2 正则,N3 正则 [1] 在内的多种正则项被提出,但这些正则项又在性能或者适用范围上存在明显缺陷。

为此,我们基于知识图谱补全模型之间的对偶性,为张量分解模型提出了一种新的正则项——DURA。该正则项可以广泛地应用于多种不同的张量分解知识图谱补全模型,且能够显著提升模型性能。

论文标题:

Duality-Induced Regularizer for Tensor Factorization Based Knowledge Graph Completion

论文链接:

https://papers.nips.cc/paper/2020/hash/f6185f0ef02dcaec414a3171cd01c697-Abstract.html

代码链接:

https://github.com/MIRALab-USTC/KGE-DURA

知识图谱补全

知识图谱由大量的事实三元组构成,其存储了结构化的人类知识。例如,下图中的(金庸,笔下人物,云中鹤)和(金庸,姑父,蒋百里)都是事实三元组。

尽管常用的知识图谱具有十亿乃至以上级别的三元组,但其中仍会存在大量的三元组缺失。例如,下图中”蒋英“和”钱学森“之间缺失了”丈夫“关系,”金庸“和”蒋英“之间缺失了”表姐“关系。因知识图谱的规模通常极为庞大,人工对图谱进行补全代价高昂。因此,基于知识图谱中的已知三元组来自动预测缺失三元组的知识图谱补全(Knowledge Graph Completion, KGC)技术近年来备受关注。

形式化描述

给定一个由实体构成的集合 






和一个由关系构成的集合






,一个知识图谱 是一个三元组的集合,其中







是第




个实体,







是第




个关系。通常















也分别称为头实体和尾实体,有时也会被写成







 (head) 和







(tail)。知识图谱补全的目标是根据






中已知的三元组来预测未知的正确三元组。

我们通常将知识图谱补全问题建模成一个给定头(尾)实体和关系的尾(头)实体预测问题。如在问题
















中给定














来预测尾实体。

知识图谱补全模型通常先将每个实体







与关系







映射为低维嵌入



















(knowledge graph embeddings,可为向量/矩阵/张量),然后通过一个以低维嵌入为输入的打分模型




































为给定三元组



















进行打分,从而确定任意三元组真实存在的概率(即置信度)。如果一个补全模型足够好,那在
















这一问题中,能够使得三元组成立的尾实体







得分应该高于其他实体。

知识图谱补全模型


4.1 两类重要模型

「基于距离的模型」 (distance-based models) 和「基于张量分解的模型」 (tensor factorization-based models) 是两类重要的知识图谱补全模型。

  • 基于距离的模型使用闵可夫斯基距离来度量三元组的合理性,其一般具有如下形式。

    其中




    是与模型相关的函数。

    虽然这类模型能够达到较好的性能,但在建模复杂的关系模式(如一对多和多对一关系)时仍然存在困难。

  • 基于张量分解的模型将知识图谱视为部分可观测的三阶张量

































    ,当



















    是正确三元组时,















    ,否则















    。因此,知识图谱补全被建模为一个张量补全问题。

    假设









    表示






    的第




    个前向切片,即第




    个关系的邻接矩阵。一般情况下,基于张量分解的知识图谱补全模型将









    近似分解为

































    ,其中











    的第







    行是



























    是第




    个关系对应的嵌入矩阵,















    分别是复矩阵的实部和共轭(实矩阵的实部和共轭是它本身)。也就是说,打分函数被定义为 。基于张量分解的模型的目的是寻找矩阵
































    ,使得


























    可以近似









    从理论上讲,张量分解模型表现力强,能够很好地处理复杂的关系。然而,它们的往往面临「严重的过拟合」问题,无法达到最佳性能。因此,我们通常会在训练模型时加入「正则」入。








































    ,而 











    是一个第




    个前向切片为














    的张量,则正则化后的基于张量分解的知识图谱补全模型可以写成

    其中






    是固定参数,
























    衡量
























    之间的差异,而




    是正则函数。

4.2 面向张量分解知识图谱补全的正则

针对张量分解模型,目前流行的正则项主要包括







正则和





正则。









正则是最常用的正则项,具有如下形式

其又被称为平方 Frobenius 正则。从上式这可以看出,







正则能够应用于绝大部分张量分解模型,但实验表明,其并不一定能够带来稳定的性能提升 [2]。







正则 [1] 即张量 3 阶核范数 (tensor nuclear-3 norm) [3] 正则,其适用于









为对角矩阵的模型,具有如下形式

其中

























分别是矩阵













的第




列。假设











是一个由









的对角元组成第




行的矩阵,则 












是矩阵











的第




列。实验表明,







正则在 









为对角矩阵时(如 CP 和 ComplEx)能带来稳定的性能提升,但其不适用于









为非对角阵的更一般情况(如 RESCAL)。

因此,我们还需要一个适用范围广且能带来稳定性能提升的正则项。

对偶诱导正则 DURA

5.1 Basic DURA

考虑一个知识图谱补全问题
















,即已知头实体和关系来预测尾实体。假设用






























来衡量给定三元组



















的置信度,则上一节中提到的基于张量分解的模型的打分函数可以写成

它首先通过一个线性变换














对实体嵌入









做一个映射,然后使用内积的实部来度量






























之间的相似性。我们可以用另一个常用的相似性度量欧几里德距离可以代替上述等式中的内积相似性. 从而得到一个与之对应的基于距离的模型:

因平方打数函数和无平方的形式是等价的,我们事实上得到了以下「对偶性」:对于现有的基于张量分解的知识图谱补全模型(原模型),通常还有另一个与之相对应的基于距离的知识图谱补全模型(对偶模型)。具体地,原始模型和对偶模型之间的「对偶关系」又可以表示为

假设






是所有已知正确三元组的集合。当我们训练一个基于距离的模型时,我们通常会在






上最大化













,而从上式我们知道

很显然,















恰好是未加正则的张量分解模型的目标。因此,对偶关系为我们提供了如下正则项

我们称上述正则项为 Basic DURA。

很明显,Basic DURA 适用与









为非对角阵的倾向,适用范围相较





正则更广。

5.2 Basic DURA 为何有效

我们将从直觉上给出 Basic DURA 为何能够有效提升张量分解知识图谱补全模型的性能。如果多个尾实体能够使得三元组
















成立,那么DURA将促使它们具有相似的嵌入(embeddings)。

首先,我们可以断言,如果多个尾实体能够使得三元组
















成立,他们应该具有相近的语义。如在下图中,我们已知(猫科动物,包含,老虎)和(猫科动物,包含,狮子)两个三元组,则实体”老虎“和”狮子“在语义上是相近的。

进一步,我们可以断言,如果两个实体具有相近的语义,那么它们应该具有相似的嵌入。如果”老虎“和”狮子“具有相似的嵌入,我们又已知(老虎,是,哺乳动物)这一三元组,那么我们就可以对(狮子,是,哺乳动物)这一未知三元组进行补全。

然而,由于内积相似度度量的特性,在一个基于张量分解的知识补全模型中,即使尾实体具有完全不同的嵌入,三元组



















也可以具有相同的打分(如下左图所示)。这在一定程度上会影响对未知三元组的预测。

在加入 DURA 之后,我们事实上通过欧氏距离引入了






























应该较为相近的先验,因此尾实体的嵌入会被限制在一个较小的范围内(如下右图所示),从而有利于知识图谱的补全。

5.3 DURA

由内积的性质我们可知 ,利用与 Basic DURA 相似的推导过程,我们可以从对偶性中得到另一个正则项

类似地,当多个头实体能够使得三元组
















成立时,该正则项能够使得这些头实体的嵌入较为接近。

将两个不同方向的正则项相结合,我们得到「对偶诱导正则」「DU」ality-induced「R」egul「A」rizer, 「DURA」)的最终形式

5.4 DURA的理论性质

当我们放宽正则项的求和条件























至所有可能的实体和关系,DURA 具有如下形式

其中

















分别是实体和关系的数目。

如果我们进一步假设关系嵌入矩阵









为对角阵,我们有如下定理

在上述定理中,
















是张量











的 2 阶核范数(nuclear 2-norm)[引用nuclear],即矩阵迹范数(trace norm)在张量情形下的推广。

上述定理说明,在给定一些假设的情况下,DURA 事实上给出了张量











的 2 阶核范数的一个上界。


实验结果

6.1 知识图谱补全任务

我们在三个常用知识图谱补全数据集 WN18RR、FB15k-237、YAGO3-10 上验证了 DURA 的有效性。所考虑的基于张量分解的知识图谱补全模型包括目前流行的 CP、ComplEx [4] 和 RESCAL [5]。所采用的评价指标包括 MRR(Mean Recipocal Rank),H@N(Hits at N, N=1,10),越高的 MRR 和 H@N 代表越好的性能。实验结果如下表所示。

可以看出,DURA 为三个模型带来了稳定的性能提升。尤其值得一提的是,RESCAL 作为最早被提出的知识图谱补全模型之一(2011年),因其参数量较大而较易过拟合,在过去的几年中表现一直较差。但在加入 DURA 后,RESCAL 在 WN18RR 上取得了 MRR 为 0.498 的好成绩,超越了之前的所有模型。

6.2 与其他正则的对比

我们在 CP、ComplEx 和 RESCAL 三个模型上对比了 DURA、







(即 FRO)、





三种正则的性能,结果如下表所示。注意





无法应用于 RESCAL 模型。

从上表中可以看出,相比











正则,DURA 在适用范围和有效性上都具有明显优势。

6.3 可视化

为验证”如果多个尾实体能够使得三元组
















成立,那么 DURA 将促使它们具有相似的嵌入(embeddings)”这一描述,我们利用 T-SNE 对加入 DURA 前后的实体嵌入进行了可视化。结果如下图所示,其中每一个数据点代表一个尾实体,而相同颜色的数据点代表这些尾实体能够使得同一
















成立。

从上图可以看出,在加入 DURA 后,能够使得同一
















成立的尾实体将倾向于拥有更为相似的嵌入。

总结

在知识图谱补全任务上,基于张量分解模型和基于距离的模型之间具有对偶性质,利用该对偶性,我们提出了一种面向张量分解模型的对偶诱导正则 DURA。DURA 能够广泛应用于多种不同的张量分解模型,且能够带来稳定而又显著的性能提升。

关于作者

张占秋,2018 年毕业于中国科学技术大学数学科学学院,获得理学学士学位。现于中国科学技术大学电子工程与信息科学系的 MIRA Lab 实验室攻读博士生,师从王杰教授。研究兴趣包括知识图谱与自然语言处理。

参考文献

[1] Lacroix, T., Usunier, N. & Obozinski, G.. (2018). Canonical Tensor Decomposition for Knowledge Base Completion. Proceedings of the 35th International Conference on Machine Learning, in PMLR 80:2863-2872

[2] Ruffinelli, D., Broscheit, S., & Gemulla, R. (2019). You CAN teach an old dog new tricks! on training knowledge graph embeddings. In International Conference on Learning Representations.

[3] Friedland, S., & Lim, L. H. (2018). Nuclear norm of higher-order tensors. Mathematics of Computation, 87 (311), 1255-1281.

[4] Trouillon, T., Welbl, J., Riedel, S., Gaussier, E. & Bouchard, G.. (2016). Complex Embeddings for Simple Link Prediction. Proceedings of The 33rd International Conference on Machine Learning, in PMLR 48:2071-2080.

[5] Nickel, M., Tresp, V., & Kriegel, H. P. (2011). A three-way model for collective learning on multi-relational data. Proceedings of the 28th International Conference on Machine Learning, in PMLR 11:809-816

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

​NeurIPS 2020 | 面向张量分解知识图谱补全的对偶诱导正则相关推荐

  1. AAAI 2020 开源论文 | 可建模语义分层的知识图谱补全方法

    ©PaperWeekly · 作者|蔡健宇 学校|中国科学技术大学 研究方向|知识图谱 近些年,知识图谱(Knowledge Graph)在自然语言处理.问答系统.推荐系统等诸多领域取得了广泛且成功的 ...

  2. 时态知识图谱补全的方法及其进展

    点击上方蓝字关注我们 时态知识图谱补全的方法及其进展 申宇铭, 杜剑峰 广东外语外贸大学信息科学与技术学院,广东 广州 510420 摘要:时态知识图谱是将时间信息添加到传统的知识图谱而得到的.近年来 ...

  3. 论文浅尝 | 可建模语义分层的知识图谱补全方法

    本文转载自公众号:PaperWeekly. 论文作者:蔡健宇,中国科学技术大学,研究方向:知识图谱 近些年,知识图谱(Knowledge Graph)在自然语言处理.问答系统.推荐系统等诸多领域取得了 ...

  4. AAAI论文摘要【知识图谱补全】:A Survey on knowledge Graphs:Representation,Acquisition and Application

    A Survey on knowledge Graphs:Representation,Acquisition and Application 主要思路 全面回顾 知识图谱表示学习 知识图谱推理 全视 ...

  5. 论文浅尝 | 重新实验评估知识图谱补全方法

    论文作者:Farahnaz Akrami,美国德州大学阿灵顿分校,博士生. 笔记整理:南京大学,张清恒,硕士生. 链接:https://arxiv.org/pdf/2003.08001.pdf 代码: ...

  6. 论文浅尝 | 用于低资源条件下知识图谱补全的关系对抗网络

    论文作者: 邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究. Ningyu Zhang, Shumin Deng, Zhanlin Sun, Jiaoyan Chen, ...

  7. 知识图谱最新权威综述论文解读:知识图谱补全部分

    上期我们介绍了2020年知识图谱最新权威综述论文<A Survey on Knowledge Graphs: Representation, Acquisition and Applicatio ...

  8. 知识图谱补全算法综述(动态知识图谱补全)

    论文阅读笔记:知识图谱补全算法综述 论文:丁建辉, 贾维嘉. 知识图谱补全算法综述[J]. 信息通信技术. 概念 表示学习相关理论 知识图谱表示学习 静态知识图谱补全(static KGC) 动态知识 ...

  9. 直播 | WWW 2021:基于结构增强文本表示学习的知识图谱补全方法

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

最新文章

  1. JNDI 笔记(一) 概述
  2. maven安装_如何从官网下载Maven与安装Maven
  3. c# mysql timeout expired_C#百万数据查询出现超时问题的解决方法
  4. ecshop的smarty库还原成smarty原生库方法
  5. 我的SharpDevelop插件之一:知识管理器(2006年博客迁移)
  6. Linux中Oracle的sqlplus下退格和Del键无效的问题解决
  7. php 标点符号,php 过滤英文标点符号及过滤中文标点符号代码
  8. 阿里巴巴在宁成立江苏总部
  9. tkinter的pack布局与place布局结合
  10. OpenCV源码解析之动态内存管理CvMemStorage与CvSeq
  11. 终于找到可转载的摄影基础知识贴了
  12. Python str函数
  13. meethigher-QQ发送卡片消息
  14. 项目经理论坛_项目经理晋升之路:诚信、自信、韧性
  15. 主流量化交易策略:统计套利交易策略
  16. phpadmin的安装教程
  17. yolov5检测限定长宽比检测范围的目标
  18. mysql和oracle面试题_【SQL 面试题2】Mysql 和Oracle数据库
  19. [Linux Audio Driver] 移植外部CODEC常见编译报错解决(持续更新)
  20. 软件测试的分类有哪些?

热门文章

  1. 小米真蓝牙耳机说明书_媲美AirPods?小米真无线蓝牙耳机Air 2开箱
  2. python数值运算答案_笨方法学Python 习题3:数字和数学计算
  3. PDF文件转jpg格式图片
  4. oracle sql 数据库之间导入数据
  5. Study 1 —— HTML5概述
  6. Docker实践:Centos下安装Docker并简单的使用
  7. 把一张的数据添加到另一张中
  8. Linux:如何获取打开文件和文件描述符数量
  9. DLX (Dancing Links/舞蹈链)算法——求解精确覆盖问题
  10. linux socket编程之TCP与UDP