笔记整理:黎洲波,浙江大学硕士,研究方向为自然语言处理、知识图谱。

研究背景

知识图谱因其在问答、语义解析和命名实体消歧等任务取得了良好的效果而受到广泛关注,而大部分知识图谱都存在不全和缺失实体链接的问题,所以需要进行链接预测(Link Prediction)和知识图谱补全(Knowledge Graph Completion)。知识图谱嵌入(Knowledge Graph Embedding)方法被提出来解决该问题。知识图谱嵌入是将知识图谱中所有的实体和关系嵌入到低维空间的方法,从基于距离的方法TransE到目前的效果最好的RotatE,在知识图谱补全任务上效果持续提升。

在知识图谱嵌入中,有两个主要问题受到广泛关注:

1.如何解决1对N,N对1和N对N的复杂关系表示问题。比如1对N的关系:基于距离的方法中,三元组(StevenSpielberg, DirectorOf, ?)的补全要求在经过关系变换DirectorOf后,Jaws和JurassicPark等实体能够距离StevenSpielberg更接近,但是使所有这类实体具有不同的表示是很困难的。2.如何通过已有的三元组学习和推断关系模式。关系模式例如对称(Symmetry)关系IsSimilarT,非对称(Antisymmetry)关系FatherOf,逆向(Inverse)关系PeopleBornHere和PlaceOfBirth以及组合(Composition)关系mother’s father is grandpa等等。

研究动机

之前的TransH、TransD和TransR等方法致力于解决复杂关系表示问题,却只能编码对称/非对称关系,最新的RotatE在编码对称/非对称关系,逆向关系和组合关系上取得了优异的效果,但是复杂关系的预测依然具有挑战性。由此,论文提出了一种新的知识图谱嵌入方法PairRE,它能够同时编码复杂的关系和多种关系模式。

研究方法

模型中使用的两个用于关系表示的向量将头尾实体分别投影到欧式空间,再最小化投影向量的距离。其形式化描述如下:

PairRE和前面提到的几种方法的比较如下,可以看出相比于RotatE,论文提出的PairRE方法在复杂关系表示上表现更优,同时在关系模式的编码上能够编码子(Sub)关系。

直观来说,PairRE中所有的实体表示都在一个超球上。

相比于其他方法,PairRE允许一个实体在不同的关系中有分布式表示,并且成对的关系向量能够对损失函数中的边际进行自适应调整,从而缓解复杂关系的表示问题。例如在1对N的关系补全(h, r, ?)中,由正确的尾实体集合S = {t_1,t_2,…,t_N},论文基于固定边际参数γ的设计了t_i的取值范围:

在TransE和RotatE中也有类似的固定边际参数来控制复杂关系表示,当|S|足够大时,PairRE能够通过减小|r^T|来拟合t_i,而前两种方法效果不佳。

对于各种关系模式,证明PairRE编码的形式化描述如下:

对称/非对称关系模式

逆向关系模式

组合关系模式

对于子关系编码,PairRE满足了以下条件:

子关系模式

PairRE的模型优化中使用了自对抗(Self-adversarial)的负采样损失函数:

其中,γ是固定边界参数,σ是sigmoid函数,(h_i^',r,t_i^')是第i个负样本,补充定义如下

实验验证

实验中用于做链接预测任务的数据集信息如下图

PairRE和其他方法的结果比较如下

上图是本文的主实验结果,可以看到Pair相比于RotatE在各个设定下都取得了更好的效果,如果嵌入向量的维度能够升高到500,效果可能会进一步提升。

文中提到,由于PairRE和RotatE共享超参数和实现方法,所以客观来说与RotatE比较更公平。

论文还针对子关系模式做了补充实验,将PairRE同ComplEx-NNE-AER和SimplE^+进行对比,这两种方法通过设计子关系规则进行语义匹配。论文同时借鉴了ComplEx-NNE-AER中的规则,对本来的损失函数进行改变如下:

对数据集Sports添加以下规则并获得结果

将子关系模式中的两个关系看作同等之后,在数据集DB100k上获得的结果如下

模型分析

对于复杂关系的表示问题,论文对关系的种类进行分别实验,结果表明PairE在N对1和N对N的关系表示在数据集FB15k和ogbl-wikikg2上表现明显超过了其他模型,但是在1对1和1对N的关系表示上结果不佳。论文为了证明成对的关系向量有优越性,单独将成对关系向量机制加在RotatE上,在ogbl-wikikg2数据集上取得了良好的效果。

对于关系模式问题,论文在嵌入向量维度为500下取DB100k中的对称关系r_1:spouse和非对称关系r_2:tv_station/owner,对称关系编码满足r^(H^2 )=r^(T^2 ),编码效果如下:

验证逆向关系r_2和r_3: tv_station_owner/tv_stations,编码满足r_3^H∘r_2^H=r_3^T∘r_2^T,编码效果如下:

验证组合关系r_4: /location/administrative_division/capital/location/administrative_division_capital_relationship/capital,r_5: /location/hud_county_place/place和r_6: base/areas/schema/administrative_area/capital.,编码满足r_4^H∘r_5^H∘r_6^T-r_4^H∘r_5^T∘r_6^H,效果如下:

总结

论文提出的PairRE方法用成对的向量表示每个关系,使损失函数中的余量能够自适应调整,以适应不同的复杂关系,在复杂度略有增加的情况下有效地解决了知识图谱嵌入中的问题。除了对称/不对称、逆向和组合关系之外,PairRE还可以通过对关系表示的简单约束编码子关系。在大规模数据集ogbl-wikikg2上,PairRE取得了最优效果。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

论文浅尝 | PairRE: 通过成对的关系向量实现知识图谱嵌入相关推荐

  1. 论文浅尝 | 利用机器翻译和多任务学习进行复杂的知识图谱问答

    笔记整理 | 谭亦鸣,东南大学博士生. 来源:EACL'21 链接:https://www.aclweb.org/anthology/2021.eacl-main.300.pdf 概述 知识图谱问答过 ...

  2. 论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...

    转载公众号 | 浙大KG 论文题目:Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Mode ...

  3. 论文浅尝 - SIAM ICDM 2020 | 基于图时空网络的知识引导的诊断预测

    论文笔记整理:吴锐,东南大学硕士. 来源:SIAM ICDM 2020 论文下载地址: https://epubs.siam.org/doi/abs/10.1137/1.9781611976236.3 ...

  4. 论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

    论文笔记整理:吴锐,东南大学计算机学院硕士. 来源:ICLR 2020 链接:https://arxiv.org/pdf/1911.03082.pdf 动机 目前针对于GCN的研究大多数都关注在学习无 ...

  5. 论文浅尝 - AAAI2020 | 多轮对话系统中的历史自适应知识融合机制

    论文笔记整理:潘锐,天津大学硕士. 链接:https://www.aaai.org/ojs/index.php/AAAI/article/view/6425 来    源:AAAI 2020 论文简介 ...

  6. 论文浅尝 | 基于平行新闻的Bootstrapping关系抽取

    笔记整理:吴锐,东南大学大四本科生,研究方向为自然语言处理. Citation:Michael Glass, K. B. . (2012). Bootstrapping relation extrac ...

  7. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  8. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

  9. 论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码

    本文内容源自往期「论文浅尝」,由 PaperWeekly 精选并重新排版整理,感谢 PaperWeekly. ISWC 2018 ■ 链接 | http://www.paperweekly.site/ ...

最新文章

  1. Oracle 10g如何对用户姓名,按首字母排序、查询
  2. 不快乐工作场所的生存法则
  3. SQL2008 附加数据库提示 5120错误
  4. mysql创建索引要加index吗_MySql创建索引,添加索引
  5. 解压ubi文件_Linux 文件压缩与解压相关
  6. 很经典的独白,搞网络的童鞋们,你们懂得
  7. 2013年11月17日
  8. [转载]Oracle触发器用法实例详解
  9. 设计模式之——观察者模式
  10. 迅雷7界面引擎XLUI_Bolt_SDK的调用例子
  11. advanced部署vsto到wps-兼容office和wps
  12. Linux平台Libyuv使用指南
  13. FineReport 参数查询
  14. git .git目录提交_入侵git目录
  15. Exp2 后门原理与实践 ——20164316张子遥
  16. GCC学习(动态库与静态库.a与.so)
  17. OpenJudge百炼习题解答(C++)--题4108:羚羊数量-Number Of Antelope
  18. OpenStreetMap开放街道图(OSM)
  19. office2013来了
  20. vim制作python3编辑器

热门文章

  1. WinForm邮件内容编辑器的简单实现
  2. Asp.net中的时区
  3. static函数的申明
  4. linux uuid/uuid.h
  5. 毕业这几年的嵌入式开发之路
  6. Datawhale-零基础入门NLP-新闻文本分类Task05
  7. 【Pytorch神经网络基础理论篇】 02 pytorch环境的安装
  8. mysql 用户管理表_Mysql—用户表详解(mysql.user)
  9. Express 路由模块化以及 Express 应用程序生成器
  10. LeetCode 1250. 检查「好数组」(set / 最大公约数)