Knowledge Graph Embedding via Graph Attenuated Attention Networks

基于图衰减注意网络的知识图嵌入

发表于 Digital Object Identifier 10.1109/ACCESS.2019.2963367
摘要:知识图包含丰富的现实世界的知识,可以为人工智能应用程序提供强有力的支持。知识图的补全已经取得了很大的进展,最先进的模型是基于图卷积神经网络的。这些模型自动提取特征,结合图形模型的特征,生成具有较强表达能力的特征嵌入。但是,这些方法对知识图中的关系路径赋予相同的权值,忽略了相邻节点所呈现的丰富信息,导致三元特征的挖掘不完全。为此,我们提出了一种新的表示方法——图衰减注意网络(Graph Attenuated Attention networks-GAAT),该方法集成了一种衰减注意机制,在不同的关系路径上分配不同的权重,并从邻域获取信息。因此,实体和关系可以在任何邻居中学习。我们的实证研究为衰减注意力模型的有效性提供了深刻的见解,并在两个基准数据集WN18RR和FB15k-237上表明,与最先进的方法相比,我们有显著的改进。
我们的模型引入了注意衰减机制,同时考虑了n-hop邻居,即实体越接近一个给定的实体,获得的注意权重越高。我们将其添加到GAt中,并学习实体和关系的新嵌入。然后用我们的模型分别训练关系嵌入和实体嵌入。
GCNs在图特征提取方面取得了很大的进步。但是仍然存在一个问题,GCNs只关注节点本身,而不考虑它的邻居,这些邻居包含丰富的有价值的信息。图形注意网络(GATs)[13]是对GCNs的进一步改进。GA t强调将不同的重要值分配给不同的节点邻居,而不是像在GCNs中那样为所有邻居节点分配平等的权重。
图注意网络层节点集的输入特征为e= {e1,e2,…,eN}则节点的输出特性为e0= {e’1,e’2,…,e’N},其中ei表示第i个节点的输入嵌入。e’i表示第i个节点的输出嵌入。N表示节点数。节点的注意值可以形式化为

其中,w表示将输入特征映射到高维输出特征空间的参数线性变换矩阵,fa表示一个注意函数。注意值eij反映了边(ei,ej)的重要性,可以用来衡量头部节点ei的的重要性。可以得到如图2所示的注意值。
我们学习每个边的注意力权重,然后根据这些权重从邻居那里收集信息:

其中,ηij表示相对关注,它是通过softmax函数对所有邻居的值进行计算的。W表示一个线性映射矩阵。执行此操作后,输出节点ei的邻居表示。Ω表示实体ei的邻居集合,R表示连接两者之间的关系集。
为了防止模型的过拟合,我们使用多个独立的不同注意进行注意计算。多头注意结构如图3所示。

头节点(HN)、边节点(E)和尾节点(TN)先进入一个线性变换,然后输入到多头注意。每个header之间的参数都是不共享的,HN, E, TN的线性变换参数是不同的。然后,将m个结果串联起来,利用线性变换得到的值作为多头注意的结果。将多个注意头连接起来的多头注意过程如下图所示

式中||表示串联操作,σ表示非线性激活函数,ηmij表示第m个注意机制所获得的权重,Wm表示第m个注意机制的线性映射矩阵。然后,我们使用平均法得到最终的节点表示,如下所示

在知识图中,一个实体与给定实体的距离越近,其关注价值就越高。此外,从图4中还可以看出,图中关系的颜色越浅,权重越低,对给定实体的影响越小。在此基础上,我们提出了一种衰减注意机制,对给定实体的相邻节点的注意值分配不同的权重。

图中显示了我们的图衰减注意层的聚集过程。Wi表示边缘的相对注意值。蓝色虚线代表n-hop邻居的辅助边。当n=4时,节点“Angelina Jolie”的注意权重为ω1+1/2ω2+1/3ω3+1/4ω4
根据与给定实体越接近,获得的注意权越大的原则,我们定义衰减的注意系数θid,表示给定节点ei的第d个跳跃邻居的衰减。假设给定节点与其d-hop邻居之间的距离为xd,则衰减的注意系数可以形象化为

其中θ0为初始衰减注意系数,x0为路径步长参数,默认为1。
我们将衰减注意机制合并到GA t中,形成我们提出的图衰减注意网络模型。该模型通过对不同的关系分配不同的权重,从节点的邻居中收集特征,增强实体和关系嵌入。
最先进的方法集中于实体嵌入,而关系嵌入仅使用TransE训练的初始向量。而关系作为知识图中最重要的组成部分,对知识推理的质量起着决定性的作用。此外,特定关系嵌入可以使表示嵌入包含更多有价值的特征。因此,我们建议细化关系的类型,并使用我们的GAATs模型来学习关系的嵌入。
我们定义初始关系嵌入矩阵R∈RNr×T,其中Nr表示关系个数,T表示嵌入每个关系的初始特征维数,第i行表示第i个关系的嵌入量。经过GAATs层处理后对应的输出矩阵为R’∈RNt×T’,其中Nt表示三元组的个数,T’表示输出特征维数。换句话说,我们独立地学习每个三元组的关系嵌入。
我们使用GAAT模型来学习关系嵌入。在关系的图结构中,我们首先分别计算每个关系的注意值,得到输出关系的嵌入矩阵为R’=R·WR,其中WR∈RT×T’为权矩阵。具体来说,提取图1中的一些子图,我们将关系划分为三个类别,如图5所示。

(1)如果两个实体之间有直接关系,如图5(a)所示。然后,关系式为

式中,R’ij表示实体ei和ej之间的关系向量,ηij表示实体ei和ej之间的注意值,R (cor)表示初始关系矩阵对应的行。
(2)如果两个实体之间存在间接连接,但可以通过相邻节点访问,如图5(b)所示。然后,关系式为

Ωi表示实体ei的邻居集,θis表示实体ei和es之间的衰减注意系数。我们利用衰减注意机制计算邻居的加权注意值,然后用邻居的关系嵌入与注意值的乘积作为关系的表示。
如果两个实体之间存在间接连接,而存在直接连接,如图5©所示。我们利用衰减注意机制计算邻居的注意值,然后利用已有边缘的关系来表示它。然后,关系表示为
如果两个实体之间存在间接连接,并且存在直接连接,如图5©所示。我们利用衰减注意机制计算邻居的注意值,然后利用已有边缘的关系来表示它。然后,关系表示为

然而,在学习新的关系嵌入时,关系丢失了初始化信息。为了解决这个问题,我们指定两个矩阵,以便将原始的关系嵌入矩阵添加到最终的表示法中

其中WN∈RNt×Nr和WT∈RT×T0表示线性变换矩阵,R’'表示最终的关系嵌入矩阵。
实体在知识图中起着重要的作用,实体与关系之间的对应关系在知识图推理中尤为重要。例如,实体Anthoy Russo在不同的三元组中扮演不同的角色,即(brother_of, Joe Russo),(college, Robert Downey Jr .)。GAATs嵌入实体具有以下优点:(1)我们的模型可以解决平移模型灵活性不足的问题。(2)我们的模型可以在不同的关系下嵌入同一实体。(iii)模型利用衰减注意机制计算实体的注意权重,使实体能够携带知识图中关系路径的距离信息,实现具体实体的嵌入,便于处理1-N、N-1、N-M等复杂关系。
我们定义初始实体嵌入矩阵E∈RNe×D,其中Ne表示实体个数,D表示嵌入实体的初始特征维数,第j行表示第j个实体的嵌入。经过GAATs层处理后对应的输出矩阵为E’∈RNe×D’,其中D’表示输出特征维数。
注意值反映了边缘特征的重要性,可以用来衡量头部实体的重要性。首先学习三元组在KGs中的嵌入,将初始化的嵌入实体与关系向量连接,得到三元组的初始表示,如下所示

式中,W’∈R1×(2D+T’)表示线性过渡矩阵,tijk表示三重向量(ei,rk,ej), hi,tj,rk分别表示ei,rk,ej的嵌入。然后,我们使用ReLU激活函数学习三重嵌入,以确保三元组注意是非负的。

式中,cijk为变换后的向量,V∈R1×(2D+T’)为线性变换参数矩阵。
应用softmax函数得到实体的n-hop邻居的注意值,从而计算出每三个节点的注意权ηijk。同时,当我们知道每个三元组注意力的权重时,我们添加衰减的注意系数,以确保我们越接近给定的三元组注意力权重增加的越高。ηijk的计算方法如下

实体ei的新嵌入被更新为三元组注意权重与三元组嵌入乘积的加权和,如下所示

为了提高学习过程的稳定性和学习更多的邻居信息,我们加入了一个类似GATs的多头注意机制。最后,每个实体的邻居表示如下

与关系嵌入类似,在学习新实体嵌入时,实体会丢失其初始化信息。为了解决这一缺点,我们指定一个线性过渡矩阵WE∈RT×T’,将原始的关系嵌入矩阵加入到最终表示中,如下所示

图6所示的图衰减的注意层。在我们的结构中,实体逐层收集邻居的信息。例如,在图4中,实体Brad Pitt从第一层的直接邻居收集信息。然后,它从间接实体美国和直接实体安吉丽娜朱莉在第二层收集信息。一般情况下,n-hop邻居实体可以通过n层模型累积。

该图显示了我们模型的整个结构。黄色圆圈表示初始实体嵌入,蓝色圆圈表示初始关系嵌入,深黄色和蓝色圆圈分别表示转换实体和关系嵌入。
我们的模型利用了平移模型的评分函数,具体来说,我们尝试通过最小化由d(h+r,t)=|| hi+rk-tj||给出的L1范数不相似性度量来学习实体嵌入和关系嵌入。我们用基于利润率的排名损失来训练我们的模型,作为训练的目标如下

模型解码器使用了CapsE
链接预测实验结果:

个人总结:本文提出了一种带距离衰减的图注意力网络,通过节点之间的距离(跳数)来对节点注意力权重进行调整。同时还对每一个三元组的关系都建立了一个不同的嵌入参数,再对节点的每一条路径进行attention后与原向量加权相加得到新嵌入,但文章还是仅仅对实体进行了处理,没有对关系进行处理。

论文阅读 Knowledge Graph Embedding via Graph Attenuated Attention Networks相关推荐

  1. 论文阅读笔记:MGAT: Multi-view Graph Attention Networks

    论文阅读笔记:MGAT: Multi-view Graph Attention Networks 文章目录 论文阅读笔记:MGAT: Multi-view Graph Attention Networ ...

  2. 论文阅读笔记:Multi-view adaptive graph convolutions for graph classification

    论文阅读笔记:Multi-view adaptive graph convolutions for graph classification 文章目录 论文阅读笔记:Multi-view adapti ...

  3. 【论文阅读】Learning Spatiotemporal Features with 3D Convolutional Networks

    [论文阅读]Learning Spatiotemporal Features with 3D Convolutional Networks 这是一篇15年ICCV的论文,本篇论文提出的C3D卷积网络是 ...

  4. 【论文阅读】Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

    [论文阅读]Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks 虽然这是一篇17年ICCV的论文,但是这篇 ...

  5. 【论文阅读】MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

    用于异质图嵌入的元路径聚合图神经网络 摘要 1 引言 2 准备工作 3 相关工作 3.1 GNN 3.2 异质图嵌入 4 方法 4.1 节点内容转换 4.2 元路径内部聚合 4.3 元路径间的聚合 4 ...

  6. 论文阅读”Multigraph Fusion for Dynamic Graph Convolutional Network“(TNNLS2022)

    论文标题 Multigraph Fusion for Dynamic Graph Convolutional Network 论文作者.链接 作者: Gan, Jiangzhang and Hu, R ...

  7. 综述论文阅读”A comprehensive survey on graph neural networks“(TNNLS2020)

    论文标题 A comprehensive survey on graph neural networks 论文作者.链接 作者:Wu, Zonghan and Pan, Shirui and Chen ...

  8. 「论文翻译」Predicting gene-disease associations via graph embedding and graph convolutional networks

    BIBM 2019(B类) 文章目录 Abstract 1. Introduction 2. Methods A. Datasets B. Graph Representation C. Graph ...

  9. 【论文阅读 - AAAI 2020】Order Matters:Semantic-Aware Neural Networks for Binary Code Similarity Detection

    Order Matters: Semantic-Aware Neural Networks for Binary Code Similarity Detection Authors: Zeping Y ...

最新文章

  1. HDU 2955 Robberies
  2. windows 安装pycocotools
  3. Windows存储串口数据至txt文件中的教程及代码
  4. j详细说明ava于clone办法
  5. 【图像算法】图像特征:GLCM灰度共生矩阵纹理特征
  6. 开始学习一个指令 directive 并了解指令的意义
  7. 使用ant触发Tomcat的reload操作
  8. 《少年先疯队》第九次团队作业:Beta冲刺与团队项目验收
  9. apache camel_Apache Camel日志组件示例
  10. python 异步下载图片_python3抓取异步百度瀑布流动态图片(二)get、json下载代码讲解...
  11. html中所有的标签,HTML中的所有标签及其做用!
  12. 怎么禁止浏览器自动保存密码?
  13. python计算题_Python练习题
  14. 【线性代数】P6 矩阵的幂转置特殊矩阵
  15. 《工程电磁场(第三版)》(倪光正 主编)复习
  16. 使用html框架制作一个网站布局
  17. 宏基因组公众号4年精华文章目录,收藏贴(2021.1更新)
  18. Conjugate function and Fenchel’s duality theorem
  19. 小白学习记录篇01---C语言和C++的区别以及C语言中文件的含义(不足之处欢迎大佬补充提醒。)
  20. 计算机显示在屏幕上怎么取消,电脑显示屏显示的九宫格怎样取消掉

热门文章

  1. 论文完成过程中发现的重要问题
  2. 2021届java实习生岗位要求
  3. H5的新特性(详细汇总)
  4. 宁德时代一季报暴雷!天齐锂业和赣锋锂业一前一后保驾护航
  5. 做了一个端午节日网页并上线,祝大家端午快乐
  6. android vivo 蓝牙版本,支持蓝牙Hi-Fi:vivo将迎重大升级
  7. 疫情环境下,技术团队居家办公实践
  8. js截取指定字符串中间的字符串
  9. computed:{}
  10. 觉醒、探索和自律:线下数据三部曲