arXiv:1703.06103v4

文章目录

  • 1.Introduction
  • 2.神经关系建模(Neural relational modeling)
    • 2.1 关系图卷积网络(Relational graph convolutional networks)
    • 2.2 正则化(Regularization)
  • 3.实体分类(Entity classification)
  • 4.链接预测(Link prediction)
  • 5.对该方法的实验评估
  • 参考文献

1.Introduction

主要贡献如下:

  • 第一个证明GCN框架可以应用于关系数据建模的工具,特别是链接预测和实体分类任务的工具。
  • 介绍了用于参数共享和实施稀疏性约束的技术,并使用它们将R-GCN应用于具有大量关系的多图。
  • 展示了以DistMult为例的分解模型的性能,可以通过在关系图中执行多个信息传播步骤的编码器模型来丰富它们,从而显着提高其性能。

2.神经关系建模(Neural relational modeling)

定义有向标签多图(directed and labeled multi-graphs)为G=(V,E,R)G = (\mathcal{V}, \mathcal{E}, \mathcal{R})G=(V,E,R),包含顶点vi∈Vv_i \in \mathcal{V}vi​∈V,和有标签的边(关系)(vi,r,vj)∈E(v_i, r, v_j) \in \mathcal{E}(vi​,r,vj​)∈E,其中的r∈Rr \in \mathcal{R}r∈R是一类关系类型。

R-GCN模型如下图:

2.1 关系图卷积网络(Relational graph convolutional networks)

一般的图卷积神经网络层结构:
hi(l+1)=σ(∑m∈Migm(hi(l),hj(l)))h_i^{(l+1)} = \sigma \left( \sum_{m \in \mathcal{M}_i} g_m(h_{i}^{(l)}, h_{j}^{(l)}) \right) hi(l+1)​=σ(m∈Mi​∑​gm​(hi(l)​,hj(l)​))
其中Mi\mathcal{M}_iMi​是顶点viv_ivi​的消息输入顶点集合。gm(.,.)g_m(.,.)gm​(.,.)通常选择一个类似于神经网络函数,比如简单线性变换gm(hi,hj)=Whjg_m(h_i, h_j) = Wh_jgm​(hi​,hj​)=Whj​。

论文提出的图卷积神经网络层结构:
hi(l+1)=σ(∑r∈R∑j∈Nir1ci,rWr(l)hj(l)+Wr0(l)hj(l)).h_i^{(l+1)} = \sigma \left( \sum_{r \in \mathcal{R}} \sum_{j \in \mathcal{N}_i^r} \frac{1}{c_{i,r}} W_{r}^{(l)} h_{j}^{(l)} + W_{r0}^{(l)} h_{j}^{(l)} \right). hi(l+1)​=σ⎝⎛​r∈R∑​j∈Nir​∑​ci,r​1​Wr(l)​hj(l)​+Wr0(l)​hj(l)​⎠⎞​.
其中Nir\mathcal{N}_i^rNir​是在关系r∈Rr \in \mathcal{R}r∈R下顶点viv_ivi​的邻居顶点,ci,rc_{i,r}ci,r​是归一化因子,可以取ci,r=∣Nir∣c_{i,r}=|\mathcal{N}_i^r|ci,r​=∣Nir​∣。

为图中的每个顶点添加自连接。

To ensure that the representation of a node at layer l+1l + 1l+1 can also be informed by the corresponding representation at layer lll, we add a single self-connection of a special relation type to each node in the data.

2.2 正则化(Regularization)

R-GCN的两种分离的正则化方法:basis-decomposition 和 block-diagonal-decomposition.

basis-decomposition :
Wr(l)=∑b=1Bar,b(l)Vb(l),Vb(l)∈Rd(l+1)×d(l).W_{r}^{(l)} = \sum_{b=1}^{B} a_{r,b}^{(l)} V_{b}^{(l)}, \qquad V_{b}^{(l)} \in \mathbb{R}^{d^{(l+1)} \times d^{(l)}}.Wr(l)​=b=1∑B​ar,b(l)​Vb(l)​,Vb(l)​∈Rd(l+1)×d(l).
ar,b(l)a_{r,b}^{(l)}ar,b(l)​是只依赖于rrr的因子。
Wr(l)W_{r}^{(l)}Wr(l)​是由Vb(l)V_{b}^{(l)}Vb(l)​线性组合。

block-diagonal decomposition
Wr(l)=⨁b=1BQb,r(l),Qb,r(l)∈Rd(l+1)B×d(l)B.W_{r}^{(l)} = \bigoplus_{b=1}^{B} Q_{b,r}^{(l)}, \qquad Q_{b,r}^{(l)} \in \mathbb{R}^{ \frac{d^{(l+1)}}{B} \times\frac{d^{(l)}}{B} }.Wr(l)​=b=1⨁B​Qb,r(l)​,Qb,r(l)​∈RBd(l+1)​×Bd(l)​.
Wr(l)W_{r}^{(l)}Wr(l)​是由Vb(l)V_{b}^{(l)}Vb(l)​组成的块对角矩阵diag(Q1,r(l),⋯,QB,r(l))diag(Q_{1,r}^{(l)}, \cdots, Q_{B,r}^{(l)})diag(Q1,r(l)​,⋯,QB,r(l)​)。

basis-decomposition可以看作是不同关系类型之间有效权重共享的一种形式,而block-diagonal decomposition可以看作是每种关系类型对权重矩阵的稀疏约束。 块分解结构编码的直觉是,可以将潜在特征分组为变量集,这些变量在组内比在组之间更紧密地耦合。 两种分解都减少了学习高度多关系数据(例如,现实的知识库)所需的参数数量。 同时,我们期望基本参数化可以缓解稀疏关系的过度拟合,因为稀疏关系和更频繁关系之间共享参数更新。

3.实体分类(Entity classification)

最后一层采用softmax(.)softmax(.)softmax(.)激活函数,在有标签顶点上使用cross-entropy loss:
L=−∑i∈Y∑k=1Kti,kln⁡hi,kL.\mathcal{L} = - \sum_{i \in \mathcal{Y}} \sum_{k=1}^{K} t_{i,k} \ln h_{i,k}^{L}. L=−i∈Y∑​k=1∑K​ti,k​lnhi,kL​.
其中Y\mathcal{Y}Y是有标签顶点集,ti,kt_{i,k}ti,k​是ground-truth。

4.链接预测(Link prediction)

Link prediction的任务 知识库由一般用有向有标签图G(V,E,R)G(\mathcal{V}, \mathcal{E},\mathcal{R})G(V,E,R)表示,一般提供一个不完全的边子集E^\hat{\mathcal{E}}E^,需要找到一个分数函数f(s,r,o)f(s,r,o)f(s,r,o)将边(s,r,o)(s,r,o)(s,r,o)预测为某类的分数。

采用自动编码机模型:

Encoder 将每个实体vi∈Vv_i \in \mathcal{V}vi​∈V 映射到一个实值向量e⃗i∈Rd\vec{e}_i \in \mathbb{R}^dei​∈Rd。

Decoder 解码器根据顶点表示重建图的边,将(subject, relation, object)三元组映射一个实数分数,即s:Rd×R×Rd→Rs:\mathbb{R}^d \times \mathcal{R} \times \mathbb{R}^d \rightarrow \mathbb{R}s:Rd×R×Rd→R。

使用DistMult[ang et al. 2014]做解码器,每个关系rrr对应一个对角阵Rr∈Rd×dR_r \in \mathbb{R}^{d \times d}Rr​∈Rd×d,元组(s,r,o)(s,r,o)(s,r,o)的分数为:
f(s,r,o)=esTRre0.f(s,r,o) = e_s^T R_r e_0. f(s,r,o)=esT​Rr​e0​.

使用负样本训练模型采样。 对于每个观察到的示例,我们进行采www个负样本。通过随机破坏每个正面示例的主题或对象来进行采样。 针对交叉熵损失进行了优化,以使模型的可观察三元组得分高于负三元组:
L=−1(1+w)∣E^∣∑(s,r,o,y)∈Tylog⁡l(f(s,r,o))+(1−y)log⁡(1−l(f(s,r,o))).\mathcal{L} = - \frac{1}{(1+w)|\hat{\mathcal{E}}|} \sum_{(s,r,o,y)\in \mathcal{T}} y \log l(f(s,r,o)) + (1-y) \log \left( 1-l(f(s,r,o)) \right). L=−(1+w)∣E^∣1​(s,r,o,y)∈T∑​ylogl(f(s,r,o))+(1−y)log(1−l(f(s,r,o))).
其中T\mathcal{T}T是总的样本数(含真实的与破坏得到的负样本),lll是logistic sigmoid函数,yyy是指示函数,真样本是取值为1,否则为0。

5.对该方法的实验评估

关系抽取实验

数据集:WordNet(WN18),Freebase(FB15K)

baseline:LinkFeat,DistMult,CP,TransE,HolE,ComplEx

评价准则:MRR(mean reciprocal rank)(Raw,Filtered),Hits @(1,3,10)

结果如下图:

实体分类实验
数据集:AIFB、MUTAG、BGS、AM

baseline:Feat、WL、RDF2Vec

评价准则:准确率

结果如下图:

参考文献

  • Modeling Relational Data with Graph Convolutional Networks
  • paperWeekly知识图谱阅读小组-《Modeling Relational Data with Graph Convolutional Networks》
  • RGCN - Modeling Relational Data with Graph Convolutional Networks 使用图卷积网络对关系数据进行建模 ESWC 2018
  • 利用GCN完善知识库《Modeling Relational Data with Graph Convolutional Networks》

论文阅读笔记: Modeling Relational Data with Graph Convolutional Networks相关推荐

  1. 【论文解读 ESWC 2018 | R-GCN】Modeling Relational Data with Graph Convolutional Networks

    论文题目:Modeling Relational Data with Graph Convolutional Networks 论文来源:ESWC 2018 论文链接:https://arxiv.or ...

  2. 论文阅读 Modeling Relational Data with Graph Convolutional Networks

    Modeling Relational Data with Graph Convolutional Networks 使用图卷积网络建模关系数据 发表于 [stat.ML] 26 Oct 2017 摘 ...

  3. RGCN - Modeling Relational Data with Graph Convolutional Networks 使用图卷积网络对关系数据进行建模 ESWC 2018

    文章目录 1 相关介绍 两个任务 main contributions 2 Neural relational modeling 2.1 符号定义 2.2 关系图卷积网络R-GCN 2.3 Regul ...

  4. 2018 ESWC | Modeling Relational Data with Graph Convolutional Networks

    2018 ESWC | Modeling Relational Data with Graph Convolutional Networks Paper: https://arxiv.org/pdf/ ...

  5. 论文笔记:ESWC 2018 Modeling Relational Data with Graph Convolutional Networks

    前言 论文链接:https://arxiv.org/pdf/1703.06103.pdf github:https://github.com/kkteru/r-gcn 本文提出了一种将图卷积操作应用与 ...

  6. GNN in KG(一) Modeling Relational Data with Graph Convolutional Networks,ESWC2018

    本文作者来自University of Amsterdam,Kipf作为共同一作.其实ESCW只是CCF C类会议,不过外国人当然不看CCF啦.这是本系列的第一篇,做了一阵子GNN的理论研究,当然也需 ...

  7. 谣言检测相关论文阅读笔记:DDGCN: Dual Dynamic Graph Convolutional Networks for Rumor Detection on Social Media

    来源:AAAI2022 摘要:现有的谣言检测很少同时对消息传播结构和时序信息进行建模,与评论相关的知识信息的动态性也没有涉及.所以本文提出了一个新颖的双动态图卷积网络-DDGCN,该模型能够在一个统一 ...

  8. Modeling Relational Data with Graph Convolutional Networks(2017)

    用图卷积网络建模关系数据(2017) 摘要 知识图支持多种应用,包括问答和信息检索.尽管在它们的创建和维护上投入了巨大的努力,但即使是最大的产品(如Yago.DBPedia或wikidata)仍然不完 ...

  9. 视频分类论文阅读笔记——Learning Spatiotemporal Features With 3D Convolutional Networks

    论文:Learning Spatiotemporal Features With 3D Convolutional Networks 作者:FaceBook AI研究院 来源:ICCV2015 代码: ...

最新文章

  1. 快速理解https是如何保证安全的
  2. 【Java面试题】49 垃圾回收的优点和原理。并考虑2种回收机制。
  3. C#利用SharpZipLib解压或压缩文件夹实例操作
  4. 戴尔电脑安装win 7
  5. c++vector操作
  6. OpenGL基础46:切线空间
  7. 【转载】SQL Server 2005关于数据类型最大值(3)
  8. 移动脱机 Outlook 数据文件 (.ost)
  9. Atitit eclipse新特性总结3.1---4.4  4.5
  10. 为程序界面添加滑动条
  11. 固态硬盘(samsung SSD 850 pro)相关问题
  12. 嘉立创 PCB 生产流程
  13. FAQ(常见问题解答)
  14. mongodb使用csv导入导出
  15. 作者序:互联网的负能量之声
  16. num转大写中文(零壹贰叁肆伍陆柒捌玖)
  17. LeetCode初级算法之数组:有效数独
  18. 分享5:我常用的一款动画屏幕录制软件
  19. 企业使用云计算机的好处,三个问题,让你彻底明白企业为什么上云以及企业上云的好处...
  20. Notion——Android版下载与注册登录

热门文章

  1. a标签target属性
  2. 自然语言处理学习——文本相似度检测Semantic Textual Similarity之一些资料和研究
  3. MATLAB 提取文件名中数字
  4. linux和windows2000中的安全措施
  5. 掌握企业核心:工商详细信息API 60多项全维度信息解读
  6. GORM 外键ASSOCIATION_FOREIGNKEY和FOREIGNKEY和references的区别
  7. 短链接的应用场景总结
  8. 喜讯!热烈祝贺安科瑞DJSF1352-RN/D直流电能表取得UL证书
  9. 华为三层交换机路由配置案例_华为 三层交换机VLAN间路由配置详解
  10. 前端面试:被问到BFC,要这样答才能满分