Paper: https://arxiv.org/pdf/1710.10903

2018 ICLR | GRAPH ATTENTION NETWORKS

摘要

作者提出了图注意网络(GATs),一种基于图结构数据的新型神经网络架构,利用隐藏的自我注意层来解决先前基于图卷积或其近似方法的缺点。通过堆叠层,节点可以参与到它们的邻域特性中,可以(隐式地)为邻域中的不同节点指定不同的权值,而不需要任何代价高昂的矩阵操作(比如倒置),也不需要预先知道图结构。通过这种方式,我们同时解决了基于频谱的图神经网络的几个关键挑战并且是模型直接推导的能力接近了递归推导的能力。论文的模型GAT获得了最优的结果,建立在四个数据集上,分别是:Cora, Citeseer 、Pubmed citation network datasets、PPI(protein-protein interaction,这个数据集在训练过程中无法获得图的结构)。

模型

GAT结构-图注意力层
输入是一组节点特征,记为h={h1⃗,h2⃗,...hN⃗},h⃗i∈RFh=\{\vec{h_1}, \vec{h_2},...\vec{h_N}\}, \vec{h}_i \in R^Fh={h1​​,h2​​,...hN​​},hi​∈RF
输出是一组新的节点特征,记为h′={h1′⃗,h2′⃗,...hN′⃗},h⃗i′∈RF′h'=\{\vec{h_1'}, \vec{h_2'},...\vec{h_N'}\}, \vec{h}_i' \in R^{F'}h′={h1′​​,h2′​​,...hN′​​},hi′​∈RF′
其中 hi⃗\vec{h_i}hi​​是新的特征向量,其长度为 F′F'F′ 。

为了获得更高层级的表达能力,需要将输入的特征转换为更高级别的特征,一个可学习的线性变换是必须的,作为端到端的过程,同时需要一个初始化线性转变的矩阵 W,W∈RF′×FW, W \in R^{F' \times F}W,W∈RF′×F,这个 WWW作用于每一个节点,之后通过运用一个自我注意力(self-attention)作用于节点:一个共享的注意力机制KaTeX parse error: Double superscript at position 6: a:R^F'̲ \times R^F\rig…,结果成为注意力系数,如下表示:

使用了一阶的邻接点(包括节点i本身)来对该系数进行计算,这样做的好处是可以很容易的比较不同节点的关系,正则化所有节点j(邻接点)的注意力系数,使用了softmax方法,公式如下:

中的 α\alphaα使用了单层前馈神经网络(single-layer feedforward neural network)参数使用了一个向量 αT⃗∈R2F′\vec{\alpha^T} \in R^{2F'}αT∈R2F′ ,这样一来注意力系数公式完全展开如下所示:

其中, TTT表示转置,∣∣||∣∣ 表示连接操作(concatenation operation) 一旦达到(Once obtained),这个正则化的注意力系数就可以备用来计算对应特征的线性组合,作为每个节点的输出特性。(这里还需要使用一个σ\sigmaσ函数作为非线性输出),具体公式如下:

为了稳定自我学习机制,论文使用出了一种多头注意力(multi-head attention)的方法,具体的说(Specificall),就是执行KKK次公式7,然后将执行的特征连接(concatenated)起来,具体公式如下:

其中∣|∣|表示连接操作, αijk\alpha_{ij}^kαijk​表示第kkk次注意力系数, wkw^kwk 表示kkk头的线性变换矩阵,值得注意的是,在这个公式中,每个节点所输出的特征h′h'h′包含KF′KF'KF′ 个特征(而非 F′F'F′ )。特别的,如果我们在网络中使用多头的框架预测,连接操作就不是很适合了,相反的,文中采用了平均值的方法,将最终的非线性(通常是用于分类问题的softmax或logistic sigmoid)应用到多头部图的注意层的聚合过程中,图解说明为图1后部分。具体公式如下:

实验




在Cora数据集上预训练GAT模型的第一个隐藏层的计算特征表示的t-SNE图。

参考

https://zhuanlan.zhihu.com/p/296587158

2018 ICLR | GRAPH ATTENTION NETWORKS相关推荐

  1. 图网络 | Graph Attention Networks | ICLR 2018 | 代码讲解

    [前言]:之前断断续续看了很多图网络.图卷积网络的讲解和视频.现在对于图网络的理解已经不能单从文字信息中加深了,所以我们要来看代码部分.现在开始看第一篇图网络的论文和代码,来正式进入图网络的科研领域. ...

  2. 【ICLR 2018图神经网络论文解读】Graph Attention Networks (GAT) 图注意力模型

    论文题目:Graph Attention Networks 论文地址:https://arxiv.org/pdf/1710.10903.pdf 论文代码:https://github.com/Peta ...

  3. 【图神经网络论文整理】(二)—— HOW ATTENTIVE ARE GRAPH ATTENTION NETWORKS?:GATv2

    ICLR 2022 Shaked Brody(Technion), Eran Yahav(Technion)Uri Alon(Language Technologies InstituteCarneg ...

  4. 论文阅读笔记:MGAT: Multi-view Graph Attention Networks

    论文阅读笔记:MGAT: Multi-view Graph Attention Networks 文章目录 论文阅读笔记:MGAT: Multi-view Graph Attention Networ ...

  5. 论文笔记之:Graph Attention Networks

    Graph Attention Networks 2018-02-06  16:52:49 Abstract: 本文提出一种新颖的 graph attention networks (GATs), 可 ...

  6. 论文阅读ICLR2020《ADAPTIVE STRUCTURAL FINGERPRINTS FOR GRAPH ATTENTION NETWORKS》

    论文阅读ICLR2020<ADAPTIVE STRUCTURAL FINGERPRINTS FOR GRAPH ATTENTION NETWORKS> 摘要 确定节点相似性时图的结构 Ad ...

  7. 2019_WWW_Dual graph attention networks for deep latent representation of multifaceted social effect

    [论文阅读笔记]2019_WWW_Dual graph attention networks for deep latent representation of multifaceted social ...

  8. Dual Graph Attention Networks for Deep Latent Representation of Multifaceted Social...》论文学习笔记

    Dual Graph Attention Networks for Deep Latent Representation of Multifaceted Social Effects in Recom ...

  9. 图注意力网络——Graph attention networks (GAT)

    文章目录 摘要 引言 GAT结构 数据集与评估结果 未来改进方向 参考文献 摘要   图注意力网络,一种基于图结构数据的新型神经网络架构,利用隐藏的自我注意层来解决之前基于图卷积或其近似的方法的不足. ...

最新文章

  1. nginx动静分离和负载均衡
  2. C++对象内存布局--③测试多继承中派生类的虚函数在哪一张虚函数表中
  3. linux pxe启动ftp格式,FTP+DHCP+TFTP+PXElinux实现RHLINUX的网络自动安装
  4. JS中,如何判断一个被转换的数是否是NaN
  5. 解决pytorch DataLoader 加载数据报错UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xe5 in position 1023
  6. PyTorch:tensor-数学API
  7. miui游戏驱动程序偏好设置_MIUI 11 期待吗?MIUI 10这几个小设置,你都了解吗?...
  8. 倾斜摄影三维模型OSGB格式简化(压缩、优化)
  9. TCPMP播放器UI的修改方法
  10. ext renderto
  11. [哎]关于ftp扫描工具的破解问题
  12. 88页《Redis学习文档》,从入门到精通,看这一篇就足够
  13. VB操作excel 格式设置及打印页面设置(精简)
  14. 触摸板小红点失灵怎么办? - Thinkpad
  15. 交换机的带宽线速概念
  16. 【原创】《矩阵的史诗级玩法》连载十六:二元二次方程一般式和圆锥曲线的关系(下)
  17. 关于构建网络安全知识库方向相关知识的学习和思考
  18. 出口退税率6月20日准时出通知了!客户下单了!
  19. 华清远见-重庆中心-数据库阶段技术总结/知识点梳理/个人总结
  20. xAd:南京大学大二学生开发的视频内广告动态植入技术

热门文章

  1. 射频领域及测试工具简述——TFN 手持式频谱分析仪 FAT100/FAT130
  2. 百度地图去除骑行线路导航中的节点
  3. TensorFlow 从入门到精通(5)—— 多层神经网络与应用
  4. 新浪图床链接-阿里云oss 一键替换程序
  5. 灵眸action_大疆Osmo Action灵眸运动相机值得买吗?
  6. 给所有曲解孔子的人[缠版论语篇](一)
  7. bzoj 4338: BJOI2015 糖果
  8. 飞凌嵌入式RK3568J核心板助力工业机器人产业迈向高质量发展新阶段
  9. Notion + CloudFlare + 域名搭建网站
  10. 究竟Python语言有什么神奇之处,让它如此火爆?