DySAT: Deep Neural Representation Learning on Dynamic Graph via Self-Attention Networks
文章目录
- 1 前言
- 2 问题定义
- 2.1 dynamic graph
- 3 DySAT思路
- 3.1 Structural Self-Attention
- 3.2 Temporal Self-Attention
- 4 方法的优势与局限性
- 4.1 优势
- 4.2 局限性
- 论文地址:http://yhwu.me/publications/dysat_wsdm20.pdf
- 源码:DySAT
- 来源:WSDM, 2020
- 关键词:self-attention, representation learning, dynamic graphs,
1 前言
该论文解决的是动态图中的结点表征问题。论文提出了DySAT(Dynamic Self-Attention),以自注意力机制捕捉动态图的结构的动态性。DySAT分别从两个方面捕捉动态性:structural neighborhoods和temporal dynamics,并且使用多头注意力来捕捉多方面的动态性。
2 问题定义
论文中使用图序列来表示动态图。关于动态图的建模,在这里插一句。
2.1 dynamic graph
动态图通常由两种建模方式:图序列(graph snapshots)和基于带时间戳的事件的图(time stamped events,类似于流图)。本质上来看这两种建模方式是等价的,是可以互相转化的。但是不同的建模形式针对这不同的应用场景。snapshot形式的动态图,直观上强调的整体性,图中结点/边的变化是为了整体的图而服务的,这种情况下我们更多的考虑的是作为一个整体的图的应用场景,例如在场景识别中、对图进行分类的任务中。而timestamped形式的动态图,对整体的考虑可能会不是那么强,更强调的是图中结点/边以及这些变化对任务的影响。
作者采用的是snapshots形式的动态图G={G1,...,GT}\mathbb{G} = \{\mathcal{G}^1, ..., \mathcal{G}^T\}G={G1,...,GT}。其中TTT是时间步的数量,Gt=(V,Et)\mathcal{G}^t = (\mathcal{V}, \mathcal{E}^t)Gt=(V,Et)。显然,该论文中动态图的结点是不变的,即不涉及结点的增加或删除。最终的目标就是学习图中每个结点在任意时间ttt时的表征。
3 DySAT思路
DySAT的整体框架如上图所示。DySAT主要分为两个部分:Structural Self-Attention和Temporal Self-Attention。
3.1 Structural Self-Attention
这一部分与GAT中的注意力机制类似,想当于一个邻居结点信息汇聚层。对于每一个snapshot graph,Structural Self-Attention利用当前时刻各个结点的表征计算注意力再进行加权求和,计算公式如下:
zv=σ(∑u∈NvαuvWsxu),αuv=exp(euv)∑w∈Nvexp(ewv)euv=σ(Auv⋅aT[Wsxu∥Wsxv])∀(u,v)∈E\begin{array}{c} z_{v}=\sigma\left(\sum_{u \in \mathcal{N}_{v}} \alpha_{u v} W^{s} x_{u}\right), \alpha_{u v}=\frac{\exp \left(e_{u v}\right)}{\sum_{w \in \mathcal{N}_{v}} \exp \left(e_{w v}\right)} \\ e_{u v}=\sigma\left(A_{u v} \cdot \boldsymbol{a}^{T}\left[\boldsymbol{W}^{s} \boldsymbol{x}_{u} \| \boldsymbol{W}^{s} \boldsymbol{x}_{v}\right]\right) \forall(u, v) \in \mathcal{E} \end{array} zv=σ(∑u∈NvαuvWsxu),αuv=∑w∈Nvexp(ewv)exp(euv)euv=σ(Auv⋅aT[Wsxu∥Wsxv])∀(u,v)∈E
3.2 Temporal Self-Attention
这部分是为了捕捉动态图在时间上的变化模式。计算结点vvv在ttt时的表征时,将在ttt之前的vvv的表征作为temporal self-attention模块的输入,输出的是结点vvv在各个事件点的表征(此时的表征考虑了动态性),计算公式如下:
Zv=βv(XvWv),βvij=exp(evij)∑k=1Texp(evik)evij=(((XvWq)(XvWk)T)ijF′+Mij)\begin{array}{r} Z_{v}=\beta_{v}\left(X_{v} W_{v}\right), \quad \beta_{v}^{i j}=\frac{\exp \left(e_{v}^{i j}\right)}{\sum_{k=1}^{T} \exp \left(e_{v}^{i k}\right)} \\ e_{v}^{i j}=\left(\frac{\left(\left(X_{v} W_{q}\right)\left(X_{v} W_{k}\right)^{T}\right)_{i j}}{\sqrt{F^{\prime}}}+M_{i j}\right) \end{array} Zv=βv(XvWv),βvij=∑k=1Texp(evik)exp(evij)evij=(F′((XvWq)(XvWk)T)ij+Mij)
上式的形式与self-attention的形式一致。其中的M∈RT×T\mathbf{M} \in \mathbb{R}^{T \times T}M∈RT×T是一个掩码矩阵,
Mij={0,i≤j−∞,otherwise M_{i j}=\left\{\begin{array}{ll} 0, & i \leq j \\ -\infty, & \text { otherwise } \end{array}\right. Mij={0,−∞,i≤j otherwise
通常一个注意力捕捉的是一个方面的性质,为了捕捉动态图中多个方面的动态性,作者引入了多头注意力,Structural和Temporal都引入了多头注意力机制。
为了训练模型中的参数,论文使用类似神经语言模型中的共现率来优化参数,这点与word2vec和Node2vec中的损失函数很像,损失函数如下,PntP_n^tPnt为负采样的结点:
L=∑t=1T∑v∈V(∑u∈Nwalk t(v)−log(σ(<eut,evt>))−wn⋅∑u′∈Pnt(v)log(1−σ(<eu′t,evt>)))\begin{aligned} L=\sum_{t=1}^{T} \sum_{v \in \mathcal{V}}\left(\sum_{u \in \mathcal{N}_{\text {walk }}^{t}(v)}-\log \left(\sigma\left(<\boldsymbol{e}_{u}^{t}, \boldsymbol{e}_{v}^{t}>\right)\right)\right.\\ &\left.-w_{n} \cdot \sum_{u^{\prime} \in P_{n}^{t}(v)} \log \left(1-\sigma\left(<\boldsymbol{e}_{u^{\prime}}^{t}, \boldsymbol{e}_{v}^{t}>\right)\right)\right) \end{aligned} L=t=1∑Tv∈V∑⎝⎛u∈Nwalk t(v)∑−log(σ(<eut,evt>))−wn⋅u′∈Pnt(v)∑log(1−σ(<eu′t,evt>))⎠⎞
DySAT是先进行structural self-attention再进行temporal self-attention,作者这样设计是因为:随着时间变化,图的结构是不稳定的。
4 方法的优势与局限性
4.1 优势
- 提出了structural和temporal self-attention来学习动态图中的结点表征
- 使用多头注意力机制捕捉多方面的动态性
- 注意力机制适用于并行
4.2 局限性
- 只能适用于结点不变化的动态图
- 以结点的共现率为损失函数引导模型的训练,这样的损失函数可能重点关注的是图的结构,对于动态性更丰富的图(如结点的特征的变化)是不够的
欢迎访问我的个人博客~~~
DySAT: Deep Neural Representation Learning on Dynamic Graph via Self-Attention Networks相关推荐
- T-PAMI-2021论文Semi-Supervised Multi-View Deep Discriminant Representation Learning阅读笔记
提示:文 0.论文信息 题目:Semi-Supervised Multi-View Deep Discriminant Representation Learning 期刊: IEEE Transac ...
- 【论文笔记】半监督的多视图学习:Semi-supervised Multi-view Deep Discriminant Representation Learning
[论文笔记]Semi-supervised Multi-view Deep Discriminant Representation Learning 1. 概念 多视图学习(Multiview Lea ...
- 【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition
Deep High-Resolution Representation Learning for Visual Recognition 用于视觉识别的深度高分辨率表示学习 文章地址:https://a ...
- Deep High-Resolution Representation Learning for Visual Recognition阅读笔记
用于视觉识别的深度高分辨率表示学习 论文链接 摘要: 高分辨率表示对于人体姿态估计.语义分割和目标检测这类位置敏感的视觉问题至关重要.现有的 sota 框架首先通过串联 high-to-low 分辨率 ...
- 【HRNet】《Deep High-Resolution Representation Learning for Human Pose Estimation》
CVPR-2019 代码:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch 文章目录 1 Background and Mo ...
- Deep Multimodal Representation Learning(深度多模态表示学习)
多模态表示学习旨在缩小不同模态之间的异质性差距,在利用普遍存在的多模态数据中发挥着不可或缺的作用.基于深度学习的多模态表示学习由于具有强大的多层次抽象表示能力,近年来引起了人们的广泛关注. 多模态融合 ...
- 论文解读|2020TPAMI|Deep High-Resolution Representation Learning for Visual Recognition
用于视觉识别的深度高分辨率表征学习 github:https://github.com/HRNet 论文地址:https://arxiv.org/pdf/1908.07919 摘要 高分辨率表示对于位 ...
- Neural Representation Learning in NLP | 实录·PhD Talk #07
来源:paperweekly 原文链接
- AN EMPIRICAL STUDY OF EXAMPLE FORGETTING DURING DEEP NEURAL NETWORK LEARNING 论文笔记
摘要 受到灾难性遗忘现象的启发,我们研究了神经网络在单一分类任务训练时的学习动态. 我们的目标是了解当数据没有明显的分布式转变时是否会出现相关现象. 我们定义了一个"遗忘事件" 当 ...
最新文章
- JasperReport和jFreeReport的比较
- MOSFET驱动器汇总 : 单个N-CHANNEL,半桥,全桥,3项桥
- matlab fspeical,matlab的special函数用法
- 实例22:python
- LightOJ1171 Knights in Chessboard (II)(二分图最大点独立集)
- 李开复:一切靠命运或靠自己都是不合适的
- android最简单的更换主题,教你更换Android手机主题
- 大用户量下Open***部署方案(二)
- redis tutorial
- esp8266教程:smartconfig智能配网
- cx_Oracle.DatabaseError: DPI-1047: Cannot locate a 64-bit Oracle Client library
- 【STM32】开发板学习1 NUCLEO-L476RG:GPIO例程 点亮LED2灯
- linux0.11主存管理程序阅读注释笔记
- Unity Shader - 基础光照之漫反射
- NI Multisim元件库:在Multisim中创建自定义元器件
- 受伤的皇后(八皇后问题)
- SN74LS148优先编码器的级联使用
- 【智能算法】基于双隐含层BP神经网络的预测
- win7安装centOS双系统超详细(转)
- 一文带你读懂“亚当理论”的精髓:期货股票交易操作守则与操作技巧
热门文章
- 万年历日程提醒c语言,Android 日历 万年历 源代码(支持日程提醒)
- NDT方法总结与公式推导
- DB2 sequence 获取下一个值
- win2019服务器版游戏性能,微软win10发布2019年03累积更新,修复游戏和鼠标性能卡顿等问题...
- [大家的项目] cargo-offline 命令
- web设计字体规范_适用于Web设计人员的30种高质量免费字体
- NDN网络学习笔记(一)——NDN基础
- NDN新增tag的方案
- 用Dijkstra算法找到图上两点之间的最短路径
- python适合做网页吗_python是否适合网页编程详解