论文标题

Multigraph Fusion for Dynamic Graph Convolutional Network

论文作者、链接

作者：

Gan, Jiangzhang and Hu, Rongyao and Mo, Yujie and Kang, Zhao and Peng, Liang and Zhu, Yonghua and Zhu, Xiaofeng

链接：https://ieeexplore.ieee.org/abstract/document/9775637/

Introduction逻辑（论文动机&现有工作存在的问题）

图卷积神经网络GCN——现有的GCN都关注于表征学习，即，设计不同的卷积操作——现实场景下，由于噪音和异常值的影响，初始图常常会有一些错误的链接，这会导致特征学习的效果变差——于是，提高初始图的质量可以提高GCN的性能——图学习的目的是，可以输出高质量的图谱以保证表征学习的质量——图的质量可以由很多因素影响，诸如：噪音，原始数据的冗余，数据结构的保存情况等。

噪音和冗余情况对图学习的效果有直接的影响——传统方法是设计一些方法，来移除或减少噪音和冗余所带来的影响，包括：特征选择和子空间学习——但是往往不注重原始的高维数据的噪音和冗余情况，限制了模型的鲁棒性

现有的GCN方法都注重于保存数据的局部结构——然而现实数据往往是复杂的，单独的特征很难有效的捕捉数据的内在结构——传统的方法中证明了，局部结构和全局结构对于图学习来说都十分的重要，它们互相提供了完备的信息——局部结构描述了原始数据的内在组织关系，全局结构反映了原始数据的全局信息——同时考虑局部和全局信息可以使得模型更加的鲁棒

本文提出了一个新颖的GCN模型，包括以下特点：1）融合原始高维数据在低维空间的多重局部图谱，同时尽可能移除噪音和冗余；2）融合了局部和全局图，以生成输入到GCN的原始图谱。第一个融合集成了多重局部图谱中的共通信息，以保证局部结构中边的正确性；第二个融合，目的是试图从全局图中找到局部图的缺失的边。此外，该方法还同时学习了将原始高维数据转换为其低维空间的投影矩阵、两种图结构以及所有样本的表示。因此，每一个变量的更新都会推动表征学习的自适应调整，从而保证我们所提出的方法输出具有识别度的表征。

论文核心创新点

1）新的GCN方法，从原始数据的低维空间中联合指导图学习和表征学习。

2）图融合机制，动态学习图的权重，保证边的正确性以及找到缺失的边

论文方法

论文动机

本文用到标识符如下：

给定一个初始化图谱 $\bold{A}\in\mathbb{R}^{n \times n}$ 以保存图结构的所有样本的特征矩阵 $\bold{X} \in \{\bold{x}_1,\dots,\bold{x}_n\} \in \mathbb{R}^{n \times d}$ ，其中 $n,d$ 分别代表样本的数量和特征维度。GCN将 $\bold{A,X}$ 都作为输入，通过数个隐藏层和一个全连接层，输出 $\bold{X}$ 的新的特征表达 $\bold{Z} \in \mathbb{R}^{n \times c}$ ，其中 $c$ 是类别数目。

GCN中的第 $m$ 层所学到的特征表达为：

其中 $\mathbf{H}^{(m)} \in \mathbb{R}^{n \times d_{m}}$ 代表第 $m$ 层隐藏层的输出特征， $\bold{D} \in \mathbb{R}^{n \times n}$ 是 $\bold{S}$ 的对角矩阵， $d_{ii}$ 是 $\bold{A}$ 中的第 $i$ 列元素的的和。 $\mathbf{W}^{(m-1)} \in \mathbb{R}^{d_{m-1} \times d_{m}}$ 是权重矩阵，需要在第 $m$ 层中训练。 $d_m$ 是第 $m$ 层中隐藏单元的数目。 $\sigma (\cdot)$ 是激活函数。GCN的最后一层是使用softmax函数构成的分类层，公式如下：

其中 $\mathbf{W}^{(M)} \in \mathbb{R}^{d_{M-1} \times c}$ 代表第 $M$ 层隐藏层的权重矩阵，并且 $M$ 是隐藏层的数目。GCN的权重参数 $(\bold{W}^{(1)},\dots,\bold{W}^{(M)})$ 通过最小化下面的交叉熵损失，来进行训练的：

其中 $\mathcal{Y}$ 是标签集， $y_{ij},z_{ij}$ 分别代表第 $j$ 个类的第 $i$ 个样本的真是标签和预测标签。

最近提出了动态GCN的方法，将图学习和表征学习结合到一个统一的模型中。更新的表征可以用来优化图，可以产生更具有区别度的表征。将传统机器学习中的图学习技术，作为一个正则项加到原始的GCN方法中，即， $\mathcal{L}_{GCN}$ 。具体来说，给定一个初始图谱 $\bold{A}\in\mathbb{R}^{n \times n}$ ，正则项 $\mathcal{L}_{GL}$ 定义如下：

其中 $\mathbf{S}=\left\{s_{i j}\right\}_{i, j=1}^{n} \in \mathbb{R}^{n \times n}$ 是基于初始图谱 $\bold{A}$ 更新的图谱， $||\cdot||_F$ 代表F范数。最后DGCN总的目标函数如下：

其中， $\lambda$ 是一个非负参数。通过对这条损失的最小化，图谱 $\bold{S}$ 以及新的表征 $\bold{Z}$ 会交替的进行更新。如此一来，虽然图 $\bold{A}$ 的质量比较低，但是模型最后会输出原始数据 $\bold{X}$ 有区分度的表征。

DGCN花了很多注意力于修改正则化项 $\mathcal{L}_{GL}$ ，以解决各种各样的需求。但是仍有两点缺点：1）对于初始图 $\bold{A}$ 和更新图 $\bold{S}$ ，在公式5中的第二项，都是从原始数据中学习到的；2）很多基于GCN的方法都关注于样本的局部结构的学习，忽略了全局结构。

多重图学习

本文提出的模型如图1所示。

首先，作者提出了一个映射矩阵 $\Theta \in \mathbb{R}^{d \times d^{\prime}}$ ，将原始数据 $\bold{X}$ 通过映射到低维数据 $\tilde{\mathbf{X}}=\mathbf{X} \Theta$ （其中 $d^\prime < d$ ），由此尽可能移除噪音和异常值。其次，通过作者提出了多重图融合方法，来探索局部和全局的数据结构。具体来说，使用多重KNN图 $\hat{\mathbf{A}}^{(v)}(v=1, \ldots, V)$ 以学习数据的局部结构（其中 $V$ 是图的数量），并且通过字表达方法来学习全局图谱 $\mathbf{A}^{(0)}$ 。比起其他现有的方法，多重图融合方法可以捕捉 $\mathbf{X}$ 中各种各样的图谱结构，多重图可以提供丰富的边信息。最后将图学习和表征学习融合到一个统一的网络中，实现对图谱结构和数据表征的动态更新。

初始图生成

使用KNN图方法以生成初始的多重图。两个样本 $\bold{x}_i,\bold{x}_j$ 的相似性定义如下：

其中， $\sigma$ 是非负的参数。在计算所有样本的相似性之后，为每一个样本保持top-k的邻居的相似性，然后将其他的相似性全部设置为0，以得到稀疏KNN图 $\bold{A}$ ，即，对于 $\bold{X}$ 的初始图

重复上述操作可以得到 $V$ 个初始图，设置不同的k值 $\mathbf{A}^{(v)}(v=1, \ldots, V)$ 。图谱 $\mathbf{A}^{(v)}$ 保存了局部信息的同时每个结点都只链接了k个邻居结点。使得 $\mathbf{A}^{(v)}=\left(\mathbf{A}^{(v)}+\mathbf{A}^{(v)^{T}}\right) / 2$ 以保证学习到的图谱是不对称的。

局部结构学习

数据的局部结构，即，数据集的局部邻居关系对维护高维数据的流形结构十分重要，通常通过每个数据点的最近k个邻居点来表征该点。传统的局部学习方法，包括局部保留映射(locality preserving projection ，LPP)以及局部线性嵌入(locally linear embedding ,LLE)。但是这些方法有以下缺点：1）k的取值难以决定；2）初始的KNN图是从原始数据中学习得到的。因此，作者建议用以下目标函数从原始数据的低维空间中更新初始kNN图：

其中 $\lambda_1$ 是一个非负的参数， $\bold{1}$ 代表一个全是1的向量。 $\hat{\mathbf{A}}^{(v)} \in \mathbb{R}^{n \times n}$ 是初始图谱 $\mathbf{A}^{(v)}$ 更新过后的图谱， $\Theta \in \mathbb{R}^{d \times d^{\prime}}$ 是映射矩阵，可以将高维数据 $\bold{X}$ 映射到低维空间。在公式7中，图 $\mathbf{A}^{(v)}$ 和映射矩阵 $\Theta$ 是交替进行更新的。考虑到所有的初始图都是从原始数据中学习到的，于是其中会包含大量的噪音和异常值，我们可以使用低维数据 $\tilde{\bold{X}}=\bold{X} \Theta$ 来更新他们。

全局结构学习

在公式7中， $\mathbf{A}^{(v)}$ 仅仅考虑了数据的局部结构信息。其他研究表明全局结构的信息也是十分重要的，原因在于全局结构信息可以有效的包含具有区分度的信息，可以从局部信息之外提供更加完备的信息，以捕捉数据的内在结构。自表示的特点已经在许多实际项目上应用了，证明了其有能力去捕捉数据的全局结构。具体来说，自表示特点假设每一个数据点可以从其他所有的样本点的加权线性组合中求得，即， $\mathbf{x}_{i}=\hat{\mathbf{a}}_{i}^{(0)} \mathbf{X}+\mathbf{e}$ ，其中 $\hat{\mathbf{a}}_{i}^{(0)}$ 代表一个在 $\mathbf{x}_{i}$ 与 $\mathbf{X}$ 之间的加权的系数向量， $\mathbf{e}$ 是噪音偏置。为此，作者提出了以下目标函数来指导全局结构的学习：

其中， $\lambda_2$ 是一个非负可调参数。在公式8中，第一项是用来生成稠密图 $\hat{\bold{A}}^{(0)}$ ，但是在全局图 $\hat{\bold{A}}^{(0)}$ 上使用 $\ell_1$ 正则化会在保存全局结构的情况下促使生成稠密的特征表示。

局部和全局保留性学习

公式7和8，分别指导局部结构学习以及全局结构学习。不仅如此，这两种学习都是基于低维数据 $\bold{X}\Theta$ 。因此，在本文中，作者将局部结构学习和全局结构学习与投影矩阵学习相结合，有以下损失函数：

其中 $\mathbf{L}^{(v)}=\mathbf{D}^{(v)}-\hat{\mathbf{A}}^{(v)}$ 是 $\hat{\mathbf{A}}^{(v)}$ 的拉普拉斯矩阵， $\bold{1}$ 是全部元素为1的向量， $tr(\cdot)$ 是矩阵的秩。在公式9中，还有 $(V+2)$ 个变量，即， $\hat{\mathbf{A}}^{\left(v^{\prime}\right)}\left(v^{\prime}=\right.0, \dots,V)$ 和 $\Theta$ ，其中 $\Theta$ 是一个可训练的参数，由反向传播进行参数更新， $\hat{\mathbf{A}}^{\left(v^{\prime}\right)}\left(v^{\prime}=\right.0, \dots,V)$ 根据公式10进行更新。公式9的优化过程如下所示

首先，固定 $\Theta$ 的值，对 $\hat{\mathbf{A}}^{\left(v^{\prime}\right)}\left(v=\right.0, \dots,V)$ 通过公式7进行优化。为了减小复杂度，对 $\bold{p}\in \mathbb{R}^{r \times 1}$ 进行近似优化：

其中 $ReLU(\cdot)$ 是激活函数。如果 $a_{ij}^{(v)}$ 是不可得到的，着将其设为1。在优化过后，得到了基于低维特征 $\bold{X}\Theta$ 的更新后的图谱 $\hat{\mathbf{A}}^{\left(v^{\prime}\right)}\left(v^{\prime}=\right.0,\dots,V)$ ，而不是与DGCN相同的高维特征图谱。而且映射矩阵以及图都可以交替进行优化，在指导动态图学习的过程中考虑了局部结构和全局结构。

目标函数

联合学习局部图谱和全局图谱，去得到GCN的输入图 $\bold{S}$ ，公式如下：

其中， $\overline{\mathbf{A}}=\sum_{v=1}^{V} \alpha_{v} \hat{\mathbf{A}}^{(v)}$ ， $\alpha_v$ 代表 $\hat{\bold{A}}^{(v)}$ 的权重， $\eta$ 是一个可调参数，用于控制两种图谱的比重。

在公式11中，将多重局部图谱与一个全局图谱加权结合起来。参数 $\eta$ 可以被调整，参数 $\alpha_v$ 可以由以下公式获得：

公式12中，每一个局部图都有独立的贡献。不仅如此， $\alpha_v$ 的值越大代表 $\hat{\bold{A}}^{(v)}$ 越重要。

总的目标函数如下：

其中 $\beta$ 是非负的可调参数。

总的目标函数对图融合进行了两次指导，如图2所示

第一次融合将所有的稀疏图结合起来，以保存局部结构，并且参数 $\alpha$ 自动的学习每一个图的系数。

特别地1）如果有一些边只存在于一部分图谱中，第一次融合则给它们赋予一个小的甚至是0值的权重。因此，我们可以视为含噪音的边被移除了

2）如果有一些边，发现存在于一些稀疏图中且有比较大的权值，第一次融合则会保留这些权值，并将它们视为跨视图的完备信息

3）如果有一些边存在于大部分视图中，第一次融合将其视为所有局部图中的共同信息，并将其保留在 $\overline{\bold{A}}$ 中。

于是 $\overline{\bold{A}}$ 就是一个高质量的图谱，保存了局部结构但仍然会缺失一些边。

第二次融合集成了局部图谱 $\overline{\bold{A}}$ 和全局图谱 $\hat{\bold{A}}^{(0)}$ 以解决下列的问题。特别地，共同信息（即， $\overline{\bold{A}},\hat{\bold{A}}^{(0)}$ 之间共同的边）和补充信息（即，只存在于 $\overline{\bold{A}},\hat{\bold{A}}^{(0)}$ 一方的信息）被输出了。因此，作者提出的方法进行了两次图融合，以保证学习到的图 $\bold{S}$ 的质量。

消融实验设计

不同图谱的敏感性

降维的有效性

论文阅读”Multigraph Fusion for Dynamic Graph Convolutional Network“（TNNLS2022）相关推荐

论文阅读06——《CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network for Clustering》
欢迎到我的个人博客看原文论文阅读06--<CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network f ...
CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network for Clustering 2021
问题:现有的深度聚类方法往往忽略了数据之间的关系. 本文提出了一种基于交叉注意的深度聚类框架--基于交叉注意融合的增强型图形卷积网络(CaEGCN) ,该网络包含四个主要模块: 交叉注意融合模块,创新 ...
多尺度动态图卷积神经网络----Multi-scale Dynamic Graph Convolutional Network for Hyperspectral Image Classificati
一.摘要卷积神经网络(CNN)在表示高光谱图像和实现高光谱图像分类方面表现出令人印象深刻的能力.然而,传统的CNN模型只能对固定大小和权重的规则正方形图像区域进行卷积,因此不能普遍适用于具有不同对象 ...
论文笔记（SocialGCN: An Efficient Graph Convolutional Network based Model for Social Recommendation）
一个有效的基于图卷积神经网络的社交推荐模型原文链接:SocialGCN: An Efficient Graph Convolutional Network based Model for Socia ...
行人轨迹论文:STUGCN:A Social Spatio-Temporal Unifying Graph Convolutional Network for Trajectory Predictio
STUGCN:A Social Spatio-Temporal Unifying Graph Convolutional Network for Trajectory Prediction用于轨迹预测 ...
论文阅读 Modeling Relational Data with Graph Convolutional Networks
Modeling Relational Data with Graph Convolutional Networks 使用图卷积网络建模关系数据发表于 [stat.ML] 26 Oct 2017 摘 ...
【论文阅读】MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding
用于异质图嵌入的元路径聚合图神经网络摘要 1 引言 2 准备工作 3 相关工作 3.1 GNN 3.2 异质图嵌入 4 方法 4.1 节点内容转换 4.2 元路径内部聚合 4.3 元路径间的聚合 4 ...
论文阅读笔记：CcNet: A cross-connected convolutional network for segmenting retinal vessels using 多尺度特征
论文链接:CcNet: A cross-connected convolutional network for segmenting retinal vessels using multi-scale ...
行人轨迹论文阅读SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Prediction
SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Prediction SSAGCN: ...

论文阅读”Multigraph Fusion for Dynamic Graph Convolutional Network“（TNNLS2022）