图神经网络的过平滑问题和图残差网络

在GNN的深度堆叠中存在两大问题：梯度消失和过平滑。梯度消失是经典神经网络中就会出现的问题，也就是当网络层数堆叠地过多，前面的层梯度过小难以更新；另一个问题就是之前提到过的过平滑问题，在堆叠了多个图卷积层之后，每个节点的隐藏嵌入表示十分的类似，这个问题发生在谱域卷积（反复拉普拉斯平滑导致全图节点趋同）以及空域卷积（每次多聚合1阶邻域导致最后每个节点都聚合了全图的信息）上。

解决过平滑的若干方案

这些方案可以大致分为：

向量融合类：SAGE向量拼接、Highway GCN向量线性加和、门控连接
强化自连接
跳跃连接（残差连接、稠密连接）类：JKNet、DeepGCN的ResGCN、DeepGCN的DenseGCN
宽度拓展：N-GCN
改变邻域采样：膨胀卷积

向量拼接

由于过平滑的本质原因是太多来自其他节点的信息压制了节点本身的信息，因此可以选择在更新节点隐藏嵌入的时候将其自身的嵌入和聚合后的新向量拼接在一起，即将邻域信息和本身信息解耦合。

在GraphSAGE的论文中提出的最早的跳跃连接方式就是对更新的嵌入和上一层的嵌入拼接作为下一层的输入，即：
h u ( t + 1 ) = u p d a t e ( h u ( t ) , h v ∈ N ( u ) ( t ) ) ∣ ∣ h u ( t ) h_u^{(t+1)} = update(h_u^{(t)},h_{v\in N(u)}^{(t)}) || h_u^{(t)} hu(t+1)=update(hu(t),hv∈N(u)(t))∣∣hu(t)

Highway GCN（2018）

在Highway GCN中，提出了另一种类似线性组合的向量拼接方法，即每一层都设定一个门控向量，该向量按比例将新的聚合向量和上层的节点表达融合，即：
h u ( t + 1 ) = α ⋅ u p d a t e ( h u ( t ) , h v ∈ N ( u ) ( t ) ) + ( 1 − α ) ⋅ h u ( t ) h_u^{(t+1)} = \alpha \cdot update(h_u^{(t)},h_{v\in N(u)}^{(t)})+ (1-\alpha) \cdot h_u^{(t)} hu(t+1)=α⋅update(hu(t),hv∈N(u)(t))+(1−α)⋅hu(t)

门控向量α是可学习的参数，可以使用单独的GNN学习。

门控连接

将新的聚合向量和上层的节点表达传入RNN单元，例如GRU中，
h u ( t + 1 ) = G R U ( u p d a t e ( h u ( t ) , h v ∈ N ( u ) ( t ) ) , h u ( t ) ) h_u^{(t+1)} = GRU(update(h_u^{(t)},h_{v\in N(u)}^{(t)}), h_u^{(t)}) hu(t+1)=GRU(update(hu(t),hv∈N(u)(t)),hu(t))
式子中的GRU代表GRU的更新函数，其将上一时间步的隐藏状态和当前的时间步的信号作为输入，并输出当前时间步的隐藏状态。可以类比到这其中来。

这种RNN式的更新方法在节点见共享参数。

强化自连接

在GCN的重归一化拉普拉斯算子后再加上一个自环矩阵（相当于总体上一共加了两次自环），强调节点本身的信息。
X ( l + 1 ) = σ ( ( D ~ − 1 / 2 A ~ D ~ − 1 / 2 + I ) X ( l ) W ( l ) ) X^{(l+1)} = \sigma((\tilde D ^ {-1/2} \tilde A \tilde D ^{-1/2} + I )X^{(l)}W^{(l)}) X(l+1)=σ((D~−1/2A~D~−1/2+I)X(l)W(l))

Jumping Knowledge Network（2018）

每一层的输出隐藏嵌入都连接到最后一层上，即1,2,…,k阶邻域聚合的结果连接到最后层。最后一层使用拼接、最大池化或者LSTM注意力将所有邻域大小下的嵌入向量做聚合（称为层聚合），这样做能够自适应地感知结构、自适应选择邻域大小。
z u = f ( h u ( 0 ) , h u ( 1 ) , . . h u ( k ) ) z_u = f(h_u^{(0)}, h_u^{(1)}, .. h_u^{(k)}) zu=f(hu(0),hu(1),..hu(k))
可以结合任意其他的卷积网络使用。

DeepGCN（2019）

DeepGCN模块中使用了三种模型，即原始GCN、ResGCN和DenseGCN，这些模型使用不同的跳跃连接加入方式，类比的是经典神经网络中的残差连接（例如ResNet）和稠密连接（例如DenseNet）。

其跳跃连接的设计如下所示：

在该文章中，还提出使用膨胀卷积来采样邻域节点。膨胀（dilated）卷积在经典CNN中的作用是快速扩大感受野而不增加参数量。在图神经网络中，类似地定义空洞率（膨胀率）d，对于每个节点，在采样k个邻居的时候先选择周围的k*d个节点，然后每隔d-1个选择1个作为采样的结果。

N-GCN（2020）

结合单一节点的不同跳的信息（混合跳数、多阶近邻），用于拓展网络宽度。
X ′ = c o n c a t ( G C N ( A ˉ 0 X W ( 0 ) ) , G C N ( A ˉ 1 X W ( 1 ) ) , . . , G C N ( A ˉ n X W ( n ) ) W f c ) X'=concat(GCN(\bar A^0 X W^{(0)}),GCN(\bar A^1 X W^{(1)}), .., GCN(\bar A^n X W^{(n)})W_{fc}) X′=concat(GCN(Aˉ0XW(0)),GCN(Aˉ1XW(1)),..,GCN(AˉnXW(n))Wfc)
邻接矩阵A的0次方即I，代表节点自身，1次方则为邻接关系，2次方为2跳关系……将节点0~n跳的信息通过独立的GCN学习后拼接起来，通过一个全连接层，输出到下一层。

参考资料

《图神经网络导论》

《图表示学习》

深蓝学院图神经网络

N-GCN原文： Abu-El-Haija, Sami, Amol Kapoor, Bryan Perozzi, and Joonseok Lee. “N-gcn: Multi-scale graph convolution for semi-supervised node classification.” In uncertainty in artificial intelligence, pp. 841-851. PMLR, 2020.