GraphSAGE 节点分类

简介

GCN（Graph Convolutional Network）的出现带动了将神经网络技术用于图数据的学习任务中去，并产生了大量的方法，这类方法我们统称为图神经网络（Graph Neural Networks，GNN）。我们知道，图卷积可以从谱域和空域两个角度看待（尽管后来逐渐深入的研究表明，所谓的谱域图卷积其实就是特殊的空域图卷积而已），从空域来看，GCN 的本质就是一个迭代式地聚合邻居的过程，这个思路启发了一大类模型对于这种聚合操作的重新设计，比如比较有名的 GraphSAGE、GAT、R-GCN，这些以空域视角出发的图网络算法，通常被叫做空域图卷积。本文在本系列上一篇文章GCN 节点分类的基础上，使用 Pytorch 实现 GraphSAGE 对 Cora 数据集进行节点分类。

GraphSAGE 算法简述

GraphSAGE 其实在两个方面对 GCN 做了改动，一方面是通过采样邻居的策略将 GCN 由全图（full batch）的训练方式改造成以节点为中心的小批量（mini batch）的训练方式，这使得大规模图数据的分布式训练成为了可能；另一方面，GraphSAGE 对聚合邻居的操作进行了拓展，提出了替换 GCN 操作的新的方式。

采样邻居

GCN 的训练是全图形式的，就是说一轮迭代，所有节点的样本的损失只会贡献一次梯度，无法做到深度神经网络中常用的小批量更新，从梯度更新的次数来看这是很低效的。这还不是重点，事实上，实际业务中，图的规模是巨大的，显存或者内存很难容纳下模型和整个图，因此采用小批量的训练方法是必要的。GraphSAGE 从聚合邻居的操作出发，对邻居进行随机采样来控制实际运算时节点kkk阶子图的数据规模，在此基础上对采样的子图进行随机组合来完成小批量训练。

GCN 中，节点在第k+1k+1k+1层的特征只与其邻居在kkk层的特征有关，这种局部性质导致节点在第kkk层的特征只与自己的kkk阶子图有关。虽然这样说只需要考虑节点的kkk阶子图就可以完成对节点高层特征的计算，但是对于一个大规模图数据而言，直接迁移此思路仍然存在一些问题：

子图的节点数呈指数级增长。若图中的节点度均值为d‾\overline{d}d，执行kkk层 GCN，则kkk阶子图平均出现1+d‾+d‾2+⋯+d‾k1 + \overline{d} + \overline{d}^2 + \cdots + \overline{d}^k1+d+d2+⋯+dk，当d‾=10，k=4\overline{d}=10，k=4d=10，k=4的时候，就有111111111111111个节点参与计算，这会导致很高的计算复杂度。
真实的图数据节点往往呈现幂律分布，一些节点的度很大，这些节点成为超级节点，在很多图计算的问题中，超级节点都是比较难处理的对象。由于超级节点邻居数目庞大，子图节点数又呈指数级增长，计算代价会更高。

上述的情况下，遍历子图的时间代价、模型训练的计算和存储代价都会难以把控。因此，GraphSAGE 使用了采样邻居的操作来控制子图发散时的增长率。它的具体操作为：设每个节点在第kkk层的邻居采样倍率为SkS_kSk（这是一个超参数），即每个节点采样的一阶邻居不超过SkS_kSk，那么对于任意一个中心节点的表达计算，所设计的总节点数将在O(∏k=1Ksk)O\left(\prod_{k=1}^{K} s_{k}\right)O(∏k=1Ksk)这个级别。举个例子，对一个两层模型来说，如果S1=3S_1=3S1=3，S2=2S_2=2S2=2则总节点数不会超过1+3+3×2=101+3+3\times2=101+3+3×2=10个。这里对节点采样，GraphSAGE 选择了均匀分布，其实工程上会采用其他形式的分布。

通过采样邻居的策略，GraphSAGE 控制子图节点的规模始终维持在阶乘级别以下，这也给模型层数的增加提供了可能性。

聚合邻居

GraphSAGE 研究了聚合邻居操作所需的性质，提出了几种新的聚合操作算子（aggregator），需满足如下条件：

聚合操作必须对聚合节点的数量做到自适应。不管节点的邻居数量如何变化，进行聚合操作后输出的维度必须一致，为一个统一维度的向量。
聚合操作对聚合节点具有排列不变性。图数据本身是一种无序对的数据结构，对于聚合操作而言，这就要求不管邻居节点的排列顺序如何，输出的结果总是给一样的。如Agg(v1,v2)=Agg(v2,v1)Agg(v_1, v_2)=Agg(v_2, v_1)Agg(v1,v2)=Agg(v2,v1)。

当然，从模型优化的角度看，这种聚合操作还必须可导。只要满足上述性质，聚合操作就能对任意输入的节点集合做到自适应。比较简单的算子有平均/加和聚合算子、LSTM 聚合算子、池化聚合算子等，这里就不展开了，详细可以参考原论文3.3 节。

GraphSAGE 算法过程

在上面两个机制的基础上，最后来看看 GraphSAGE 如何实现训练的。

输入：图G(V,E)\mathcal{G}(\mathcal{V}, \mathcal{E})G(V,E)；输入特征{xv,∀v∈B}\left\{\mathbf{x}_{v}, \forall v \in \mathcal{B}\right\}{xv,∀v∈B}；层数KKK；权重矩阵Wk,∀k∈{1,…,K}\mathbf{W}^{k}, \forall k \in\{1, \ldots, K\}Wk,∀k∈{1,…,K}；非线性函数σ\sigmaσ；聚合操作 AGGREGATE k,∀k∈{1,…,K}_{k}, \forall k \in\{1, \ldots, K\}k,∀k∈{1,…,K}；邻居采样函数Nk:v→2V,∀k∈{1,…,K}\mathcal{N}_{k}: v \rightarrow 2^{\mathcal{V}}, \forall k \in\{1, \ldots, K\}Nk:v→2V,∀k∈{1,…,K}。

输出：所有节点的向量表示zv\mathbf{z}_{v}zv， v∈Bv \in \mathcal{B}v∈B。

小批量训练过程如下：

上述算法的基本思路为先将小批集合B\mathcal{B}B内的中心节点聚合操作要涉及到的kkk阶子图一次性遍历出来，然后在这些节点上进行KKK次聚合操作的迭代式计算。上述图中的 1-7 行就是描述遍历操作，可以简单理解这个过程：要想得到某个中心节点第kkk层的特征，就需要采样其在第k−1k-1k−1层的邻居，然后对k−1k-1k−1层每个节点采样其第k−2k-2k−2层的邻居，以此类推，直到采样完第一层所有的邻居为止。注意，每层的采样函数可以单独设置。

上述算法图的 9-15 行是第二步，聚合操作，其核心为 11-13 行的三个公式。第 11 行的式子是调用聚合操作完成对每个节点邻居特征的整合输出，第 12 行是将聚合后的邻居特征与中心节点上一层的特征进行拼接，然后送到一个单层网络里得到中心节点的特征向量，第 13 行对节点的特征向量进行归一化。对这三行操作迭代KKK次就完成了对B\mathcal{B}B内所有中心节点特征向量的提取。

GraphSAGE 的算法过程完全没有拉普拉斯矩阵的参与，每个节点的特征学习过程仅仅只与其kkk阶邻居相关，而不需要全图对的结构西南西，这样的方法适合做归纳学习（Inductive Learning），这也就是 GraphSAGE 论文题目 Inductive Representation Learning on Large Graphs 的由来。这里我就不多阐述归纳学习和转导学习（Transductive Learning）的理论，需要知道的是，对 GraphSAGE 而言，新出现的节点数据，只需要遍历得到kkk阶子图，就可以代入模型进行预测，这种特性使得 GraphSAGE 潜力巨大。

总的来说，GraphSAEG 对空域视角下的 GCN 作了一次解构，提出几种邻居聚合算子，同时通过采样邻居，大大改进了算法的性能，关于其更详细的内容推荐阅读原论文。