graph sage 翻译

摘要

事实证明，在大型图中，节点的低维嵌入在从内容推荐到识别蛋白质功能的各种预测任务中极为有用。但是，大多数现有方法都要求在训练嵌入过程中，图中的所有节点都必须存在。这些先前的方法本质上是转导的，不能自然地推广到看不见的节点。在这里，我们介绍GraphSAGE，这是一个通用的归纳框架，它利用节点特征信息（例如，文本属性）为先前未见的数据有效生成节点嵌入。我们将学习一个函数，该函数通过对节点本地邻居的特征进行采样和聚合来生成嵌入，而不是为每个节点训练单独的嵌入。我们的算法在三个归纳节点分类基准上均优于强基准：我们基于引文和Reddit发布数据对演化信息图中的未见节点类别进行分类，并且我们证明了我们的算法使用的多图数据集将其概括为完全看不见的图。蛋白质-蛋白质相互作用。

引言

大图1中的节点的低维向量嵌入已被证明非常有用，可作为各种预测和图分析任务的特征输入[5，11，28，35，36]。节点嵌入方法背后的基本思想是使用降维技术将有关节点邻域的高维信息提取为密集的矢量嵌入。然后，可以将这些节点嵌入提供给下游的机器学习系统，并帮助完成诸如节点分类，聚类和链接预测之类的任务[11、28、35]。
但是，以前的工作集中于从单个固定图嵌入节点，并且许多实际应用程序要求为看不见的节点或全新（子）图快速生成嵌入。这种归纳能力对于高吞吐量的生产机器学习系统至关重要，该系统在不断变化的图形上运行并不断遇到看不见的节点（例如，Reddit上的帖子，Youtube上的用户和视频）。一种生成节点嵌入的归纳方法还可以促进具有相同形式特征的图的泛化：例如，可以在从模型生物衍生的蛋白质-蛋白质相互作用图上训练嵌入生成器，然后轻松生成用于从中收集数据的节点嵌入。使用经过训练的模型的新生物。
与转换设置相比，归纳式节点嵌入问题尤其困难，因为要泛化到看不见的节点，需要将新观察到的子图“对齐”到算法已经优化的节点嵌入。归纳框架必须学会识别节点邻域的结构属性，这些结构属性既可以显示节点在图中的本地角色，也可以显示其全局位置。
大多数现有的生成节点嵌入的方法本质上都是转导的。这些方法大多数都使用基于矩阵分解的目标直接优化了每个节点的嵌入，并且自然不会将其推广到看不见的数据，因为它们在单个固定图上对节点进行了预测[5、11、23、28， 35、36、37、39]。可以修改这些方法以在归纳设置下运行（例如[28]），但是这些修改在计算上趋于昂贵，需要在进行新的预测之前进行额外的梯度下降回合。最近也有使用卷积运算符学习图结构的方法，这些方法将promise作为嵌入方法[17]。迄今为止，图卷积网络（GCN）仅在具有固定图的转导设置中应用[17，18]。在这项工作中，我们都将GCN扩展到归纳无监督学习的任务，并提出了一个框架，该框架将GCN方法推广为使用可训练的聚合函数（除了简单的卷积）。

当前工作

我们提出了一个称为GraphSAGE的通用框架（SA mple和aggre G在E），用于归纳节点嵌入。与基于矩阵分解的嵌入方法不同，我们利用节点功能（例如，文本属性，节点配置文件信息，节点度）来学习可泛化到看不见节点的嵌入功能。通过将节点特征纳入学习算法，我们可以同时学习每个节点邻域的拓扑结构以及该节点在邻域中的分布。虽然我们专注于功能丰富的图形（例如具有文本属性的引文数据，具有功能/分子标记的生物学数据），但我们的方法也可以利用所有图形中都存在的结构特征（例如节点度）。
因此，我们的算法也可以应用于没有节点特征的图。
我们没有训练每个节点的独特的嵌入矢量，而是训练了一组聚合器函数，这些函数学习从节点的本地邻域中聚合特征信息（图1）。每个聚合器功能都会聚合来自给定节点的不同跳数或搜索深度的信息。在测试或推断时，我们使用受过训练的系统通过应用学习到的聚合函数，为完全看不见的节点生成嵌入。在先前的生成节点嵌入的工作之后，我们设计了一种无监督的损失函数，该函数允许对GraphSAGE进行训练而无需执行特定于任务的监督。我们还展示了可以在完全监督的方式下训练GraphSAGE。
我们在三个节点分类基准上评估了我们的算法，测试了GraphSAGE在看不见的数据上生成有用的嵌入的能力。我们使用两个基于引文数据和Reddit发布数据的演化文档图（分别预测论文和文章类别），以及基于蛋白质-蛋白质相互作用数据集（预测蛋白质功能）的多图概括实验。使用这些基准，我们证明了我们的方法能够有效地生成看不见的节点的表示形式，并且可以显着地胜过相关的基准：在整个域中，与仅使用节点特征相比，我们的监督方法平均将分类F1分数提高了51％ GraphSAGE和GraphSAGE始终优于强大的转导基线[28]，尽管在不可见的节点上运行该基线需要花费约100倍的时间。我们还表明，与受图卷积网络启发的聚合器相比，我们提出的新聚合器体系结构提供了显着的收益（平均7.4％）[17]。最后，我们探究了我们方法的表达能力，并通过理论分析表明GraphSAGE能够学习关于节点在图中的角色的结构信息，尽管事实上它是基于特征的（第5节）。

GraphSAGE

我们方法背后的关键思想是，我们学习如何从节点的本地邻域（例如，附近节点的度数或文本属性）中汇总要素信息。我们首先描述GraphSAGE嵌入生成（即正向传播）算法，该算法假设已经学习GraphSAGE模型参数，则为节点生成嵌入（第3.1节）。然后，我们描述如何使用标准的随机梯度下降和反向传播技术来学习GraphSAGE模型参数（第3.2节）。
3.1嵌入生成（即前向传播）算法
在本节中，我们描述嵌入生成或前向传播算法（算法1），该算法假定模型已经过训练并且参数是固定的。特别地，我们假设我们已经学习了K个聚合函数的参数（表示为AGGREGATE k，∀k∈{1，…，K}），这些参数聚合了来自节点邻居的信息以及一组权重矩阵W k，∀k∈{1，…，K}，用于在模型的不同层或“搜索深度”之间传播信息。 3.2节介绍了我们如何训练这些参数。
算法1的直觉是，在每次迭代或搜索深度处，节点都会聚合来自其本地邻居的信息，并且随着此过程的反复进行，节点将从图的更远范围逐渐获取越来越多的信息。
算法1描述了在将整个图形G =（V，E）和所有节点x v，∀v∈V的特征作为输入提供的情况下的嵌入生成过程。我们将在下面介绍如何将其推广到minibatch设置。算法1外循环中的每个步骤如下进行，其中k表示外循环中的当前步骤（或搜索的深度），hk表示该步骤中节点的表示形式：首先，每个节点v∈V将将其k-1个紧邻邻域{hk-1 u，∀u∈N（v）}中的节点表示成单个向量h N（v）。注意，该聚合步骤取决于在外循环的先前迭代（即，k-1）处生成的表示，并且k ＝ 0（“基本情况”）表示被定义为输入节点特征。聚合相邻的特征向量后，GraphSAGE然后将节点的当前表示hk-1与聚合的邻域向量hk-1 v N（v）串联在一起，并将此串联的向量馈送给具有非线性激活函数σ的完全连接层，它转换要在算法的下一步中使用的表示形式（即h kv，v∈V）。为了便于表示，我们将深度K处的最终表示形式表示为zv≡h K v，∀v∈V。相邻表示的聚集可以通过多种聚合器体系结构来完成（由算法1中的AGGREGATE占位符表示），我们将在下面的第3.3节中讨论不同的架构选择。
为了将算法1扩展到minibatch设置，给定一组输入节点，我们首先对所需的邻域集进行正向采样（直至深度K），然后运行内部循环（算法1中的第3行），但无需进行迭代在所有节点上，我们仅计算满足每个深度递归所必需的表示形式（附录A包含完整的minibatch伪代码）。
与Weisfeiler-Lehman同构测验的关系。 GraphSAGE算法在概念上受到测试图同构性的经典算法的启发。如果在算法1中，我们（i）设置K = | V |，（ii）将权重矩阵设置为恒等式，并且（iii）使用适当的哈希函数作为聚合器（没有非线性），则算法图1是Weisfeiler-Lehman（WL）同构测试的实例，也称为“朴素顶点细化” [32]。如果算法1为两个子图输出的表示集{z v，∀v∈V}相同，则WL测试将两个子图声明为同构。已知该测试在某些情况下会失败，但对于广泛的图形类型来说是有效的[32]。
GraphSAGE是WL测试的连续近似，其中我们用可训练的神经网络聚合器替换了哈希函数。当然，我们使用GraphSAGE生成有用的节点表示，而不是测试图同构。尽管如此，GraphSAGE和经典的WL测试之间的联系为我们的算法设计提供了理论背景，以学习节点邻域的拓扑结构。
邻居定义。在这项工作中，我们统一采样一组固定大小的邻居，而不是在算法1中使用完整邻域集，以使每批的计算足迹固定不变。 3也就是说，使用重载符号，我们从集合{u∈V：（u，v）∈E}中将N（v）定义为固定大小的均匀绘制，并在每次迭代k上绘制不同的均匀样本，在算法1中。
如果不进行此采样，则单个批次的内存和预期运行时间将无法预测，并且在最坏的情况下为O（| V |）。相反，对于GraphSAGE，每个批处理的空间和时间复杂度是固定的Q K在O（i = 1 S i），其中S i，i∈{1，…，K}和K是用户指定的常数。实际上，我们发现我们的方法可以在K = 2且S 1·S 2≤500时实现高性能（有关详细信息，请参见第4.4节）。

3.2学习GraphSAGE的参数

为了在完全无监督的情况下学习有用的预测表示，我们将基于图的损失函数应用于输出表示zu，∀u∈V，并调整权重矩阵W k，∀k ∈{1，…，K}，以及聚合函数的参数通过随机梯度下降来实现。基于图的损失函数鼓励附近的节点具有相似的表示形式，同时强制要求不同节点的表示形式非常不同：
公式（1）
其中v是在固定长度随机游走时在u附近共同出现的一个节点，σ是S型函数，P n是负采样分布，Q定义负采样的数量。重要的是，与以前的嵌入方法不同，我们提供给此损失函数的表示形式z u是从节点本地邻域中包含的要素生成的，而不是针对每个节点训练唯一的嵌入（通过嵌入查找）。
此不受监督的设置模拟了将节点功能作为服务或静态存储库提供给下游机器学习应用程序的情况。如果仅在特定的下游任务上使用表示形式，则可以通过任务特定的目标（例如，交叉熵损失）简单地替换或增加无监督损失（等式1）。

3.3聚集器体系结构

与基于N-D格（例如句子，图像或3-D体）的机器学习不同，节点的邻居没有自然的顺序。因此，算法1中的聚合函数必须在无序向量集合上运行。理想情况下，聚合函数应该是对称的（即，对其输入的排列不变），同时仍可训练并保持较高的表示能力。
聚合函数的对称性确保我们的神经网络模型可以被训练并应用于任意排序的节点邻域特征集。我们检查了三个候选聚合器功能：
均值聚合器。我们的第一个候选聚合器函数是均值算子，在这里我们只取{h k-1 u，∀u∈N（v）}中向量的元素均值。平均聚合器几乎等同于转导GCN框架中使用的卷积传播规则[17]。特别是，我们可以通过将算法1中的第4行和第5行替换为以下内容来得出GCN方法的归纳变量：
公式（2）
LSTM聚合器。我们还研究了基于LSTM架构的更复杂的聚合器[14]。与平均聚合器相比，LSTM具有更大的表达能力。
但是，请务必注意，LSTM不是天生对称的（即它们不是置换不变的），因为它们以顺序方式处理其输入。通过将LSTM应用于节点邻居的随机排列，我们使LSTM适应于无序集合。
池聚合器。我们研究的最终聚合器既对称又可训练。在这种合并方法中，每个邻居的向量都通过完全连接的神经网络独立地馈送；进行此转换之后，将逐元素最大池化操作应用于跨邻居集的聚合信息：
公式（3）
其中max表示元素方式的max运算符，而σ是非线性激活函数。原则上，最大池化之前应用的功能可以是任意深度的多层感知器，但是在此工作中，我们专注于简单的单层体系结构。这种方法的灵感来自应用神经网络体系结构以学习通用点集的最新进展[29]。
直观上，可以将多层感知器视为一组函数，这些函数为邻居集中的每个节点表示计算特征。通过将最大合并运算符应用于每个计算出的特征，模型可以有效地捕获邻域集的不同方面。还应注意，原则上，可以使用任何对称向量函数代替max运算符（例如，按元素表示的均值）。在开发测试中，我们发现最大池和平均池之间没有显着差异，因此在其余的实验中，我们将重点放在最大池上。

4实验

我们在以下三个基准任务上测试GraphSAGE的性能：（i）使用Web of Science引文数据集将学术论文分类为不同的主题，（ii）将Reddit帖子归为不同社区的成员，以及（iii）将各种生物学蛋白质的功能分类蛋白质-蛋白质相互作用（PPI）图。第4.1节和第4.2节概述了数据集，补充材料中包含其他信息。在所有这些实验中，我们对训练期间看不到的节点进行预测，对于PPI数据集，我们对完全看不见的图进行测试。
实验装置。为了将我们的归纳基准上的经验结果进行情境化，我们与四个基准进行了比较：随机分类器，基于逻辑回归特征的分类器（忽略图结构），作为代表分解方法的DeepWalk算法[28]和原始特征和DeepWalk嵌入的串联。我们还比较了使用不同聚合函数的GraphSAGE的四个变体（第3.3节）。由于GraphSAGE的“卷积”变体是Kipf等人的半监督GCN的扩展，归纳版本[17]，因此我们将其称为GraphSAGE-GCN。我们测试了根据等式（1）中的损失训练的GraphSAGE的无监督变体，以及对分类交叉熵损失进行了直接训练的有监督变体。对于所有的GraphSAGE变体，我们使用校正的线性单位作为非线性，并设置K = 2，邻域样本大小为S 1 = 25和S 2 = 10（有关灵敏度分析，请参见第4.4节）。
对于Reddit和引文数据集，我们按照Perozzi等人的描述对DeepWalk使用“在线”训练。 [28]，我们进行新一轮的SGD优化，以在进行预测之前嵌入新的测试节点（有关详细信息，请参见附录）。在多图设置中，我们无法应用DeepWalk，因为在不同的不相交图上运行DeepWalk算法生成的嵌入空间可以相对于彼此任意旋转（附录D）。
所有模型均在TensorFlow [1]中使用Adam优化器[16]实现（DeepWalk除外，DeepWalk在香草梯度下降优化器中表现更好）。我们设计实验的目的是（i）验证GraphSAGE在基线方法（即原始功能和DeepWalk）方面的改进，以及（ii）对不同GraphSAGE聚合器体系结构进行严格的比较。为了提供公平的比较，所有模型都共享其最小批量迭代器，损失函数和邻域采样器（如果适用）的相同实现。
此外，为了在GraphSAGE聚合器之间进行比较时防止意外的“超参数骇客”，我们对所有GraphSAGE变体扫过了同一组超参数（根据验证集的性能为每个变体选择最佳设置）。在早期的验证测试中，使用引文和Reddit数据的子集确定了可能的超参数值，然后将其从分析中丢弃。附录包含更多实现细节。

4.1演化图的归纳学习

：引文和Reddit数据我们的前两个实验是对演化信息图中的节点进行分类，这是一项与不断遇到未知数据的高通量生产系统特别相关的任务。
引文数据。我们的首要任务是在大型引用数据集上预测论文主题类别。我们使用的是汤姆森路透网络科学核心收藏中的无向引文图数据集，对应于2000年至2005年六个生物学相关领域的所有论文。该数据集的节点标签对应于六个不同的字段标签。总的来说，该数据集包含302,424个节点，平均度为9.15。我们根据2000-2004年的数据训练所有算法，并使用2005年的数据进行测试（其中30％用于验证）。对于功能，我们使用节点度并根据Arora等人的[2]句子嵌入方法处理了论文摘要，并使用GenSim word2vec实现[30]训练了300维单词向量。
Reddit数据。在第二个任务中，我们预测不同Reddit帖子属于哪个社区。
Reddit是一个大型在线讨论论坛，用户可以在其中发布和评论不同主题社区中的内容。我们根据2014年9月发布的Reddit帖子构建了一个图形数据集。在这种情况下，节点标签是帖子所属的社区或“ subreddit”。我们对50个大型社区进行了抽样，并构建了一个帖子到帖子的图表，如果同一用户在两个帖子上都发表评论，则将帖子连接起来。该数据集总共包含232,965个帖子，平均程度为492。我们使用前20天进行培训，其余几天用于测试（其中30％用于验证）。对于功能，我们使用现成的300维GloVe CommonCrawl字向量[27]；对于每个帖子，我们将（i）帖子标题的平均嵌入度，（ii）所有帖子评论的平均嵌入度，（iii）帖子的得分和（iv）对帖子发表的评论数进行了串联。
表1的前四列概述了GraphSAGE的性能以及这两个数据集的基线方法。我们发现GraphSAGE的性能大大优于所有基线，并且与GCN方法相比，可训练的神经网络聚合器可提供显着的收益。例如，无监督变体GraphSAGE-pool在引用数据上的表现优于DeepWalk嵌入和原始特征的串联，分别为13.8％和29.1％，在Reddit数据上，而受监督的版本分别提供19.7％和37.2％的收益。有趣的是，尽管基于LSTM的聚合器是为顺序数据而不是无序集合而设计的，但它仍显示出出色的性能。最后，我们看到无监督的GraphSAGE的性能与完全受监督的版本具有相当的竞争力，这表明我们的框架无需特定于任务的微调就可以实现强大的性能。

4.2跨图泛化

：蛋白质与蛋白质的相互作用现在，我们考虑跨图泛化的任务，这需要了解节点角色而不是社区结构。我们根据蛋白质在基因本体中的细胞功能，将蛋白质的作用分类为各种蛋白质-蛋白质相互作用（PPI）图，每个图对应于不同的人体组织[41]。我们从分子特征数据库[34]中使用位置基因集，基序基因集和免疫学特征作为特征，基因本体论集合作为标签（共121个）。平均图包含2373个节点，平均度为28.8。
我们在20张图上训练所有算法，然后在两张测试图上平均预测F1分数（另外两张图用于验证）。
表1的最后两列总结了此数据上各种方法的准确性。再次，我们看到GraphSAGE明显优于基线方法，基于LSTM和基于池的聚合器比基于均值和GCN的聚合器具有可观的收益。

4.3运行时和参数

敏感性图2.A总结了不同方法的训练和测试运行时。这些方法的培训时间相当（GraphSAGE-LSTM最慢）。但是，需要采样新的随机游走并运行新的SGD轮以嵌入看不见的节点，这会使DeepWalk在测试时慢100-500倍。
对于GraphSAGE变体，我们发现，与K = 1相比，设置K = 2可使平均精度持续提高约10-15％。但是，将K增加到2以上会产生边际收益（0-5％），同时将运行时间增加到令人难以置信的10-100倍，这取决于邻域样本大小。我们还发现，对大型社区进行采样的收益递减（图2.B）。因此，尽管子采样邻域引起较高的方差，但GraphSAGE仍然能够保持强大的预测准确性，同时显着改善运行时间。

4.4不同聚合器体系结构

之间的总结比较总体而言，我们发现基于LSTM和池的聚合器在平均性能和实验设置数量方面均表现最佳，其中它们是性能最高的方法（表1）。为了更定量地了解这些趋势，我们将六个不同的实验设置（即（3个数据集）×（无监督与有监督））视为试验，并考虑了哪些性能趋势可能会普遍存在。特别是，我们使用非参数Wilcoxon Signed-Rank检验[33]来量化各个试验中不同聚合器之间的差异，并在适用时报告T统计量和p值。请注意，此方法是基于等级的，实际上测试了在新的实验环境中我们是否期望一种特定的方法优于另一种方法。考虑到我们只有6种不同设置的小样本量，此显着性检验的功能有些不足。但是，T统计量和相关的p值是有用的定量度量，用于评估聚合器的相对性能。
我们看到，与基于GCN的方法相比，基于LSTM的，基于池的和基于均值的聚合器都提供了统计上显着的收益（所有这三种方法的T = 1.0，p = 0.02）。但是，与基于均值的聚合器相比，LSTM和池方法的收益要微不足道（T = 1.5，p = 0.03，与LSTM的意思； T = 4.5，p = 0.10，比较库与均值）。 LSTM和合并方法之间没有显着差异（T = 10.0，p = 0.46）。但是，GraphSAGE-LSTM比GraphSAGE-pool慢得多（约2倍），这可能使基于池的聚合器总体上略有优势。

5理论分析

在本节中，我们探究GraphSAGE的表达能力，以便深入了解GraphSAGE如何学习图结构，即使它本质上是基于功能。
作为案例研究，我们考虑GraphSAGE是否可以学习预测节点的聚类系数，即节点的1跳邻域内闭合的三角形的比例[38]。
聚类系数是衡量节点本地邻域聚类程度的一种流行度量，它是许多更复杂的结构图案的基础[3]。我们可以证明算法1能够以任意精度逼近聚类系数：定理1。令xv∈U，∀v∈V表示图G =（V，E）上算法1的特征输入，其中U 是R d的任意紧凑子集。假设存在一个固定的正常数C∈R +，使得所有节点对的kx v-x v 0 k 2> C。然后我们得到∀> 0，存在算法1的参数设置Θ∗，使得在K = 4次迭代之后| z v − c v | <，∀v∈V，其中z v∈R是算法1生成的最终输出值，而c v是节点聚类系数。
定理1指出，对于每个图，都有一个算法1的参数设置，这样，如果每个节点的特征都不同（并且模型具有足够高的维数），则它可以将该图的聚类系数近似为任意精度。定理1的完整证明在附录中。请注意，作为定理1的推论，即使从绝对连续的随机分布中采样节点特征输入，GraphSAGE也可以了解局部图的结构（有关详细信息，请参见附录）。证明背后的基本思想是，如果每个节点都有唯一的特征表示，则我们可以学习将节点映射到指标向量并识别节点邻域。定理1的证明依赖于池聚合器的某些属性，这也使我们了解了GraphSAGE池为何胜过GCN和基于均值的聚合器。

6结束语

我们介绍了一种新颖的方法，可以有效地为看不见的节点生成嵌入。
GraphSAGE始终优于最新的基准，通过对节点邻域进行采样有效地权衡了性能和运行时间，并且我们的理论分析提供了有关我们的方法如何学习局部图结构的见解。许多扩展和潜在的改进都是可能的，例如扩展GraphSAGE以合并有向图或多峰图。未来工作的一个特别有趣的方向是探索非均匀邻域采样函数，甚至可能作为GraphSAGE优化的一部分来学习这些函数。