[万字综述] 21年最新最全Graph Learning算法，建议收藏慢慢看

今天小编给大家带来了一篇极全的2021最新图学习算法综述。该综述不仅囊括了目前热门的基于深度学习的图学习方法，还全面介绍了其它三个大类：基于图信号处理的方法、基于矩阵分解的方法、基于随机游走的方法。因此能带领大家从更多的维度认识网络表示学习。作者还概述了这四类图学习方法在文本、图像、科学、知识图谱和组合优化等领域的应用，讨论了图学习领域的一些未来研究方向。该综述对于帮助我们全面回顾图学习方法以及精准把控其未来研究方向具有巨大意义。

fig1

论文地址：https://arxiv.org/pdf/2105.00696.pdf
欢迎关注小编知乎：图子

0. Abstract

图被广泛应用于连接数据的网络结构表示。图数据可以在社交系统、生态系统、生物网络、知识图谱、信息系统等应用领域中广泛地获取。随着人工智能技术的不断渗透，图学习（即图上的机器学习）倍受关注。图学习在许多任务上是有效的，如分类、链接预测和匹配。一般来说，图学习方法利用机器学习算法来提取图的相关特征。在这份综述中，作者全面介绍了图学习的最新进展，聚焦于现有的四类图学习方法，包括图信号处理、矩阵分解、随机游走和深度学习，分别回顾了这些类别下的主要模型和算法。作者还研究了图学习在文本、图像、科学、知识图谱和组合优化等领域的应用。此外，还讨论了这一领域的几个比较有前景的研究方向(论文idea有了~)。

现实世界的智能系统通常依赖于处理各种类型数据的机器学习算法。尽管它们无处不在，但由于其固有的复杂性，图形数据给机器学习带来了前所未有的挑战。与文本、音频和图像不同，图数据被嵌入到一个不规则的域中，使得现有机器学习算法的一些基本操作无法适用。许多图学习模型和算法已经被提出以应对这些挑战。本文对最先进的图学习方法以及它们的潜在应用进行了系统回顾。本文有多个目的，首先，它为社会计算、信息检索、计算机视觉、生物信息学、经济学和电子通信等不同领域的研究人员和从业人员提供了图学习的快速参考。第二，它提出了对该领域的开放性见解。第三，它旨在激发新的研究思路和对图学习的更多兴趣。

1. Introduction

图(GRAPHS)，也被称为网络，可以从现实世界各种丰富的实体关系中提取出来。一些常见的图已被广泛应用进而形成不同的关系，如社会网络、生物网络、专利网络、交通网络、引文网络和通信网络[1]-[3]。图通常由两个集合定义，即顶点集和边集。顶点代表图中的实体，而边代表这些实体之间的关系。由于图学习在现实世界中的广泛应用，如数据挖掘和知识发现，它已经引起了相当大的关注。由于图利用了顶点之间的基本和相关关系[4], [5]，图学习方法在捕捉复杂关系方面越来越受欢迎。例如，在微博网络中，可以通过检测信息级联来追踪谣言的传播轨迹；在生物网络中，通过推断蛋白质的相互作用，可以发现疑难病的新疗法；在交通网络中，通过分析不同时间戳的共同发生现象，可以预测人类的流动模式[6]；对这些网络的有效分析在很大程度上取决于网络的表示方式。

什么是图学习？

图学习是指在图上的机器学习，图学习方法将图的特征映射到嵌入空间中具有相同维度的特征向量。图学习模型或算法直接将图数据转化为图学习架构的输出，而无需将图映射到低维空间。由于深度学习技术可以将图数据编码并表示成向量，大多数图学习方法都是基于深度学习技术或从深度学习技术中概括出来的。图学习的输出向量是在连续空间中，其目标是提取图的理想特征。因此，图的表示可以很容易地被下游任务使用，如节点分类和链接预测，而无需明确的嵌入过程。因此，图学习是一种更强大和有意义的图分析技术。

fig1

如图1所示，论文将现有的图学习方法分为四类：基于图信号处理（GSP）的方法，基于矩阵分解的方法，基于随机游走的方法，以及基于深度学习的方法。简单地说，GSP 处理的是图的采样和恢复，以及从数据中学习拓扑结构。矩阵分解可分为图拉普拉斯矩阵分解和顶点临近矩阵分解。基于随机游走的方法包括基于结构的随机中游走、基于结构和节点信息的随机游走、异质网络中的随机游走和时变网络中的随机游走。基于深度学习的方法包括图卷积网络、图注意网络、图自动编码器、图生成网络和图空间-时间网络。这些方法/技术的模型架构各不不同，本文对最先进的图学习技术进行了广泛的回顾。

图学习方法能解决什么问题？

图学习方法为表示空间中的图分析铺平了道路，可以有效解决许多图分析任务，如链接预测、推荐和分类[10]，[11]。图网络表示揭示了社会生活的各个方面，如交流模式、社区结构和信息扩散[12], [13]。根据顶点、边和子图的属性，图学习任务可以分为三类，分别是基于顶点、基于边和基于子图。图中顶点之间的关系可以被用于分类、风险识别、聚类和社区发现[14]。通过判断图中两个顶点之间是否存在边，我们可以进行推荐和知识推理。基于子图的分类[15]，可以用于解决聚合物分类、三维视觉分类等问题。对于GSP来说，设计合适的图采样方法以保留原始图的特征是很有意义的，其目的是有效地恢复原始图[16]。图恢复方法可用于在不完整数据的情况下构建原始图[17]，随后利用图学习来从图数据中学习拓扑结构。

综上，图学习可以用来解决以下挑战，这些挑战是用传统的图分析方法难以解决的[18]。

1）不规则域

传统张量数据有明确的网格结构，而图位于一个不规则域中（即非欧几里得空间），与规则域相比，非欧几里得空间的数据不是有规律地排列的，很难定义距离。因此，基于传统机器学习和信号处理的方法不能直接推广到图上。

2）网络的异质性

在现实世界中，顶点之间的边和顶点的类型通常是多样的，如图2所示的学术网络。因此，要从具有丰富顶点和边的异质信息网络中发现潜在价值并不容易。

3）分布式算法

在大的社交网络中，往往有数百万个顶点和边[19]。集中式算法无法处理这种情况，因为这些算法的计算复杂度会随着顶点数量的增长而显著增加。设计处理大网络的分布式算法是一个尚未解决的关键问题[20]。分布式算法的一个主要好处是，这些算法可以同时在多个CPU或 GPU 上执行，运行时间可以大大减少。

本文的贡献

对最先进的图学习方法的全面概述：对图学习方法进行了完整的介绍，包括技术简述、应用场景和潜在研究方向等。
对图学习技术的分类：从理论模型的角度对主流图学习方法进行了技术分类。
对图学习的未来方向提供见解：除了对现有方法的定性分析，还通过总结几个开放性问题和相关的挑战，阐明了图学习领域的潜在研究方向。

2. 图学习模型和算法

本文将回顾前面提到的四类图学习模型和算法，即基于GSP的方法、基于矩阵分解的方法、基于随机游走的方法和基于深度学习的方法。在表1中，列出了本文所使用的缩略语：

fig4

3. 图信号处理(Graph Signal Processing)

信号处理是一门传统的学科，它处理定义在规则数据领域的信号。近年来，研究人员将传统信号处理的概念扩展到图中。经典的信号处理技术和工具，如傅里叶变换和滤波，也可以用来分析图。图是一种不规则数据，很难直接处理。作为对基于结构和模型的学习方法的补充，GSP 为图的频谱分析提供了一个新的视角。从信号处理中衍生出来的 GSP 可以对图的属性(如连接性、相似性)做出解释。

图3 给出了一个简单的例子，即在某一时间点的图信号被定义为观察值。在图中，上述的观察值可以被看作是图信号。每个节点被映射到 GSP 中的实数域，GSP 的主要任务是将信号处理方法扩展到挖掘图中的隐含信息。

1) 图上的表示

GSP有两个主要模型，即基于邻接矩阵的GSP[31]和基于拉普拉斯的GSP[32]。

基于邻接矩阵的GSP来自代数信号处理（ASP）[33]。从代数理论上解释了线性信号处理，它可以应用于连续和离散的时间域。在ASP中，线性代数的基本假设被扩展到代数空间。通过适当地选择信号模型，ASP可以得到线性信号处理的不同实例。在基于邻接矩阵的GSP中，信号模型是由shifts产生的。与传统的信号处理类似，GSP 中的shifts是图域中的一个滤波器[31], [34], [35]。GSP 通常使用邻接矩阵作为 shifts 来定义图信号模型。图的信号通常是在顶点定义的。
基于拉普拉斯的 GSP 起源于谱图理论。高维数据被转移到由拉普拉斯基的一部分产生的低维空间[36]。一些研究人员利用传感器网络[37]来实现图信号的分布式处理。还有一些研究者假设图是平滑的情况下解决了这个问题。与基于邻接矩阵的GSP不同，拉普拉斯矩阵是对称的，具有实数和非负的边权重，用于索引无向图。

图上的信号

尽管这些模型使用不同的矩阵作为基本shifts，但GSP中的大多数概念都来自信号处理。GSP 中的信号是定义在图上的值，它们通常被写成一个向量， 是顶点的数量，向量中的每个元素代表一个顶点上的值。一些文献中[26]允许信号为复数。

图上的信号处理

在基于邻接矩阵的 GSP 中，图可以表示，其中是顶点集，是边集，是邻接矩阵。有了图的定义，我们也可以定义度矩阵，其中是一个对角矩阵，是顶点的度。图的拉普拉斯矩阵定义为，归一化拉普拉斯矩阵定义为。信号处理中的滤波器可以被看作是一个函数，用于放大或缩小相关频率，消除不相关频率。线性空间中的矩阵乘法等同于尺度变化，这与频域中的滤波器操作是相同的。我们可以用矩阵乘法作为 GSP 中的滤波器，写成，其中代表一个滤波器。

shifts是描述信号变化的一个重要概念[31]。事实上，GSP 中存在不同的shifts选择。基于邻接矩阵的GSP使用作为shifts,基于拉普拉斯的GSP使用 [32]，也可以选择其他矩阵[38]。遵循传统信号处理中的时间不变性，在GSP中定义shifts不变性。如果滤波器与shifts是可互换的，它们就是shifts不变的，可以写成 。证明了移不变滤波器可以用shfit来表示。shfit 的性质是至关重要的，它们决定了其他定义的形式，如傅里叶变换和频率。

在基于邻接矩阵的 GSP中，shfit 的特征值分解是是矩阵的特征向量

是特征值的对角矩阵，傅里叶变换矩阵是的逆，即，shfit 的频率被定义为总的变化，它表示shifts后的差异：

是矩阵的归一化系数。这意味着远离复平面上最大特征值的特征值频率较大，大频率意味着信号经过shifts滤波后会发生大范围的变化。

上图中最大频率图中的节点颜色变换更趋于平缓，最小频率对应的节点之间颜色跳跃幅度很大，因此频率越大，总的变化幅度就越小，反之亦然。较大的特征值的特征向量可以用来构建低通滤波器，它可以捕捉基本特征，而较小的特征向量可以用来捕捉相邻节点之间的差异。

拓扑学习问题

我们可以根据已知信息来区分相应的解决方案。当部分拓扑信息已知时，我们可以使用已知信息来推断整个图。如果拓扑信息是未知的，而我们仍然可以观察到图上的信号，则必须从信号中推断出拓扑结构。前者通常作为一个采样和恢复问题来解决，而盲目的拓扑推断也被称为图拓扑（或结构）学习。

2) 采样和恢复

采样并不是GSP中定义的一个新概念。在传统的信号处理中，通常需要用最少的样本重建原始信号，并保留原始信号的所有信息，这是一个采样问题。少量的样本会导致信息的缺乏，而更多的样本需要更多的空间来存储。著名的Nyquist-Shannon采样定理给出了在时域中完美恢复信号的充分条件。

图上的采样

研究者将采样理论迁移到GSP中，研究图上的采样问题。由于在一些现实世界的应用中，如传感器网络和社交网络，数据量很大，因此减少采样和更好地恢复对GSP至关重要。事实上，大多数解决采样问题的算法和框架都要求图对其上观察到的信号中的相关关系进行建模[39]。采样问题可以定义为从顶点子集上的样本中重建信号，其中的信号通常是带限的。Nyquist-Shannon 采样定理在[40]中被扩展到图信号。基于归一化拉普拉斯矩阵，为GSP定义了采样定理和截止频率。此外，作者还提供了一种从给定的采样集计算截止频率的方法和一种为给定带宽选择采样集的方法。其中提出的采样定理仅仅适用于无向图。由于Laplacian矩阵只代表无向图，有向图的采样理论采用邻接矩阵。[35]中提出了一个保证完美恢复的最优算子，它对一般图的噪声具有鲁棒性。

经典信号处理和图信号处理的区别

前者的信号属于规则域，而后者属于不规则域。对于采样和恢复问题，经典信号处理对连续的信号进行采样，并能从采样中恢复连续的信号。GSP对离散序列进行采样，并从采样中恢复原始序列。按照这个顺序，解决方案一般分为两部分，即寻找采样顶点集和基于各种模型重建原始信号。

当数据集的规模很小时，可以直接处理信号和shifts。然而，对于大规模的数据集，一些算法需要矩阵分解来获得频率并在程序中保存特征值，这几乎是不可能实现的。作为一种适用于大规模数据集的简单技术，在采样中也可以使用随机方法。Puy等人[41]提出了两种采样策略：一种是取决于参数的非自适应策略，另一种是自适应随机采样策略。通过放宽优化约束，他们将随机抽样扩展到大规模的图。另一个常见的策略是贪婪取样。例如，Shomorony和Avestimehr[42]提出了一种基于线性代数条件的高效方法，可以精确计算截止频率。Chamon和Ribeiro[43]为贪婪采样提供了近乎最优的保证，保证了贪婪采样在最坏情况下的性能。

上述所有的采样策略都可以归类为选择采样，即在一个顶点的子集上观察信号[43]。除了选择采样，还有一种类型的采样被称为聚合采样[44]，它使用在单个顶点上的观察结果作为输入，包含图shifts算子的序列化应用。

图信号的重构

与经典的信号处理类似，图上的重构任务也可以被解释为数据插值问题[45]。通过将样本投射到适当的信号空间上，研究人员获得插值信号。最小二乘法重构是实践中的一种可用方法。Gadde和Ortega[46]定义了一个用于信号恢复的生成模型，该模型由一对高斯随机场（GRF）和图上的协方差矩阵衍生而来。在采样定理下，图信号的重构可以被看作是具有低秩近似的GRF的最大后验推断。Wang等人[47]旨在实现时变波段有限信号的分布式重构，其中提出了分布式最小二乘重建（DLSR）来迭代恢复信号。DLSR可以跟踪时变信号并实现完美重构。Di Lorenzo等人[48]提出了一种用于自适应估计的线性均值（LMS）策略。LMS能够通过对一个顶点子集的观察进行在线重构和跟踪。它还允许该子集随时间变化。此外，还提出了一个稀疏的在线估计来解决未知带宽的问题。

另一种恢复原始信号的常用技术是平滑。平滑性用于推断低频的图形信号的缺失值。Wang等人[17]定义了局部集的概念。基于图信号的定义，提出了两种迭代方法来恢复图上的带限信号。此外，Romero等人[49]主张将核回归作为GSP建模和重构的一个框架。对于估计器的参数选择，也提出了两种多核方法来解决单一的优化问题。此外，一些研究人员研究了压缩传感的不同恢复问题[50]。

此外，还有一些关于不同种类信号的采样研究，如平滑图信号、片状常数信号和片状平滑信号[51]。Chen等人[51]给出了一个统一的框架来分析图信号。[52]研究了已知图信号的重构，其中信号是稀疏的，即只有少数顶点是非零的。研究了对应于各种 seeding 模式的三种重构方案。通过分析单次同时注入、单次连续值注入和多次连续同时注入，得出了任何顶点上完美重构的条件。

3）从数据中学习拓扑结构

在大多数应用场景中，图是根据实体相关性的连接来构建的。例如，在传感器网络中，传感器之间的相关性往往与地理距离一致。社交网络中的边被定义为朋友或同事等关系[53]。在生化网络中，边是由相互作用产生的。虽然GSP是解决图上问题的有效框架，如采样、重建和检测，但缺乏从数据集中提取关系的步骤。连接存在于许多数据集中，没有明确的记录。幸运的是，它们可以通过很多方式被推断出来。

因此，研究者希望从数据集中学习完整的图。从数据集学习图的问题被表述为估计图的拉普拉斯，或图的拓扑结构[54]。一般来说，他们要求图满足一些属性，如稀疏性和平滑性。平滑性是由数据集生成的网络中的一个普遍假设。因此，它通常被用来约束观察到的信号，并为图信号提供一个合理的保证。基于平滑度的算法背后的直觉是，图上的大多数信号是稳定的，而通过shifts过滤的结果往往是最低频率的。Dong等人[55]对图信号采用了因子分解模型，并对隐变量施加了高斯先验，以获得类似主成分分析（PCA）的表示。Kalofolias[56]将目标制定为一个加权的l1问题，并设计了一个通用框架来解决这个问题。

高斯马尔科夫随机场（GMRF）也是GSP中广泛使用的图拓扑学习理论[54], [57], [58]。基于GRMF的图拓扑学习的模型选择更有可能产生与GMRF产生的信号相似的图。Egilmez等人[54]将该问题表述为GMRF的最大后验参数估计，图拉普拉斯是一个精度矩阵。Pavez和Ortega[57]也将该问题表述为精确矩阵估计，并通过优化二次问题迭代更新行和列。两人都限制了结果矩阵，它应该是拉普拉斯的。在[58]中，Pavez等人选择了一个两步框架来寻找基础图的结构。首先，采用图拓扑推理步骤来选择适当的拓扑结构。然后，对广义的图拉普拉斯进行估计。拉普拉斯估计的误差边界被计算出来。在下一步中，可以利用该误差界线来获得一个特定形式的矩阵，作为精确矩阵估计。这是第一个建议调整模型以获得满足各种问题要求的图的工作之一。

扩散也以用来解决拓扑推断问题[39], [59]-[61]。扩散指的是，节点不断影响其邻域。在图中，数值大的节点对其邻域节点的影响会更大。用一些成分来表示信号将有助于找到信号形成的主要因素。扩散的模型通常是在独立同分布的信号的假设下。Pasdeloup等人[59]给出了有效图的概念来解释信号，并假设信号是在扩散后观察到的。Segarra等人[60]认为在shifts中存在一个扩散过程，并且信号可以被观察到。[61]中的信号被解释为几个成分的线性组合。

对于数据中记录的时间序列，一些文献试图构建时间序列网络。例如，Mei和Moura[62]提出了一种估计图的方法，它考虑了时间和空间的依赖性，并通过自动回归过程建立模型。Segarra等人[63]提出了一种方法，可以看作是图学习的延伸。该论文的目的是解决图滤波器及其输入信号的联合识别问题。

对于 recovery 方法，一个著名的部分推理问题是推荐[45]，[64]，[65]。推荐中使用的典型算法是协同过滤（CF）[66]。鉴于矩阵中观察到的评分，CF 的目标是估计完整的评分矩阵。Huang等人[65]证明了协同过滤可以被看作是代表用户和项目之间相关性的网络上的一个特定的带停图过滤器。

4）讨论

GSP 算法对实验数据有严格的限制，因此在现实世界的应用较少。GSP算法要求输入的数据必须是整个图，这意味着部分图的数据不能作为输入。这类方法的计算复杂度可能会很高，与其他类型的图学习方法相比，GSP算法的可扩展性比较差。

4. 基于矩阵分解的方法(Matrix Factorization Based Methods)

矩阵分解是一种将矩阵简化为其组成部分的方法。这些组成成分具有较低的维度，可以用来表示网络的原始信息，如节点之间的关系。基于矩阵分解的图学习方法采用一个矩阵来表示图的特征，如顶点的成对相似性，而顶点嵌入可以通过对这个矩阵进行分解来实现[67]。早期的图学习方法通常利用基于矩阵分解的方法来解决图嵌入问题。矩阵分解的输入是以图表示的非关系型高维数据特征，输出是一组顶点嵌入。如果输入的数据位于低维流形中，那么用于嵌入的图学习可以被视为一个保留了结构信息的降维问题。基于矩阵分解的图学习主要有两种类型。一种是图拉普拉斯矩阵分解，另一种是顶点邻近性矩阵分解。

1) 图拉普拉斯矩阵分解(Graph Laplacian Matrix Factorization)

保留的图特征可以表示为成对的顶点相似性。一般来说，有两种图拉普拉斯矩阵分解，即转导式和归纳式矩阵分解。前者只能嵌入训练集中包含的顶点，而后者可以嵌入训练集中不包含的顶点。总体框架已在[68]中设计，基于图拉普拉斯矩阵分解的图学习方法已在[69]中进行了总结。

2) 顶点邻近性矩阵分解(Vertex Proximity Matrix Factorization)

除了解决上述广义的特征值问题，矩阵分解的另一种方法是直接对顶点接近矩阵进式分解。一般来说，矩阵分解可以用来从非关系数据中学习图的结构，它适用于学习同质的图。基于矩阵分解，顶点接近度可以在低维空间中被逼近。保存顶点接近度的目的是使误差最小。[82]中采用了顶点接近矩阵的奇异值分解（SVD）。还有一些其他的方法，如正则化高斯矩阵分解[83]，低等级矩阵分解[84]，用于解决SVD。

3) Discussion

矩阵分解算法对一个交互矩阵进行操作，以分解出几个低维矩阵。这个过程带来了一些缺点，例如，当分解的矩阵变得很大时，该算法需要很大的内存。此外，矩阵分解算法不适用于训练过程中的监督或半监督任务。

5. 基于随机游走的方法 (Random Walk Based Methods)

随机游走是一种方便而有效的网络采样方法[85], [86]，可以生成节点的序列，同时保留节点之间的原始关系。基于网络结构，网络表示学习可以生成顶点的特征向量，从而使下游任务可以在低维空间中挖掘网络信息。图5给出了网络表示学习的一个例子。欧氏空间中的图像如图5（a）所示，非欧氏空间中的相应图如图5（b）所示。作为最成功的网络表示学习算法之一，随机游走在降维方面发挥了重要作用。

1) Structure Based Random Walks

图结构的数据有各种数据类型和结构。图中编码的信息与图结构和顶点属性有关，这是影响网络推理的两个关键因素。在实际应用中，很多网络只有结构信息，而缺乏顶点属性信息。如何有效地识别网络结构信息，如重要顶点和不可见的链接，引起了网络科学家的兴趣[87]。图数据具有高维的特点，统的网络分析方法不能用于分析连续空间中的图数据。

近年来，人们提出了各种网络表示学习方法，这些方法保留了网络的丰富结构信息。Deep-Walk[88]和Node2vec[7]是两种代表性的方法，用于生成具有拓扑信息的网络表示。这些方法使用随机游走模型来生成网络上的随机序列。通过将顶点视为单词，将生成的顶点随机序列视为单词序列（句子），这些模型可以通过将这些序列输入 Word2vec 模型来学习顶点的嵌入表示[89]-[91]。学习模型的原理是使顶点的共现概率最大化，如Word2vec。此外，Node2vec 表明网络具有复杂的结构特征，不同的网络结构采样可以得到不同的结果。DeepWalk 的采样模式不足以捕捉网络中连接模式的多样性。Node2vec 设计了一种随机游走的采样策略，通过调整参数，可以对网络进行广度优先采样和深度优先采样的偏好。

因此，网络结构信息在各种网络分析任务中发挥着重要作用。除了这些结构信息外，原始网络空间中的属性信息在建模网络的形成和演化中也很关键[93]。

2) Structure and Vertex Information Based Random Walks

除了网络拓扑结构外，许多类型的网络还具有丰富的顶点信息，如网络中的顶点内容或标签。Yang等人[84]提出了一种叫做 TADW 的算法，该模型以DeepWalk为基础，考虑了顶点的文本信息。MMDW[94]是另一个基于DeepWalk的模型，它是一种半监督网络嵌入算法，通过利用顶点的标签信息来提高性能。

聚焦于节点的结构特性，Ribeiro 提出了 Struc2vec 的框架 [95]，该框架考虑具有相似的局部结构的节点，而不是节点的邻域和标签。通过层次结构来评估结构相似性，该框架对结构相似性的约束更加严格。还有一些其他的网路表示学习模型，比如Planetoid[96]，它利用网络结构的特征和顶点属性信息来学习网络表示。

顶点属性为改善网络表征提供了有效的信息，有助于学习嵌入式矢量空间。在网络拓扑结构相对稀疏的情况下，顶点属性信息可以作为补充信息来提高表示的准确性。在实践中，如何有效利用顶点信息以及如何将这些信息应用于网络顶点嵌入是网络表示学习的主要挑战。

随机游走可以被看作是马尔可夫过程，该过程的下一个状态只与上一个状态有关，这被称为马尔可夫链。受顶点增强的随机游走的启发，Benson 等人[99]提出了 spacey 随机游走，一种非马尔可夫随机过程。它认为每个顶点上停留时间的概率与动态系统的长期行为有关。他们证明在充分条件下，动态系统可以收敛到一个静态分布。

3) Random Walks in Heterogeneous Networks

现实中大多数网络包含不止一种类型的顶点，因此网络是异质的。与同质的网络表示学习不同，异质网络表示学习应该很好地保留不同顶点之间的各种关系[102]。异质网络表示学习中实体之间的接近程度不仅仅是简单的距离或接近程度的衡量，应该考虑顶点和链接之间的语义。典型的异质场景包括知识图谱和社交网络等。

知识图谱嵌入的关键思想是将顶点及其关系嵌入到一个低维向量空间，同时可以保留知识图谱的固有结构[104]。对于基于关系路径的随机游走， path ranking 算法是一种使用随机游走在图数据上生成关系特征的路径寻找方法[105]。PRA中的随机游走是带重启的，并将特征与逻辑回归相结合。然而，如果两个顶点之间不存在路径，PRA不能预测它们之间的联系。Gardner等人[106], [107]介绍了两种方法来提高PRA的性能。一种方法能够更有效地处理，将新的语料库纳入知识库，另一种方法使用矢量空间来减少表面形式的稀疏性。为了解决知识构建中的级联错误，Wang和Cohen[108]提出了一个基于信息提取和知识库的联合模型，采用递归随机游走。利用文本的上下文语境，该模型获得了额外的改进。Liu等人[109]开发了一种新的基于随机游走的学习算法，层次随机游走推理（Hierarchical Random-walk inference，HiRi）。它是一个两层的方案：上层识别关系序列模式，下层从知识库的子图中捕捉信息。

另一个被广泛研究的异质网络类型是社交网络，由于顶点和关系的类型不同，社交网络在本质上是异质的。嵌入异质社会网络的方法主要有两种，包括基于元路径的方法和基于随机游走的方法。

异质网络中的元路径被定义为一个顶点类型的序列，编码各种类型顶点之间的重要复合关系。为了利用社交网络中的丰富信息，Fu等人[110]提出了HIN2Vec，它是一个基于元路径的表示学习框架。HIN2Vec 是一个神经网络模型，元路径基于两个独立的阶段，即训练数据准备和表征学习。在各种社交网络数据集上的实验结果表明，HIN2Vec 模型能够在异质网络中自动学习顶点向量。Metapath2vec[111]是通过形式化基于元路径的随机游走来构建异质网络中顶点的邻域。

4) Random Walks in Time-varying Networks

网络是随时间演变的，这意味着可能出现新的顶点和新的关系。因此，在网络分析中捕捉网络的时间行为意义重大。人们在学习时变网络嵌入（如动态网络或时变网络）方面做了很多努力[117]。与静态网络嵌入相比，时变的NRL应该考虑网络的动态性，这意味着旧的关系可能变得无效，新的链接可能出现。

时变网络表示学习的关键是找到一种合适的方法，通过合理的更新方法将时间特征纳入嵌入。Nguyen等人[118]提出了连续动态网络嵌入的 CTDNE模型，该模型基于具有 "时间性 "路径的随机行走，只能随着时间的推移向前移动。他们的模型更适合于随时间变化的网络表示，可以捕捉连续时间动态网络的重要时间特征。Zuo等人[119]提出了HTNE模型，这是一种基于Hawkes过程的时间性网络表示学习方法。HTNE 能够很好地将 Hawkes 过程整合到网络嵌入中，这样就可以准确地捕捉到历史邻居对当前邻居的影响。

对于动态网络中未见过的顶点，GraphSAGE[120]为网络中的新顶点有效地生成嵌入。与为网络中的每个顶点训练嵌入的方法不同，GraphSAGE设计了一个函数来为一个顶点生成具有邻居特征的嵌入。在对一个顶点的邻居进行采样后，GraphSAGE使用不同的聚合器来更新该顶点的嵌入。然而，目前的图神经方法只擅长学习局部邻域信息，不能直接利用图的高阶邻近性和社区结构。

5) Discussion

随机游走是对网络进行采样的基本方式，节点的序列可以保留网络结构的信息。然而，这种方法也有一些缺点。例如，随机游走依赖于随机策略，这就产生了一些不确定的节点关系。为了减少这种不确定性，它需要增加样本的数量，这将大大增加算法的复杂性。一些随机游走的变体可以保留网络的局部和全局信息，但它们在调整参数以适应不同类型的网络方面可能并不有效。

6. 基于深度学习的方法(Deep Learning on Graphs)

深度学习是近年来最热门的领域之一。然而，将现有的神经网络模型，如递归神经网络（RNN）或卷积神经网络（CNN），扩展到图数据是一项具有挑战性的任务。Gori等人[121]提出了一个基于递归神经网络的GNN模型。在这个模型中，实现了一个传递函数，它将图或其顶点映射到一个m维的欧氏空间。近年来，有很多GNN模型被提出。

1) Graph Convolutional Networks

GCN在网格结构域和图结构域的基础上工作[122]，图6中显示了图上深度学习的简要历史。自2015年以来，GNN引起了很多人的关注，它被广泛地研究和应用于各个领域。

fig8

时域以及谱方法(Time Domain and Spectral Methods)

卷积是深度学习中常见的操作之一。然而，由于图缺乏网格结构，图像或文本的标准卷积不能直接应用于图。Bruna等人[122]利用图的拉普拉斯矩阵将CNN算法从图像处理扩展到图，被称为谱图 CNN。其主要思想类似于信号处理的傅里叶基。在[122]的基础上，Henaff等人[123]定义了核，通过类比图像上的CNN的局部连接来减少学习参数。Defferrard等人[124]提供了两种基于图论的CNNs泛化到图结构数据的方法。一种方法是通过使用多项式核来减少参数，这种方法可以通过使用Chebyshev多项式近似加速。另一种方法是特殊池化法，即在由顶点构建的二叉树上进行池化。Kipf Welling介绍了[124]的改进版本[125]。提出的方法是一种针对图的半监督学习方法。该算法采用逐层传播规则，是基于图上谱卷积的一阶近似，可以直接作用于图。

空间域以及空间方法(Space Domain and Spatial Methods)

谱图理论提供了一种图上的卷积方法，但是许多网络学习方法方法直接在空间域的图上使用卷积操作。Niepert等人[132]将Weisfeiler-Lehman 核等图标注程序应用于图上，以产生独特的顶点顺序。生成的子图可以被送入空间域的传统CNN操作中。Duvenaud等人[133]设计了神经指纹，这是一种使用类似于GCN算法的使用一阶邻居的空间方法。Atwood和Towsley[134]提出了另一种卷积方法，称为扩散卷积神经网络，它结合了转移概率矩阵，用扩散基础代替了卷积的特征基础。Gilmer等人[135]将现有的模型重新表述为一个共同的框架，并利用这个框架发现新的变体。Allamanis等人[136]从句法和语义上表示代码的结构，并利用GNN方法来识别程序结构。

2) Graph Attention Networks

在基于序列的任务中，注意力机制被认为是一个标准方法[142]。GAT 是一种基于空间的GCN[143]。它在确定顶点邻居的权重时使用了注意力机制。门控注意力网络（GAANs） 也引入了多头注意力机制来更新一些顶点的隐藏状态[144]。与GATs不同，GAANs采用了一种自注意机制，可以为不同的头计算不同的权重。其他一些模型，如图 注意模型（GAM） 被提出来用于解决不同的问题[145]，GAM的目的是处理图分类。因此，GAM 通过自适应地访问重要顶点的序列来处理信息。GAM的模型包含LSTM网络，一些参数包含历史信息、策略和其他从探索图中产生的信息。注意力游走（AWs） 是另一种基于GNN和随机游走的学习模型[146]。与DeepWalk相比，AWs在对共现矩阵进行因子化时使用可微分的注意力权重[88]。

3) Graph Auto-Encoders

GAE 使用GNN结构将网络顶点嵌入到低维向量中。 最普遍的解决方案之一是采用多层感知作为输入的编码器[147]。其中，解码器重构顶点的邻域统计。PPMI或第一和第二近邻可以被纳入统计[148], [149]。图表示的深度神经网络（DNGR）采用PPMI。结构性深层网络嵌入（SDNE）采用堆叠式自动编码器来保持一阶和二阶的接近性。自动编码器[150]是一个传统的深度学习模型，它可以被归类为自监督模型[151]。深度递归网络嵌入（DRNE）重建了一些顶点的隐藏状态，而不是整个图[152]。研究发现，如果我们将GCN视为编码器，并将GCN与GAN或LSTM与GAN相结合，那么我们可以设计出图的自动编码器。一般来说，DNGR和SDNE通过给定的结构特征嵌入顶点，而其他方法如DRNE同时学习拓扑结构和内容特征[148], [149]。变分图自动编码器[153]采用GCN作为编码器，链接预测层作为解码器。它的后继者，对抗性正则化变分图自动编码器[154]，增加了一个正则化过程与对抗性训练方法，以学习更稳健的嵌入。

4) Graph Generative Networks

图生成网络的目的是根据给定的观察图集合生成图。 许多以前的图生成网络的方法都有自己的应用领域。例如，在自然语言处理中，语义图或知识图谱是根据给定的句子生成的。研究者们提出了一些通用的方法。其中一种认为生成过程是顶点和边的形成。另一种是采用生成式对抗训练。一些基于图生成网络的GCNs，如分子生成对抗网络（MolGAN） 将GNN与强化学习结合起来[155]。图的深度生成模型（DGMG） 通过利用基于空间的GCNs实现了对现有图的隐藏表示[156]。一些基于GAN和Zero-Shot学习的知识图谱嵌入算法[157]。Vyas等人[158]提出了一个广义的Zero-Shot学习模型，它可以在知识图谱中找到未见的语义。

5) Graph Spatial-Temporal Networks

图的空间-时间网络同时捕捉图的空间和时间依赖性。 全局结构包含在空间-时间图中，每个顶点的输入随着时间的变化而变化。例如，在交通网络中，每个传感器作为一个顶点连续记录道路的交通速度，其中，交通网络的边由传感器对之间的距离决定[129]。空间-时间网络的目标可以是预测未来的顶点值或标签，或者预测空间-时间图的标签。最新研究讨论了GCN的使用，GCN与RNN或CNN的结合，以及图结构的递归[130], [131], [159]。

6) Discussion

在这种情况下，图学习任务可以被看作是通过使用梯度下降算法优化目标函数。 因此，基于深度学习的网络表示学习模型的性能会受到梯度下降算法的影响。它们可能会遇到局部最优解和梯度消失问题等挑战。

7. 应用

许多问题都可以通过图学习方法来解决，包括监督学习、半监督学习、无监督学习和强化学习。 一些研究者将图学习的应用分为三类，即结构化场景、非结构化场景和其他应用场景[18]。结构化场景指的是数据以明确的关系结构进行的情况，如物理系统、分子结构和知识图谱。非结构化场景指的是数据具有不明确关系结构的情况，如图像和文本。其他应用场景包括，例如，整合模型和组合优化问题。表2列出了各种图学习方法的神经组件和应用.

fig10

fig11

A. 数据集和开放资源(Datasets and Open-source Libraries)

本文介绍几个数据集和基准用于评估图学习方法在各种任务中的表现，如链接预测、节点分类和图可视化。例如，像Cora（引文网络）、Pubmed（引文网络）、BlogCatalog（社交网络）、Wikipedia（语言网络）和PPI（生物网络）的数据集，包括节点、边、标签或节点的属性。一些研究机构开发了图学习库，其中包括常见和经典的图学习算法。例如，OpenKE是一个基于PyTorch的知识图谱嵌入的Python库。这个开源框架有RESCAL, HolE, DistMult, ComplEx等的实现。CogDL是一个图表示学习框架，可用于节点分类、链接预测、图分类等。

B. Text

许多数据是以文本形式存在，来自各种资源，如网页、电子邮件、文件（技术和公司）、书籍、数字图书馆和客户投诉、信件、专利等。文本数据的结构性不强，通常包含丰富的上下文信息。围绕文本存在着丰富的应用，包括文本分类、序列标注、情感分类等。文本分类是自然语言处理中最经典的问题之一，为解决这个问题而提出的流行算法包括 GCNs[120], [125], GATs[143], Text GCNs[160], 和Sentence LSTM[161]。句子LSTM也被应用于序列标记、文本生成、多跳阅读理解等[161]。句法GCN被提出用于解决语义角色标签和神经机器翻译[162]。门控图神经网络（GGNN）也可用于解决神经机器翻译和文本生成[163]。对于关系抽取任务，树状LSTM、图状LSTM和GCN是较好的解决方案[164]。

C. Images

与图像有关的图学习应用包括社交关系理解、图像分类、视觉问题回答、物体检测、区域分类和语义分割等。 例如，对于社交关系的理解，图推理模型（GRM）被广泛使用[165]。 由于朋友关系等社交关系是现实世界中社会网络的基础，自动解释这些关系对于理解人类行为非常重要。GRM引入了GGNNs来学习一个预测机制。图像分类是一个经典的问题，在这个问题上，GNNs已经表现出很好的性能。视觉问题回答（VQA）是一项同时包含计算机视觉和自然语言处理的学习任务。一个VQA系统将某张图片及其开放的自然语言问题作为输入，以生成一个自然语言答案作为输出。一般来说，VQA是对给定图片进行问答，GGNN已经被利用来辅助VQA[166]。

D. Science

图学习在科学中被广泛采用，对现实世界的物理系统进行建模是理解人类智能的最基本的观点之一。 将物体表示为顶点，将它们之间的关系表示为边，是进行物理学研究的一种简单而有效的方法。Battaglia等人[167]提出了交互网络（IN）来预测和推断丰富的物理系统，其中IN将物体和关系作为输入。基于IN，可以推理出相互作用。因此，可以预测物理动态。视觉交互网络（VIN） 可以从像素中进行预测，从每个物体的两个连续输入帧中学习一个状态代码[168]。

E. Knowledge Graphs Various

各种异质的对象和关系被视为知识图谱的基础[171]。GNN可以应用于知识库补全（KBC），以解决知识库外（OOKB）实体问题[172]。OOKB实体与现有实体相连。因此，OOKB实体的嵌入可以从现有实体中聚合起来。这样的算法在KBC和OOKB的设置中都能达到合理的性能。同样地，GCN也可以用来解决跨语言知识图谱的对齐问题。该模型的主要思想是将不同语言的实体嵌入到一个综合的em-bedding空间。然后，该模型根据其嵌入的相似性来对齐这些实体。

F. Combinatorial Optimization

旅行推销员问题（TSP）和最小生成树（MST）已经通过不同的启发式解决方案得到解决。 由于其结构性，一些解决方案进一步利用了GNNs。Bello等人[182]首次提出了这种方法来解决TSP，他们的方法主要包含两个步骤，即一个参数化的奖励指针网络和一个用于训练的策略梯度模块。Khalil等人[183]用GNN改进了这项工作，并通过两个主要程序取得了更好的性能。首先，他们使用structure2vec来实现顶点嵌入，然后将其输入Q-learning模块进行决策。这项工作也证明了GNN的嵌入能力。Nowak等人[184]专注于二次分配问题，即测量两个图的相似度。GNN模型学习了每个图的顶点嵌入，并使用注意力机制来匹配这两个图。

8. 开放性问题

在这一节中，简要地总结了图学习的几个未来研究方向和开放性问题。

Dynamic Graph Learning

现有的大多数图学习方法都适用于没有特定约束的静态网络。 然而，动态网络随时间变化，它们很难被处理。动态图学习算法在文献中很少被研究。

Generative Graph Learning

受生成式对抗网络的启发，生成式图学习算法可以通过博弈论上的最小值博弈来统一生成式和判别式模型。 这种生成图学习方法可用于链接预测、网络演化和推荐，通过交替和迭代提高生成和判别模型的性能。

Fair Graph Learning

大多数图学习算法都依赖于深度神经网络，所产生的向量可能已经包含了不想要的敏感信息。网络中存在的偏置被强化了，因此，将公平指标整合到图学习算法中以解决固有的偏置问题具有重要意义。

Interpretability of Graph Learning

图学习的模型一般都很复杂，因为它同时包含了图结构和特征信息。图学习算法的仍然是一个黑箱模型，其可解释性仍未解决。 例如，药物发现可以通过图学习算法实现。然而，这种药物是如何被发现的，以及这种发现背后的原因都是未知的。因此图学习背后的可解释性需要进一步研究。