论文导读 | 深度图生成模型简介

作者：北京大学博士后刘钰

图生成模型（Graph Generative Models）是复杂网络和图数据管理领域近几十年来的研究热点之一，其主要研究符合真实应用图数据结构性质的随机图生成模型、快速生成算法以及真实图的相关性质等。

其中，过去几十年的研究主要关注传统图模型，即通过对真实图性质的观察、分析和建模，提出一些图生成机制、模型和算法，并证明模型符合的某些重要性质（如度分布的幂律性质）。

传统图模型的优点在于揭示了某种真实图重要的结构性质，并且已有较多面向大规模图生成的高效算法；然而，其缺点在于仅能建模少量图性质，生成的随机图与真实应用图数据在图结构性质上有较大差距。

代表性图模型包括Endos-Renyi(ER)图、Stochasticblock模型、基于Preferential Attachment的图模型（如Barabasi-Albert模型）、递归图模型（如R-MAT和Kronecker图模型）等。例如，Stochasticblock模型建模了真实图的多社区性质；Barabasi-Albert（BA）模型建模了真实图的幂律度分布性质；递归图模型主要关注图的层叠社区（communities-within- communities）性质。

与此不同的是，近几年随着深度学习和图表示学习的发展，图模型领域与深度生成模型（Deep Generative Models）产生结合，不少研究提出了深度图生成模型（Deep Graph Generative Models）。通过对一系列（假设取自同一分布的）训练图数据进行学习，得到某个神经网络作为图生成模型。总体来讲，根据采用的深度生成模型技术，可大致分为基于variational encoder的模型、基于GAN的模型和autoregressive模型。

基于variational encoder的代表性工作是GraphVAE，其通过encoder-decoder结构对训练图进行学习。

基于GAN的模型如MolGAN将图结构与生成对抗网络结合。其生成器以一个随机噪声向量为输入，通过多层感知机（MLP）实现；而判别器以图神经网络实现（如GCN和R-GCN），并通过节点向量聚合得到图向量（graph-level embedding）作为判别器的输入。

自回归（autoregressive）图模型的代表性工作如基于RNN的模型GraphRNN。其假设每个节点及其所有邻居是顺序插入图的，故使用一个图层面的RNN序列建模当前图的信息，并在每次新节点插入后更新；用一个边层面的RNN序列建模每个节点的邻居信息。

目前，基于自回归模型的代表性工作（state of the art）是Google在ICML 2020发表的BiGG模型。其基本图模型假设与GraphRNN类似（即节点顺序插入），基本思路包括（1）利用递归图模型的思想，对每个节点的邻接表使用树状结构生成以降低复杂度；（2）将所有节点的邻接表生成用自回归方式实现。

具体来讲，对每个节点的邻居（即邻接矩阵中的某一行），将其生成过程建模成一棵树。对每个树节点，使用bottom向量表示其子树中的所有结构信息，而使用top向量表示从父节点得到的全部（先验）信息，例如已生成的部分图的信息。模型使用树状LSTM（Tree-LSTM）组织树状递归网络。

为了在不同节点的邻接表间建立自回归结构，模型仍然以类似森林的层级结构为基础，将每个树根的bottom向量作为叶子节点，使用LSTM建立节点之间的关系。

为了对训练过程进行加速，论文仔细分析了可并行执行的操作。其关键在于，对于树结构的每一层，基本可以并行计算。论文也考虑了多GPU间并行的技术细节。

然而，对于模型推断阶段，即图生成阶段，只能使用串行方式进行；这是因为模型生成过程中任一树节点的右孩子生成（top向量）依赖于左孩子生成后提供的结构化信息。

在实验验证部分，论文使用了类似GraphRNN的衡量标准Meximum MeanDiscrepancy（MMD），结果表明在小规模图上算法的效果更优：

此外，模型还验证了其扩展性。该模型是目前扩展性最好的深度图生成模型，可生成约10万个点的图。