Let Invariant Rationale Discovery Inspire Graph Contrastive Learning

1. 摘要

主流图对比学习(GCL)方法以两种方式进行图增强:(1)随机破坏锚点图，可能导致语义信息的丢失;(2)使用领域知识维护显著特征，破坏对其他领域的泛化。从GCL的不变性角度来看，我们认为高性能的增强应该保留锚图关于实例区分的显著语义。为此，我们将GCL与不变的基本原理发现联系起来，并提出了一个新的框架，基本原理感知图对比学习(RGCL)。具体来说，在没有监督信号的情况下，RGCL使用基本原理生成器来揭示图实例判别的显著特征，然后为对比学习创建基本原理感知视图。这种理性感知的训练前方案赋予骨干模型强大的表示能力，进一步促进了对下游任务的微调。在MNIST-Superpixel和MUTAG数据集上，对所发现的基本原理的目视检查表明，基本原理生成器成功地捕获了显著特征(即，在图中区分语义节点)。在生化分子和社交网络基准数据集上，RGCL的最新性能证明了理性感知观点对对比学习的有效性。

代码：https://github.com/lsh0520/RGCL

2. 动机

现有的图增强方式存在一定的局限性：

随机破坏属性的方式可能会失去判别语义，从而导致增强视图远离锚点图，从而影响模型效果；
通过外部知识来引导的增强虽然有效，但很缺乏，在不可见领域中泛化能力差。

本文解决方案——保留显著语义

形式上A(⋅)A(·)A(⋅)为增广函数，f(⋅)f(·)f(⋅)为产生表示的编码器网络，将不变的目标表述为f(A(g))=f(g)f(A(g))=f(g)f(A(g))=f(g)，其中f(g)f(g)f(g)保留显著语义，但不包含关于ggg增广方式的信息。

怎么保留显著语义——不变基本原理（IRD）

IRD通常包含两个模块：

基本原理发现：可以用函数R(⋅)R(·)R(⋅)表示，提取引导预测的特征作为基本原理；
预测：只对监督预测使用基本原理。预测受到基本原理的影响，无论基本原理的补充如何变化，基本原理是不变的。

考虑f(⋅)f(·)f(⋅)作为封装信息进行预测的编码器，IRD的目标可表述为f(R(g))=f(g)f(R(g))=f(g)f(R(g))=f(g)。因此R(⋅)R(·)R(⋅)可以揭示ggg的关键信息，从而假设这些表示应该对保留实例判别信息的基本原理感知的增广是不变的。

新的框架——RGCL

在IRD和GCL的联合下，本文提出基本原理感知的图对比学习框架（RGCL），以自动发现作为图增强的基本原理。

RGCL包含两个模块：

基本原理生成器：决定锚点图中显示和隐藏的分数，并产生封装其实例判别信息的基本原理；
对比学习器：利用基本原理感知视图对图进行实例判别。

两个模块共同实现良好的语义表示。

3. 不变基本原理的发现

包含基本原理发现、两原则分类和考虑不变性三个模块。图、标签、基本原理和补充变量分别表示为G、Y、R(G)、C(G)G、Y、R(G)、C(G)G、Y、R(G)、C(G)

基本原理发现： 对于一个图实例ggg，该模块提取ggg的子结构为R(g)R(g)R(g)，称之为基本原理，允许单独进行分类。具体来说，R(⋅)R(·)R(⋅)是图增强函数的一个实例，保留了ggg的临界子结构。其基本原理可以由显著的拓扑特征、节点属性或边属性组成。例如，DIR在ggg的边上应用注意网络，选择具有最高注意的显著边作为这个图实例的基本原理。

两原则分类： 由于缺乏真实的基本原理，学习发现基本原理是通过实现函数R(⋅)R(·)R(⋅)与网络r(⋅)r(·)r(⋅)和接近原始输入ggg和目标标签yyy来实现的。一般来说，基本原理需要满足两个原则：充分性和独立性。所谓“充分性”，指的是基本原理R(g)R(g)R(g)足以保存ggg与标签yyy相关的关键信息，公式为:

其中pY(⋅∣X=x)p_Y(·|X=x)pY(⋅∣X=x)为条件概率密度/质量函数，条件是输入X对应的随机变量。“独立性”是指标签变量YYY与基本原理的补变量C(G)C(G)C(G)无关，条件是基本原理R(G)R(G)R(G):

⊥是概率独立性。

为了对这些原则建模，IRD通常设计一个编码器网络f(⋅)f(·)f(⋅)来生成基本表示，随后设计一个分类器网络φ(⋅)φ(·)φ(⋅)来预测ggg的标签：

其中DDD是包含图实例和目标标签对的数据集，ls(⋅,⋅)l_s(·,·)ls(⋅,⋅)像交叉熵一样度量监督损失。
考虑不变性： 首先，充分性原则强制编码器f(⋅)f(·)f(⋅)对基本原理R(g)R(g)R(g)及其原始图ggg进行相同的信息细化。其次，独立性原则自然使分类对基本原理的补充不敏感。对于任何特定的ggg，我们找到一个基本原理R(g)R(g)R(g)如下:

4. 方法

4.1 基本原理感知的图增强

之前的研究表明，节点dropout有利于跨不同类别的图数据集的下游任务。因此，给定一个锚点图，我们专注于识别一个显著节点子集，它们之间有边作为锚点图的基本原理。
为此，我们需要获得能区分每个节点的属性。此外，为了保持增强视图的多样性，我们采用近似概率抽样的思想：给定锚点图G=gG=gG=g，它的基本原理R(G)R(G)R(G)遵循概率分布PR(R(G)∣G=g)P_R(R(G)|G=g)PR(R(G)∣G=g)，总结出每个节点的显著性概率：

其中VVV和VRV_RVR分别是ggg的节点集合和它的基本原理R(g)R(g)R(g)，VC=V\VRV_C=V \backslash V_RVC=V\VR是补集C(g)C(g)C(g)的节点集；p(v∣g)p(v|g)p(v∣g)表示vvv被纳入R(g)R(g)R(g)的概率，反映了它在语义上的重要性。类似地，可以将基本原理的补集C(G)C(G)C(G)的分布定义为：

其中1−p(v∣g)1-p(v|g)1−p(v∣g)衡量节点vvv完成实列判别的不足程度。

具体实现

采用基本原理生成器网络r(⋅)r(·)r(⋅)来参数化概率分布函数p(⋅∣g)p(·|g)p(⋅∣g)：

其中r(⋅)r(·)r(⋅)是一个GNN-MLP组合编码器，以锚点图ggg为输入，得到归一化节点属性得分P∈R∣V∣×1P \in R^{|V|×1}P∈R∣V∣×1，其中P中的第VVV个元素对应前面提到的概率P(V∣g)P (V| g)P(V∣g)。

此外，我们从分布PR(⋅∣G=g)P_R(·|G = g)PR(⋅∣G=g)中采样基本原理感知视图，以获得基本感知视图：

其中，基于归一化节点的属性得分PPP，我们从原始图ggg中采样ρ⋅∣Vg∣ρ·|V_g|ρ⋅∣Vg∣节点，同时保留采样节点之间的边。同样，基本原理补充视角如下：

C(g)C(g)C(g)是从分布PC(⋅∣G=g)P_C(·| G = g)PC(⋅∣G=g)中采样的一个随机补集。R(g)R(g)R(g)（或C(g)C(g)C(g)）内的每个节点都被分配其概率p(v∣g)p(v|g)p(v∣g)（或1−p(v∣g)1−p(v|g)1−p(v∣g)），这说明该节点在GCL中进行实例判别是多么重要（或微不足道）。

4.2 基本原理表示学习

从这两个分布中抽样后，我们有R(g)R(g)R(g)和C(g)C(g)C(g)，同时丢弃了剩余的节点。对于基本原理增强视图R(g)R(g)R(g)，我们将其与属性向量PR∈R∣VR∣×1P_R∈R^{|V_R|×1}PR∈R∣VR∣×1关联，其中我们保持P中的节点属性得分对应于R(g)R(g)R(g)的节点集。补集视图C(g)C(g)C(g)的处理方法与属性向量PC∈R∣VC∣×1P_C∈R^{|V_C|×1}PC∈R∣VC∣×1类似。在用概率向量PRP_RPR建立了基本原理增强视图R(g)R(g)R(g)之后，我们将它们输入GNN框架f(⋅)f(·)f(⋅)（即预先训练的目标模型），以生成基本原理感知表示：

其中f(⋅)f(·)f(⋅)是基编码器GNN(⋅)GNN(·)GNN(⋅)和池化层Pooling(⋅)Pooling(·)Pooling(⋅)的组合，得到d′d'd′维基本原理表示xRx_RxR。具体来说，GNN(⋅)GNN(·)GNN(⋅)输出XR∈R∣VR∣×d′XR∈R^{|V_R|×d'}XR∈R∣VR∣×d′，它包含R(g)R(g)R(g)内节点的表示。随后，我们在XRX_RXR和PRP_RPR之间应用元素级积，然后使用池化函数Pooling(⋅)Pooling(·)Pooling(⋅)将节点表示压缩为基本表示。注意，当对下游任务进行微调时，我们禁用基本原理发现模块并丢弃f(⋅)f(·)f(⋅)中的PRP_RPR，即x=Pooling(GNN(g))x = Pooling(GNN(g))x=Pooling(GNN(g))。

此外，我们利用投影头h(⋅)h(·)h(⋅)将图表示映射到另一个潜在空间，在那里进行对比学习，旨在加强锚点和基本原理之间的相互信息到一个更小的下限。形式上，上述过程为：

其中h(⋅)h(·)h(⋅)由l2l_2l2归一化输出的MLP实例化。同理，我们可以得到互补感知视图C(g)C(g)C(g)的表示和投影：

4.3 基本原理感知对比学习

对于锚点图ggg，从其基本原理生成分布中随机抽取两个基本原理，将它们视为正对(R1(g)，R2(g))(R_1(g)， R_2(g))(R1(g)，R2(g))，并通过公式(14)建立它们的投影表示r1+r^+_1r1+和r2+r^+_2r2+。从其基本原理生成分布中随机抽取两个基本原理，将它们视为正对(R1(g)，R2(g))(R_1(g)， R_2(g))(R1(g)，R2(g))，并通过公式(14)建立它们的投影表示r1+r^+_1r1+和r2+r^+_2r2+。

除了自其他锚点的基本原理的负面视图，我们进一步从其补充生成分布中采样一个补充Rc(g)R^c(g)Rc(g)，并将其作为ggg的额外负面视图。我们将独立原则形式化为以下对比损失的最小化：

集合CCC汇总了小批量数据中出现的所有补码表示。lin(g)l_{in}(g)lin(g)的最小化将基本原理的表示ccc与基本原理的表示rrr分开，使得捕获的基本原理在不改变其补集的情况下保持稳定，这符合式(5)中的独立原则。最后，我们的目标函数合并了这两种损失，描述了基本原理生成器网络r(⋅)r(·)r(⋅)与目标主干模型f(⋅)f(·)f(⋅)之间的合作博弈：

其中λ是控制lsu(g)l_{su}(g)lsu(g)和lin(g)l_{in}(g)lin(g)之间权衡的超参数。优化完成后，我们在对下游任务进行微调时丢弃投影头h(⋅)h(·)h(⋅)。

5. 实验结果

MNIST Superpixel

图分类任务

无监督表示学习