Let Invariant Rationale Discovery Inspire Graph Contrastive Learning

1. 摘要

  主流图对比学习(GCL)方法以两种方式进行图增强:(1)随机破坏锚点图,可能导致语义信息的丢失;(2)使用领域知识维护显著特征,破坏对其他领域的泛化。从GCL的不变性角度来看,我们认为高性能的增强应该保留锚图关于实例区分的显著语义。为此,我们将GCL与不变的基本原理发现联系起来,并提出了一个新的框架,基本原理感知图对比学习(RGCL)。具体来说,在没有监督信号的情况下,RGCL使用基本原理生成器来揭示图实例判别的显著特征,然后为对比学习创建基本原理感知视图。这种理性感知的训练前方案赋予骨干模型强大的表示能力,进一步促进了对下游任务的微调。在MNIST-Superpixel和MUTAG数据集上,对所发现的基本原理的目视检查表明,基本原理生成器成功地捕获了显著特征(即,在图中区分语义节点)。在生化分子和社交网络基准数据集上,RGCL的最新性能证明了理性感知观点对对比学习的有效性。

代码:https://github.com/lsh0520/RGCL

2. 动机

现有的图增强方式存在一定的局限性:

  1. 随机破坏属性的方式可能会失去判别语义,从而导致增强视图远离锚点图,从而影响模型效果;
  2. 通过外部知识来引导的增强虽然有效,但很缺乏,在不可见领域中泛化能力差。

本文解决方案——保留显著语义

  形式上A(⋅)A(·)A(⋅)为增广函数,f(⋅)f(·)f(⋅)为产生表示的编码器网络,将不变的目标表述为f(A(g))=f(g)f(A(g))=f(g)f(A(g))=f(g),其中f(g)f(g)f(g)保留显著语义,但不包含关于ggg增广方式的信息。

怎么保留显著语义——不变基本原理(IRD)

IRD通常包含两个模块:

  1. 基本原理发现:可以用函数R(⋅)R(·)R(⋅)表示,提取引导预测的特征作为基本原理;
  2. 预测:只对监督预测使用基本原理。预测受到基本原理的影响,无论基本原理的补充如何变化,基本原理是不变的。

  考虑f(⋅)f(·)f(⋅)作为封装信息进行预测的编码器,IRD的目标可表述为f(R(g))=f(g)f(R(g))=f(g)f(R(g))=f(g)。因此R(⋅)R(·)R(⋅)可以揭示ggg的关键信息,从而假设这些表示应该对保留实例判别信息的基本原理感知的增广是不变的。

新的框架——RGCL

  在IRD和GCL的联合下,本文提出基本原理感知的图对比学习框架(RGCL),以自动发现作为图增强的基本原理。

RGCL包含两个模块:

  1. 基本原理生成器:决定锚点图中显示和隐藏的分数,并产生封装其实例判别信息的基本原理;
  2. 对比学习器:利用基本原理感知视图对图进行实例判别。

两个模块共同实现良好的语义表示。

3. 不变基本原理的发现

  • 包含基本原理发现、两原则分类和考虑不变性三个模块。图、标签、基本原理和补充变量分别表示为G、Y、R(G)、C(G)G、Y、R(G)、C(G)G、Y、R(G)、C(G)

基本原理发现: 对于一个图实例ggg,该模块提取ggg的子结构为R(g)R(g)R(g),称之为基本原理,允许单独进行分类。具体来说,R(⋅)R(·)R(⋅)是图增强函数的一个实例,保留了ggg的临界子结构。其基本原理可以由显著的拓扑特征、节点属性或边属性组成。例如,DIR在ggg的边上应用注意网络,选择具有最高注意的显著边作为这个图实例的基本原理。

两原则分类: 由于缺乏真实的基本原理,学习发现基本原理是通过实现函数R(⋅)R(·)R(⋅)与网络r(⋅)r(·)r(⋅)和接近原始输入ggg和目标标签yyy来实现的。一般来说,基本原理需要满足两个原则:充分性和独立性。所谓“充分性”,指的是基本原理R(g)R(g)R(g)足以保存ggg与标签yyy相关的关键信息,公式为:

其中pY(⋅∣X=x)p_Y(·|X=x)pY​(⋅∣X=x)为条件概率密度/质量函数,条件是输入X对应的随机变量。“独立性”是指标签变量YYY与基本原理的补变量C(G)C(G)C(G)无关,条件是基本原理R(G)R(G)R(G):

⊥是概率独立性。

为了对这些原则建模,IRD通常设计一个编码器网络f(⋅)f(·)f(⋅)来生成基本表示,随后设计一个分类器网络φ(⋅)φ(·)φ(⋅)来预测ggg的标签:

其中DDD是包含图实例和目标标签对的数据集,ls(⋅,⋅)l_s(·,·)ls​(⋅,⋅)像交叉熵一样度量监督损失。
考虑不变性: 首先,充分性原则强制编码器f(⋅)f(·)f(⋅)对基本原理R(g)R(g)R(g)及其原始图ggg进行相同的信息细化。其次,独立性原则自然使分类对基本原理的补充不敏感。对于任何特定的ggg,我们找到一个基本原理R(g)R(g)R(g)如下:

4. 方法

4.1 基本原理感知的图增强

  之前的研究表明,节点dropout有利于跨不同类别的图数据集的下游任务。因此,给定一个锚点图,我们专注于识别一个显著节点子集,它们之间有边作为锚点图的基本原理。
  为此,我们需要获得能区分每个节点的属性。此外,为了保持增强视图的多样性,我们采用近似概率抽样的思想:给定锚点图G=gG=gG=g,它的基本原理R(G)R(G)R(G)遵循概率分布PR(R(G)∣G=g)P_R(R(G)|G=g)PR​(R(G)∣G=g),总结出每个节点的显著性概率:

其中VVV和VRV_RVR​分别是ggg的节点集合和它的基本原理R(g)R(g)R(g),VC=V\VRV_C=V \backslash V_RVC​=V\VR​是补集C(g)C(g)C(g)的节点集;p(v∣g)p(v|g)p(v∣g)表示vvv被纳入R(g)R(g)R(g)的概率,反映了它在语义上的重要性。类似地,可以将基本原理的补集C(G)C(G)C(G)的分布定义为:

其中1−p(v∣g)1-p(v|g)1−p(v∣g)衡量节点vvv完成实列判别的不足程度。

具体实现

  采用基本原理生成器网络r(⋅)r(·)r(⋅)来参数化概率分布函数p(⋅∣g)p(·|g)p(⋅∣g):

其中r(⋅)r(·)r(⋅)是一个GNN-MLP组合编码器,以锚点图ggg为输入,得到归一化节点属性得分P∈R∣V∣×1P \in R^{|V|×1}P∈R∣V∣×1,其中P中的第VVV个元素对应前面提到的概率P(V∣g)P (V| g)P(V∣g)。

  此外,我们从分布PR(⋅∣G=g)P_R(·|G = g)PR​(⋅∣G=g)中采样基本原理感知视图,以获得基本感知视图:

其中,基于归一化节点的属性得分PPP,我们从原始图ggg中采样ρ⋅∣Vg∣ρ·|V_g|ρ⋅∣Vg​∣节点,同时保留采样节点之间的边。同样,基本原理补充视角如下:

C(g)C(g)C(g)是从分布PC(⋅∣G=g)P_C(·| G = g)PC​(⋅∣G=g)中采样的一个随机补集。R(g)R(g)R(g)(或C(g)C(g)C(g))内的每个节点都被分配其概率p(v∣g)p(v|g)p(v∣g)(或1−p(v∣g)1−p(v|g)1−p(v∣g)),这说明该节点在GCL中进行实例判别是多么重要(或微不足道)。

4.2 基本原理表示学习

  从这两个分布中抽样后,我们有R(g)R(g)R(g)和C(g)C(g)C(g),同时丢弃了剩余的节点。对于基本原理增强视图R(g)R(g)R(g),我们将其与属性向量PR∈R∣VR∣×1P_R∈R^{|V_R|×1}PR​∈R∣VR​∣×1关联,其中我们保持P中的节点属性得分对应于R(g)R(g)R(g)的节点集。补集视图C(g)C(g)C(g)的处理方法与属性向量PC∈R∣VC∣×1P_C∈R^{|V_C|×1}PC​∈R∣VC​∣×1类似。在用概率向量PRP_RPR​建立了基本原理增强视图R(g)R(g)R(g)之后,我们将它们输入GNN框架f(⋅)f(·)f(⋅)(即预先训练的目标模型),以生成基本原理感知表示:

其中f(⋅)f(·)f(⋅)是基编码器GNN(⋅)GNN(·)GNN(⋅)和池化层Pooling(⋅)Pooling(·)Pooling(⋅)的组合,得到d′d'd′维基本原理表示xRx_RxR​。具体来说,GNN(⋅)GNN(·)GNN(⋅)输出XR∈R∣VR∣×d′XR∈R^{|V_R|×d'}XR∈R∣VR​∣×d′,它包含R(g)R(g)R(g)内节点的表示。随后,我们在XRX_RXR​和PRP_RPR​之间应用元素级积,然后使用池化函数Pooling(⋅)Pooling(·)Pooling(⋅)将节点表示压缩为基本表示。注意,当对下游任务进行微调时,我们禁用基本原理发现模块并丢弃f(⋅)f(·)f(⋅)中的PRP_RPR​,即x=Pooling(GNN(g))x = Pooling(GNN(g))x=Pooling(GNN(g))。

  此外,我们利用投影头h(⋅)h(·)h(⋅)将图表示映射到另一个潜在空间,在那里进行对比学习,旨在加强锚点和基本原理之间的相互信息到一个更小的下限。形式上,上述过程为:

其中h(⋅)h(·)h(⋅)由l2l_2l2​归一化输出的MLP实例化。同理,我们可以得到互补感知视图C(g)C(g)C(g)的表示和投影:

4.3 基本原理感知对比学习

  对于锚点图ggg,从其基本原理生成分布中随机抽取两个基本原理,将它们视为正对(R1(g),R2(g))(R_1(g), R_2(g))(R1​(g),R2​(g)),并通过公式(14)建立它们的投影表示r1+r^+_1r1+​和r2+r^+_2r2+​。从其基本原理生成分布中随机抽取两个基本原理,将它们视为正对(R1(g),R2(g))(R_1(g), R_2(g))(R1​(g),R2​(g)),并通过公式(14)建立它们的投影表示r1+r^+_1r1+​和r2+r^+_2r2+​。

除了自其他锚点的基本原理的负面视图,我们进一步从其补充生成分布中采样一个补充Rc(g)R^c(g)Rc(g),并将其作为ggg的额外负面视图。我们将独立原则形式化为以下对比损失的最小化:

集合CCC汇总了小批量数据中出现的所有补码表示。lin(g)l_{in}(g)lin​(g)的最小化将基本原理的表示ccc与基本原理的表示rrr分开,使得捕获的基本原理在不改变其补集的情况下保持稳定,这符合式(5)中的独立原则。最后,我们的目标函数合并了这两种损失,描述了基本原理生成器网络r(⋅)r(·)r(⋅)与目标主干模型f(⋅)f(·)f(⋅)之间的合作博弈:

其中λ是控制lsu(g)l_{su}(g)lsu​(g)和lin(g)l_{in}(g)lin​(g)之间权衡的超参数。优化完成后,我们在对下游任务进行微调时丢弃投影头h(⋅)h(·)h(⋅)。

5. 实验结果

MNIST Superpixel

图分类任务

无监督表示学习

Let Invariant Rationale Discovery Inspire Graph Contrastive Learning相关推荐

  1. 论文阅读:Graph Contrastive Learning with Augmentations

    Abstract 图结构数据上的广义.可转移和鲁棒表示学习仍然是当前图神经网络(GNNs)面临的一个挑战.与用于图像数据的卷积神经网络(CNNs)不同,对gnn的自我监督学习和预训练的探索较少.在本文 ...

  2. 文献阅读(73)AAAI2022-SAIL: Self Augmented Graph Contrastive Learning

    本文是对<SAIL: Self Augmented Graph Contrastive Learning>一文的总结,如有侵权即刻删除. 朋友们,我们在github创建了一个图学习笔记库, ...

  3. [2021] Spatio-Temporal Graph Contrastive Learning

    21-Spatio-Temporal Graph Contrastive Learning 郑宇.梁玉轩 1 摘要 深度学习模型是时空图(STG)预测的现代工具.尽管它们很有效,但它们需要大规模的数据 ...

  4. GraphCL: Graph Contrastive Learning with Augmentations笔记

    NeurIPS 2020- Graph Contrastive Learning with Augmentations contrastive learning algorithm pretraini ...

  5. 【论文阅读】MLGCL:Multi-Level Graph Contrastive Learning

    目录 摘要 1 引言 2 准备工作 3 MLGCL框架 3.1 图数据增强 3.2 编码器 3.3 多级损失函数 4 实验 摘要 在本文中,我们提出了一个多层次图对比学习(MLGCL)框架,通过对比图 ...

  6. Graph Contrastive Learning with Adaptive Augmentation

    摘要 对比学习在无监督图表示学习中取得了很好的效果,大部分图对比学习首先对输入图做随机增强生成两个视图然后最大化两个视图表示的一致性.其中,图上的增强方式是非常重要的部分鲜有人探索.我们认为数据增强模 ...

  7. 22KDD : COSTA Covariance-Preserving Feature Augmentation for Graph Contrastive Learning

    作者知乎讲解 这篇文章就是 对 encoder学到的表征 再进行 降维,在进行对比. 文章开始讲的是 进入encoder之前的 视图增强 导致 了一些问题,但是自己还是也先 试图增强后 在用了COST ...

  8. Are Graph Augmentations Necessary? Simple Graph Contrastive Learning for Recommendation

    补充:特征对齐.均匀分布 Embedding里能够保留更多个性化的信息,这又代表什么呢?举个例子,比如有两张图片,都是关于狗的,但是一张是在草地上跑的黑狗,一张是在水里游泳的白狗.如果在投影成Embe ...

  9. 【论文阅读】AD-GCL:Adversarial Graph Augmentation to Improve Graph Contrastive Learning

    目录 摘要 1 引言 2 准备工作 2.1 学习图表示 2.2 GNNs 2.3 互信息最大化 3 对抗性图对比学习 3.1 AD-GCL的理论动机及制定 3.2 通过可学习的边缘扰动实例化AD-GC ...

最新文章

  1. go kegg_3分钟了解GO/KEGG功能富集分析
  2. Java基础20:Java8新特性终极指南
  3. 系统架构师学习笔记_第十二章_连载
  4. matlab机械手ikine函数,关于Mtalab-robotics工具箱中的fkine和ikine两个函数的问题讨论!...
  5. 关于博客的排版和字体
  6. Windows下安装Nginx+php+mysql环境
  7. 对广州链家网二手房数据进行分析
  8. 3G网络通信技术与4G网络通信技术的区别
  9. 使用FeatureTask多线程优化in,提高查询速度
  10. Oracle Sequence创建与使用
  11. air 新浪开放平台 登录部分接口案例
  12. 一文搞懂Grid 布局
  13. 读《Weighted Graph Based Description for Finger-Vein Recognition》
  14. 家庭云 海康威视 H90 硬盘数据恢复方法
  15. 游戏开发中的人工智能(五):以势函数实现移动
  16. 汇川伺服硬件接线汇总
  17. 2021阿里巴巴研发效能峰会干货集(PPT+视频+白皮书+案例)
  18. Daily Scrum: 2012/11/27
  19. 搭配Online:中信证券与中信建投要合并?官方回应来了!
  20. 计算机经典书籍下载网址集锦,希望对大家有所帮助

热门文章

  1. 2019年的SD-WAN:服务提供商的难题
  2. 华为鸿蒙的科技话题作文800字,科技的发展作文800字4篇
  3. fsck修复以及在lost+found找丢失的文件
  4. 毕业设计《宠物医院挂号系统》
  5. mysql定位和优化慢查询的方案
  6. 从汇编的角度分析函数调用过程(1)
  7. 2022年元宇宙还是一个香饽饽吗?
  8. 腾讯轻量云服务器控制台详细介绍及建站操作图文教程
  9. Mysql数据库调优(汇总)
  10. AppScan安全问题解决方案