Abstact

具有图像级别标签的弱监督语义分割(WSSS)是一项重要且具有挑战性的工作。由于训练效率高,WSSS的端到端解决方案越来越受关注。然而,目前的方法主要基于卷积神经网络,无法正确探索出全局的信息,因此通常会导致对象区域(object regions)不完整。本文为解决上述问题引入了Transformer,它自然地集成了全局信息,为端到端的WSSS生成更完整的初始伪标签。受Transformer中的自注意力机制(self-attention)与语义亲和力信息(semantic affinity)有内在联系这一特点,本文提出了一个Affinity from Attention机制(AFA,从注意力中提取亲和性)来从Transformer中的多头自注意力机制(MHSA)学习语义亲和力(semantic affinity),然后利用学习到的亲和力来细化初始伪标签以进行分割。此外,为了有效地导出用于监督AFA的可靠亲和力标签,并确保伪标签的局部一致性,本文还设计了一个像素自适应细化模块(Pixel-Adaptive Refinement),该模块结合了low-level图像外观信息来细化伪标签。提出的方法PASCAL VOC 2012和MS COCO 2014数据集上显著优于最近的端到端方法。

1 Introduction

旨在标记图像中每个像素的语义分割是视觉中一项基本任务,过去十年中深度神经网络(DNN)在语义分割方面取得了巨大成功。然而由于DNN中数据匮乏(data-hungry)的特性,全监督语义分割通常需要耗费大量人力来进行像素级标签的标注。为了解决这个问题,近期的一些方法设计了使用弱标签的语义分割模型,如图像级别标签、点标签、涂鸦型标签和边界框等。本文的方法仅使用图像级别的标签,是所有WSSS场景中最具有挑战性的方法。

图像级标签的弱监督语义分割方法中,比较流行的是采用多阶段的框架。具体而言,这些方法首先训练一个分类模型,然后生成类激活图(CAM)作为伪标签。经过细化后,伪标签被用来训练一个独立的语义分割网络作为最终模型。这种多阶段的框架需要针对不同的目的训练多个模型,因此使训练流程复杂化,并减慢了训练速度。为避免这个问题,近期出现了几个WSSS问题的端到端(End-to-end)解决方案。然而这些方法通常基于卷积神经网络,无法正确探索全局特征关系——而全局关系对于激活整体对象区域至关重要,会显著影响生成的伪标签的质量。

最近,Transformer在众多视觉应用中取得重大突破,本文认为它自然有利于WSSS。首先,Transformer中的自注意力机制可以对全局特征关系进行建模,克服上述CNN的缺点,从而发现更多完整的对象区域。


如图1所示,Transformer中的多头自注意力(MHSA)可以捕获语义级别的亲和力,因此可以用于改进粗伪标签。然而从图1(b)中可以看出,在MHSA机制中捕获的亲和力仍然不够准确,即直接应用MHSA作为Affinity来修改标签效果不佳,如图1(c)所示。

基于上述分析,本文提出了一个基于Transformer的WSSS端到端框架。具体来说是利用Transformer生成CAM作为初始伪标签,以避免卷积神经网络的内在缺陷。本文进一步利用Transformer块中内在的亲和力来改进初始伪标签。由于MHSA中的语义亲和性很粗糙,我们提出了一个Affinity from Attention(AFA)模块,旨在导出可靠的伪亲和力标签,以监督从Transformer中的MHSA学习的语义亲和力。学习到的亲和力通过随机游走传播(random walk propagation)(CVPR2018)来修改初始伪标签,这可以扩散对象区域、抑制错误激活的区域。为了AFA推导出高度可信的伪标签并确保传播的伪标签的局部一致性,本文进一步提出了一个像素自适应细化模块Pixel-Adaptive Refinement(PAR)。基于像素自适应卷积,PAR有效地整合了局部像素的RGB和位置信息以细化伪标签,从而更好地与Low-level图像外观对齐。此外鉴于简单性,本文的模型可以以端到端的方式进行训练,从而避免了复杂的training pipeline(训练流程)。PASCAL VOC 2012和MS COCO 2014的实验结果表明,本文方法明显优于最近的端到端方法和几个采用多阶段框架的方法。

总体而言,本文的贡献主要有以下几点:

  • 为图像级标签的WSSS任务提出了一个基于Transformer的端到端框架,这是对于Transformer运用到WSSS任务中的首次探索。
  • 利用Transformer的内在优势并设计出AFA模块。AFA从MHSA机制中学习可靠的语义亲和性,并使用学习到的亲和性传播伪标签。
  • 提出了一种高效的像素自适应细化模块(PAR),该模块结合了局部像素的RGB和位置信息以进行标签细化。

2.Related Work

2.1 弱监督语义分割

  • 多阶段方法。大多数图像级别的WSSS方法都使用多阶段过程。通常先是训练分类网络,使用CAM生成初始伪像素级标签。为了解决CAM生成对象激活图不完整的问题,有方法(46,56,40)提出利用擦除策略,擦除最具有辨别力的区域,从而发现更完整的对象区域。受分类网络在不同训练阶段倾向于关注不同对象区域的观察的启发,(16,51,18)在训练过程中累积激活区域,(26,39,47)提出从多个输入图像中挖掘语义区域,发现相似的语义区域。还有一类流行的具有辅助任务的WSSS分类网络,确保完整的对象发现(45,7,35,36)。最近的一些研究从新颖的角度解释了CAM的生成,例如因果推理(55)、信息瓶颈理论(22)、反对抗攻击(23)
  • 端到端方法(End-to-End Method):由于监督极其有限,很难为WSSS训练一个具有良好性能的端到端模型。【31】提出了一种自适应期望最大化框架来推断用于分割的伪标签(pseudo ground truth for segmention)。【32】将图像级标签的WSSS处理为多实例学习(MIL)问题,并设计了Log-Sum-Exp聚合函数来驱动网络分配正确的像素标签。结合nGWP pooling(利用归一化的全局加权平均池化),pixel-adaptive mask refinement和stochastic low-level information transfer等方法,单阶段模型实现了与多阶段模型相当的性能。【53】中,RRM(可靠区域挖掘)将CAM作为初始伪标签,并使用CRF(条件随机场)生成细化标签作为分割的监督。RRM还引入了辅助正则化损失来保证分割图和低级图像外观的一致性。上述的这些方法通常采用CNN,都带有卷积的固有缺点,即无法捕获全局信息,导致对象的不完全激活。本文探索了用于端到端的WSSS的Transformer来解决这个问题。

2.2 Transformer in Vision

ViT是第一个将纯Transformer架构应用于视觉识别任务的工作,在视觉分类基本问题上性能惊人,后来的变体表明,ViT也有利于下游视觉任务,如语义分割、深度估计和视频理解。有方法【13】提出了用Transformer-based method做弱监督目标定位(WSOL)。WSOL旨在仅通过图像级监督来定位对象。该方法训练具有图像级标签的ViT模型,生成语义感知CAM,并将生成的CAM与语义无关注意图耦合,与语义无关的注意力图是从class-token对其他patch-token的注意力提出的。尽管如此,该方法没有运用MHSA中内在的语义亲和力来提升定位结果。本文提出从MHSA中学习可靠的语义亲和力,并使用学习到的亲和力来传播CAM。

3.具体方法

文章的这一部分首先介绍了Transformer主干网络和CAM,它们生成了最初的伪标签。然后展示了AFA模块,它可以学习可靠的语义亲和力,并利用学习到的亲和力来传播最初的伪标签。随后文章又提出了像素自适应细化模块来保证伪标签的局部一致性。

3.1 Transformer Backbone


如图3所示,本文提出的框架以Transformer为主干,输入的图片首先被分割成h×wh×wh×w个patches,每个patches都被拉平并线性摆放成h×wh×wh×w个tokens。在每个Transformer模块中,多头自注意力机制(MHSA)捕获全局特征依赖关系。具体而言,对于MHSA中的第iii个头,patch tokens用一个MLP(多层感知机)进行投影,并建立起以下三个矩阵:Qi∈Rhw×dkQ_i∈R^{hw×d_k}Qi​∈Rhw×dk​,Ki∈Rhw×dkK_i∈R^{hw×d_k}Ki​∈Rhw×dk​和Vi∈Rhw×dvV_i∈R^{hw×d_v}Vi​∈Rhw×dv​,其中dkd_kdk​是queries和keys的特征维度,dvd_vdv​是values的特征维度。基于这三个矩阵进行计算,自注意力矩阵SiS_iSi​和输出XiX_iXi​分别是
Si=QiKiTdk\\S_i=\frac{Q_iK_i^T}{\sqrt{d_k}} Si​=dk​​Qi​KiT​​
最终Transformer Blocks的输出结果放入前馈神经网络(FFN)中(包含了Layer normalization和MLP层)。堆叠了多个Transformer块后,该主干部分能为后续模块生成特征图。

3.2 CAM生成

考虑到其简单性和推理效率,本文采用CAM方法作为初始伪标签。对于之前得到的特征图和给定的类别,CAM图由特征图中各部分对该类别的贡献得到。ReLU函数用来去掉激活值为负数的部分,min-max归一化将激活值的范围归一到[0,1]范围内,Background score被用来区分前景区域和背景区域。

3.3 Affinity from Attention

如图1所示,Transformer中的多头自注意力机制与语义亲和力之间存在一致性,这启发我们用MHSA来发现对象所在的区域。然而在训练过程中,由于没有对自注意力矩阵加以明确的约束,通过MHSA学习到的亲和力通常是粗糙且不准确的。这意味着直接应用MHSA作为亲和力来细化标签效果不佳。本文提出AFA模块来解决这一问题。
假设Transformer块中的MHSA表示为Rhw×hw×nR^{hw×hw×n}Rhw×hw×n,其中hwhwhw是图片块被铺平后的长度,nnn是自注意力的头数。在我们的AFA模块中,我们通过线性组合多头自注意力,也就是使用MLP层,直接产生语义亲和力。本质上自注意力机制是一种有向图模型,而亲和力矩阵应该是对称的,因为共享相同语义的结点应该是相等的。为了执行这种转换,我们只需要添加S及其转置,预测出来的语义亲和力矩阵可表示为
A=MLP(S+ST)A=MLP(S+S^T) A=MLP(S+ST)

伪亲和标签的生成:
要学习到正确的语义亲和力AAA,关键的一步是生成可靠的伪亲和力标签YaffY_{aff}Yaff​作为监督。如图3所示,我们从细化的伪标签中生成YaffY_{aff}Yaff​(细化模块将会在稍后介绍)。

【CVPR2022论文阅读】Learning Affinity from Attention(待更新)相关推荐

  1. 【论文阅读】Dynamic Convolution: Attention over Convolution Kernels(CVPR2020)

    论文题目:Dynamic Convolution: Attention over Convolution Kernels(CVPR2020) 论文地址:https://arxiv.org/abs/19 ...

  2. 论文阅读——Multi-Scale Image Contextual Attention Learning for Inpainting

    原文链接:MUSICAL: Multi-Scale Image Contextual Attention Learning for Inpainting (IJCAI 2019). Wang, N., ...

  3. [论文阅读] Learning Loss for Active Learning

    论文地址:https://arxiv.org/abs/1905.03677 发表于:CVPR'19 Abstract 深度神经网络的性能随着更多的标注数据而提高.问题是用于标注的预算是有限的.解决这个 ...

  4. 论文阅读 Learning Motion in Feature Space: Locally-Consistent Deformable Convolution Networks

    Learning Motion in Feature Space: Locally-Consistent Deformable Convolution Networks for Fine-Graine ...

  5. 【论文阅读】Heterogeneous Graph Attention Network

    异质图注意网络 摘要 1 引言 2 相关工作 2.1 GNN 2.2 网络嵌入 3 准备工作 3.1 异质图(Heterogeneous Graph) 3.2 元路径(Meta-path) 3.3 基 ...

  6. 论文阅读 Learning Transferable Visual Models From Natural Language Supervisio

    Learning Transferable Visual Models From Natural Language Supervision Computer Vision and Pattern Re ...

  7. [论文阅读] Learning without Memorizing

    论文地址:https://link.springer.com/chapter/10.1007/978-3-319-46493-0_37 代码:https://github.com/stony-hub/ ...

  8. 论文阅读:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018)

    协同分割论文:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018) 论文原文     code 目录 1.简介 2. ...

  9. 论文阅读【A multi-task attention tree neural net for stance classification and rumor veracity detection】

    论文题目:<A multi-task attention tree neural net for stance classification and rumor veracity detecti ...

  10. 论文阅读——ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

    ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 改进版通道注意力 from CVPR2020 期 ...

最新文章

  1. (转)记忆杭州中的(非杭户籍人)
  2. java shiro实例_Apache Shiro入门实例
  3. Tomcat安装之在Mac环境下配置tomcat9
  4. LLS战队高级软件工程第九次作业敏捷冲刺七
  5. Java监视器绑定的超人
  6. APACHE的简单应用一
  7. 小米CC开机动画公布:扑面而来的青春活力
  8. linux 脚本 列表,shell -脚本 给出多个数据列表 执行任务
  9. 【每日算法Day 91】求解数组中出现次数超过1/3的那个数
  10. Fedora25安装mariadb并设置权限
  11. 采用数字电位器来调整DC-DC的输出
  12. Consumer raised exception, processing can restart if the connection factory supports it
  13. oracle remap schema,impdp的remap_schema选项的另一个schema是否要重建
  14. InDesign 教程如何更改字体和字体大小?
  15. 说说qwerty、dvorak、colemak三种键盘布局
  16. java中package(包)的使用理解
  17. Android Framework 包管理子系统(03)应用安装
  18. java内部模型,13 张图拆解 Java 中的内存模型
  19. 个总开源License授权
  20. 【洛谷 P3951】小凯的疑惑【数论】

热门文章

  1. 怎么把外部参照合并到图纸_为什么CAD图纸作为外部参照插入时位置变了?
  2. 小白聊智慧制造之二:智能制造的体系架构
  3. java中成员方法_java中的成员变量和方法
  4. Python实现Reed-Xiaoli(RX)高光谱目标检测算法
  5. Qt实现桌面右下角弹窗
  6. [硬件]_ELVE_VS2015下opencv3.3的配置问题
  7. 敢问程序员路在何方、路在脚下。
  8. 阿里云aks使用demo
  9. 23中设计模式之策略模式
  10. [单片机框架][bsp层][AT32F415][bsp_adc] adc配置和使用