[论文阅读] Structure-Consistent Weakly Supervised Salient Object Detection with Local Saliency Coherence

论文地址：https://ojs.aaai.org/index.php/AAAI/article/view/16434
代码：http://github.com/siyueyu/SCWSSOD
发表于：AAAI 2021

Abstract

近几年来，稀疏标签一直备受关注。然而，弱监督与完全监督的SOD方法之间的性能差距是巨大的，并且以前的大多数弱监督方法都采用了复杂的训练过程与花哨的设计技巧。在本文中，我们提出了一个通过草图标注(scribble annotation)来进行弱监督显著目标检测的单轮端到端训练方法，不需要预处理/后处理操作或者额外的监督数据。由于草图标签不能提供详细的显著区域，我们提出了一个局部一致性损失，根据图像特征与像素距离来将标签传播到未标记的区域，从而预测具有一致目标结构的整体显著区域。此外，我们设计了一个显著结构一致性损失作为自治机制，以确保在输入不同尺寸下的同一图像时，输出一致的显著图，其可以被看做一种正则化技术，来提高模型的泛化能力。此外，我们还设计了一个融合模块(AGGM)，以更好地处理高级特征、低级特征与全局上下文信息，供解码器融合。大量的实验表明，我们的方法在六个基准测试上取得的了新的SOTA。

I. Motivation

这里首先介绍一下Weakly Supervised SOD的概念。所谓弱监督，即使用更易获得的标签，来提升标签的效率(传统的逐像素标记标签需要大量的时间成本)，并且在这种标签质量降低的情况下尽可能地去保证模型的性能。

目前使用草图标注做弱监督还处于比较起步的阶段，作者指出现有的方法[1]需要额外引入一些信息(如显著边界)以恢复完整的目标结构。但是这就有个问题，引入的这种显著边界信息也是靠额外的算法算出来的，如果不准的话就会对最终结果造成影响。此外，这些方法的整体流程也较为复杂，并非端到端的。为此，本文解决的一大问题是使用端到端的方法来训练弱监督SOD网络。

此外，作者还发现一个问题，现有的弱监督SOD方法对输入图像的尺寸十分敏感，输入不同尺寸下的同一图像得到的结果并不一致，如下：
如图，理想情况应如列b所示，而目前大多数方法会出现列a所示的情况。因此本文也从模型泛化性(鲁棒性)的角度进行着手。

II. Network Architecture

整体属于Encoder-Decoder架构。不过从这张图也可以看到，本文网络并没有设计太多的额外模块(就只有一个AGGM模块)，主要的工作重心放在如何去设计各种loss上。AGGM(图中带圈的A)加在各Decoder块的后面，起一个多级特征融合的作用。

III. Aggregation Module

这里Aggregation Module的缩写用的是AGGM而非AM

融合模块结构如下所示：

做的是高级特征 f h f_{h} fh、全局特征 f g f_{g} fg、局部特征 f l f_{l} fl的融合。多级特征融合在传统SOD领域已经做的非常多了，这里也大概介绍一下本文融合模块的思想。

f h f_{h} fh、 f g f_{g} fg、 f l f_{l} fl之间是存在gap的，不能直接采取element-wise sum或channel-wise concat的方法进行简单的融合。此外，在Decoder总结信息的各个阶段，三种特征的相对重要程度是会发生变化的，例如对于深层的Decoder块，全局特征就更重要些；而对于浅层的Decoder块，局部特征就更重要些。因此，需要做带权融合，而权重就自然可以通过设计注意力机制来学习。

从上图可以看到，本文的做法是，对于特征 f f f，利用一个3×3卷积以及一个全局平均池化层来计算得到权重 w w w。将 w w w与 f f f相乘，得到注意力处理后的特征。将三个经注意力处理后的特征相加，然后除以权重之和，得到最终融合后的特征 f o u t f_{out} fout： f out = w h f h + w g f g + w l f l w h + w g + w l f_{\text {out }}=\frac{w_{h} f_{h}+w_{g} f_{g}+w_{l} f_{l}}{w_{h}+w_{g}+w_{l}} fout =wh+wg+wlwhfh+wgfg+wlfl

IV. Local Saliency Coherence Loss

Local Saliency Coherence Loss的示意图如下所示：

这个局部显著一致性损失 L l s c \mathcal{L}_{l s c} Llsc是针对草图标签的特点来设计的。那么何为局部显著一致性呢？作者认为，对于同一张图片中的像素 i i i与像素 j j j，如果两者的特征相似或者位置相近，那么在最终结果中两者的显著分数也应该差不多。为此，利用L1距离定义定义显著距离 D ( i , j ) D(i, j) D(i,j)如下： D ( i , j ) = ∣ S i − S j ∣ D(i, j)=\left|S_{i}-S_{j}\right| D(i,j)=∣Si−Sj∣ 其中 S i S_{i} Si和 S j S_{j} Sj指相应像素的预测显著值。

此时文中提到了这么一点，不能直接算每个像素与其他所有像素(即任意两像素)之间的相似度，这样很容易引入背景噪声并带来额外的计算开销。为此对于给定像素，比较其周围几圈的其他像素( k × k k×k k×k范围内，类似感受野的概念)，这么做就可以学到一定的局部显著一致性信息。

然而全局显著一致性信息也是需要的，但是正如刚才提到的，不能通过直接两两比较来进行计算，那应该怎么做呢？为此本文引入了相似能量(similarity energy)的概念，利用高斯核带宽滤波器(Gaussian kernel bandwidth filter)来计算，此时有： L l s c = ∑ i ∑ j ∈ K i F ( i , j ) D ( i , j ) \mathcal{L}_{l s c}=\sum_{i} \sum_{j \in K_{i}} F(i, j) D(i, j) Llsc=i∑j∈Ki∑F(i,j)D(i,j) K i K_{i} Ki指的便是像素 i i i周围的 k × k k×k k×k区域，而 F ( i , j ) F(i, j) F(i,j)指以下高斯算子： F ( i , j ) = 1 w exp ⁡ ( − ∥ P ( i ) − P ( j ) ∥ 2 2 σ P 2 − ∥ I ( i ) − I ( j ) ∥ 2 2 σ I 2 ) F(i, j)=\frac{1}{w} \exp \left(-\frac{\|P(i)-P(j)\|^{2}}{2 \sigma_{P}^{2}}-\frac{\|I(i)-I(j)\|^{2}}{2 \sigma_{I}^{2}}\right) F(i,j)=w1exp(−2σP2∥P(i)−P(j)∥2−2σI2∥I(i)−I(j)∥2) 1 w \frac{1}{w} w1为标准化权重， P ( i ) P(i) P(i)为像素 i i i的位置， I ( i ) I(i) I(i)为像素 i i i的RGB值， σ \sigma σ为高斯核的超参数。

总而言之， L l s c \mathcal{L}_{l s c} Llsc迫使核内相似的像素能共享一致的显著性分数，从而实现局部显著一致性。

V. Self-Consistent Mechanism & Structure Consistency Loss

Structure Consistency Loss的示意图如下所示：

自一致性机制是用来解决上文提到的一个情况，即之前的大多数方法在输入不同尺寸下的同一图像情况下得到的结果并不一致。形式化描述的话，记一个SOD方法为 f θ ( ⋅ ) f_{\theta}(\cdot) fθ(⋅)，其参数为 θ \theta θ。记一个变换为 T ( ⋅ ) T(\cdot) T(⋅)。那么对于一个理想状态下的鲁棒 f θ ( ⋅ ) f_{\theta}(\cdot) fθ(⋅)，给定输入图像 x x x，有： f θ ( T ( x ) ) = T ( f θ ( x ) ) f_{\theta}(T(x))=T\left(f_{\theta}(x)\right) fθ(T(x))=T(fθ(x)) 即，对输入图像进行尺寸变换，得到的输出结果，应该与将原始图像输入所得到的输出，进行尺寸变换后得到的结果相同。但是目前大多数弱监督SOD网络难以实现这一点。

为此本文设计了一个结构一致性损失来解决这一问题，有： L s s c = 1 M ∑ u , v α 1 − S S I M ( S u , v ↓ ↓ , S u , v ↓ ) 2 + ( 1 − α ) ∣ S u , v ↓ ↓ − S u , v ↓ ∣ \begin{aligned} \mathcal{L}_{s s c}=& \frac{1}{M} \sum_{u, v} \alpha \frac{1-S S I M\left(S_{u, v}^{\downarrow \downarrow}, S_{u, v}^{\downarrow}\right)}{2} +(1-\alpha)\left|S_{u, v}^{\downarrow \downarrow}-S_{u, v}^{\downarrow}\right| \end{aligned} Lssc=M1u,v∑α21−SSIM(Su,v↓↓,Su,v↓)+(1−α)∣∣Su,v↓↓−Su,v↓∣∣ 其中 S ↓ S^{\downarrow} S↓表示在原始输入情况下，输出结果再进行下采样后得到的特征图，而 S ↓ ↓ S^{\downarrow \downarrow} S↓↓表示对原始输入进行下采样情况下，得到的输出特征图， M M M为像素数。该损失的思想在于使网络能够学习更多的目标结构信息，进而增强对不同输入尺寸的适应能力。

VI. Loss

本文采用了deep supervision技术，并使用主副损失，即各Decoder块输出的中间结果使用副损失进行监督，而最终预测结果使用主损失进行监督。主副损失技术出自GCPANet。

首先，针对草图标签问题，使用partial cross entropy loss，有： L c e = ∑ i ∈ Y ~ − y i log ⁡ y ^ i − ( 1 − y i ) log ⁡ ( 1 − y ^ i ) \mathcal{L}_{c e}=\sum_{i \in \tilde{\mathcal{Y}}}-y_{i} \log \hat{y}_{i}-\left(1-y_{i}\right) \log \left(1-\hat{y}_{i}\right) Lce=i∈Y~∑−yilogy^i−(1−yi)log(1−y^i) 其中 y y y为gt， y ^ \hat{y} y^为预测值，而 Y ~ \tilde{\mathcal{Y}} Y~为草图标签中被标注的像素：

此时，主损失 L d o m \mathcal{L}_{d o m} Ldom与副损失 L a u x \mathcal{L}_{a u x} Laux有： L a u x q = L c e + β L l s c q ∈ { 1 , 2 , 3 } L d o m = L c e + L s s c + β L l s c , \begin{gathered} \mathcal{L}_{a u x}^{q}=\mathcal{L}_{c e}+\beta \mathcal{L}_{l s c} \quad q \in\{1,2,3\} \\ \mathcal{L}_{d o m}=\mathcal{L}_{c e}+\mathcal{L}_{s s c}+\beta \mathcal{L}_{l s c}, \end{gathered} Lauxq=Lce+βLlscq∈{1,2,3}Ldom=Lce+Lssc+βLlsc, 其中 q q q指的是不同Decoder块，而 β \beta β为超参数。最终本文的损失可以记做： L total = L d o m + ∑ q = 1 3 λ q L a u x q \mathcal{L}_{\text {total }}=\mathcal{L}_{d o m}+\sum_{q=1}^{3} \lambda_{q} \mathcal{L}_{a u x}^{q} Ltotal =Ldom+q=1∑3λqLauxq 其中 λ q \lambda_{q} λq为权重，用于对不同副损失进行平衡。

VII. Experiment

性能超越了16个最近模型，其中：

10个Fully Supervised：
DGRL(CVPR 2018)、PiCANet(CVPR 2018)、PAGR(CVPR 2018)、MLMSNet(CVPR 2019)、CPD(CVPR 2019)、AFNet(CVPR 2019)、PFAN(CVPR 2019)、BASNet(CVPR 2019)、GCPANet(AAAI 2020)、MINet(CVPR 2020)

6个Weakly Supervised/Unsupervised：
SVF、MNL、ASMO、WSS、MSW、WSSA

这里有一点注意的是，既然是做弱监督，那么训练集就不是一般SOD方法所用的DUTS-TR了，而用的是S-DUTS。

VIII. Summary

目前来说，做弱监督SOD的文章本身就不多，用草图标签来做的就更少，本文算是弥补了之前草图标签方法不能端到端训练这一问题。从创新点的角度看，多级特征融合在其他SOD方法里已经做的非常多了，算是半个必备组件，因此本文一大亮点在于几乎仅通过一个Local Saliency Coherence Loss便完成了巨大的性能提升(Structure Consistency Loss做的是模型鲁棒，对性能提升有限)。

Ref

[1] Wang, Y.; Zhang, J.; Kan, M.; Shan, S.; and Chen, X. 2020b. Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
[2] Obukhov, A.; Georgoulis, S.; Dai, D.; and Van Gool, L. 2019. Gated CRF Loss for Weakly Supervised Semantic Image Segmentation. arXiv preprint arXiv:1906.04651 .