论文阅读：A Progressive Architecture With Knowledge Review Network for Salient Object Detection

论文地址：https://ojs.aaai.org/index.php/AAAI/article/view/16408
发表于：AAAI 2021

Abstract

显著目标的定位与分割是显著目标检测(SOD)中两个不同的任务。前者的目的是在全局范围内找到图像中最有吸引力的物体，而后者只能依赖包含显著目标的局部区域来实现。然而，以前的方法主要是以简单的端到端方式同时完成这两项任务，忽略了两项任务之间的差异。我们假设人类视觉系统会有序地定位和分割物体，因此我们为SOD提出了一个新颖的带有知识回顾网络的渐进式架构(PA-KRN)，它由三个部分组成：

一个粗定位模块(CLM)，使用body-attention标签定位包含显著目标的粗糙区域，而没有边界细节
一个基于注意力的采样器，以body-attention map为基础，可以获得高分辨率的显著目标区域
一个细分割模块(FSM)，对显著目标进行精细分割

应用于CLM和FSM的网络主要基于我们提出的知识回顾网络(KRN)，该网络利用最精细的特征图来重新整合之前的所有层，这可以弥补自上而下路径中不断被稀释的重要信息。在五个benchmark上的实验表明，我们仅通过单一的KRN便可以超过SOTA。此外，PA-KRN表现更好，大大超越了上述的方法。

I. Motivation

目前基于提升边缘处性能的SOD方法存在如下问题：

一些显著对象的分辨率较低(小目标)，本身就缺乏边缘细节
SOD可以被拆分为两个任务(摘要中所提到的SOL与SOS)，可能并不适合直接用单一End to End的方式来解决

此外，U型的网络也存在一些固有的问题：

在网络逐渐融合浅层特征的过程中，深层特征会被逐渐被稀释

针对第一个小目标检测的问题，本文仿照人类视觉系统寻找显著目标的方式，构建了一个先定位再分割的网络。人眼这一生理过程如下图左所示：

可以看到这里面有个很有意思的东西叫做“Move Closer”，也就是说，在找到需要进一步观察的对象后，人眼有一个“放大”的过程(凑近了看&看的更清楚)，这个时候其实周围信息就并不那么重要了。那么落实到分割的过程中，将小目标放大，确实有可能提升分割的性能。

而针对第二个问题，本文提出了知识回顾网络(KRN)，引入了一种新的特征融合思路，用于缓解特征融合过程中深层信息丢失的问题。信息丢失的一个例子如下所示：

以FPN为例，可以看到，在自顶向下融合的过程中，红圈内的全局信息逐渐被稀释掉了。

II. Network Architecture

整体分为两大块，一部分是CLM&Sampler，用于对输入图像进行预处理，得到采样后的图像；另一部分是FSM，用于对采样后的图像执行SOD任务。CLM与FSM应用了同一套类似的Encoder-Decoder框架KRN。

III. Coarse Locating Module

Coarse Locating Module，粗定位模块，这个模块的作用是获得显著对象的大致位置，也就是上文提到的body attention map（以下简称attention map）。attention map张这样：

这里有一点比较有意思，CLM作为网络的一部分是单独进行训练的，以学习生成attention map的能力。既然要单独训练，那么首先就得制作相应的ground truth以供训练。从图中对比GT与attention map我们可以发现，attention map十分类似于对GT进行膨胀(dilation)操作，因此我们考虑以膨胀为基础来制作attention map。具体的操作分如下两步：

首先使用核大小为K×K的binary dilation操作对ground truth进行处理，扩大label的范围，初步实现“包含大致位置”的效果
再用核大小同样为K×K，σ\sigmaσ为8的高斯核，进行模糊处理。这么做的用意个人猜测是直接binary dilation后的结果边缘并不是平滑的，这种情况下一些有用的边界处背景信息并没有被包含在粗attention map中，因此需要做一定的模糊处理来达到平滑边缘的效果

attention map的好处有如下几个：

将显著目标中一些细长部分的区域扩大，降低识别难度，如上图第一行蝎尾、鹿脚
有的情况前后景复杂，显著目标可能被前景分割为多个部分，此时attention map能将其重新融合至同一目标的范畴内，如上图第二行
对复杂边缘进行平滑，如上图第三行

至于CLM网络的结构，其是基于KRN的，这将在后文进行介绍。

IV. Attention-based Sampler

Attention-based Sampler，基于注意力的采样器，这个模块是配合上节所提到的attention map一并使用的，用来解决小对象识别的问题。本文解决小目标的思想比较奇特：

把小目标放大，就不存在小目标了

因此，回到上一节，attention map的作用就是确定哪个是显著目标，需要被放大，然后由sampler完成放大的过程。

这里需要注意的一点是，肯定不能够直接裁切放大，因为小目标本身原始的分辨率已经较低，缺乏细节，直接进行放大并不能改善信息缺乏的现状，因此需要用sampler进行重新采样，补充细节，使其无论在尺寸和细节上都接近真实的一般目标。

Attention-based Sampler结构如下所示，其输入为原始图像与attention map，输出为采样后的图像：

实际上该sampler直接引自文献[1](TASN, CVPR 2019)中的原始实现，感兴趣可以阅读相应的论文。

V. Fine Segmenting Module & Knowledge Review Network

Fine Segmenting Module，细分割模块。前面介绍的两个部分相当于图像的预处理阶段，因此到FSM才算正式开始SOD任务。FSM所采用的结构与CLM类似，也是一个KRN(注意FSM所用的KRN与CLM略有不同，多一个Edge Supervision)，因此接下来重点对KRN(FSM)的结构进行介绍，如下图所示：

可以看到backbone依然采用的是一个Encoder(ResNet50)-Decoder架构，重点在于KRN的两个组成部分——KRM、SAM。为了描述方便，如图中所示，记Decoder得到的各级特征为F1F_1F1、F2F_2F2、F3F_3F3、F4F_4F4、F5F_5F5。

Knowledge Review Module

如摘要所述，KRM的作用为"将最精细的特征图与其他层的特征重新融合在一起"。而所谓精细，指的自然就是分辨率最高的F5F_5F5了，具体的过程如下：

首先，利用1×1卷积压缩F1F_1F1、F2F_2F2、F3F_3F3、F4F_4F4的通道数，使其与F5F_5F5一致
对F1F_1F1、F2F_2F2、F3F_3F3、F4F_4F4进行上采样，使其尺寸与F5F_5F5一致
让F1F_1F1、F2F_2F2、F3F_3F3、F4F_4F4分别与F5F_5F5进行pixel-wise add，融合得到四组特征。这四组特征均利用ground truth进行监督
最后，对这四组特征进行channel-wise concat，并利用1×1卷积降维至单通道，再上采样回原尺寸得到最终输出结果

Side-out Aggregation Module

从上图中可以看到，这个模块起的就是Decoder block的作用，核心思想与原始FPN类似，通过多次下采样、平均池化、卷积、再融合的过程，来提取多尺度的特征。

VI. Loss

由于本文CLM与FSM是分开训练的，因此下面依次介绍CLM与FSM所采用的loss。

CLM所采用的loss改编自文献[2]。记PPP为predicted saliency map，Q为body-attention map，F为ground truth，有：
Lclm=λ1lb+λ2∑i=15lbiL_{c l m}=\lambda_{1} l_{b}+\lambda_{2} \sum_{i=1}^{5} l_{b}^{i} Lclm=λ1lb+λ2i=1∑5lbi lb=NSS′+CC′+KLDl_{b}=N S S^{\prime}+C C^{\prime}+K L Dlb=NSS′+CC′+KLD NSS′(P,F)=1N∑i(F−μ(F)σ(F)−P−μ(P)σ(P))×FiN S S^{\prime}(P, F)=\frac{1}{N} \sum_{i}\left(\frac{F-\mu(F)}{\sigma(F)}-\frac{P-\mu(P)}{\sigma(P)}\right) \times F_{i}NSS′(P,F)=N1i∑(σ(F)F−μ(F)−σ(P)P−μ(P))×Fi

由于采用了deep supervision，有lbil_{b}^{i}lbi指第iii个中间attention map的loss，lbl_{b}lb为最终attention map的loss，λ1=2\lambda_{1}=2λ1=2，λ2=1\lambda_{2}=1λ2=1。

而FSM采用的loss与大多数SOD方法类似，有ls=lsa=lbce+lioul_{s}=l_{sa}=l_{b c e}+l_{i o u}ls=lsa=lbce+liou，le=lbcel_{e}=l_{bce}le=lbce ，最终：
Lfsm=λ3ls+λ4∑i=15lsai+λ5∑i=15leiL_{f s m}=\lambda_{3} l_{s}+\lambda_{4} \sum_{i=1}^{5} l_{s a}^{i}+\lambda_{5} \sum_{i=1}^{5} l_{e}^{i}Lfsm=λ3ls+λ4i=1∑5lsai+λ5i=1∑5lei
与CLM类似，FSM同样采用了deep supervision，有λ3=2\lambda_{3}=2λ3=2，λ4=λ5=1\lambda_{4}=\lambda_{5}=1λ4=λ5=1。

在分别训练完CLM与FSM后，最后联合finetune所用的loss为两者的相加：
L=Lclm+LfsmL=L_{c l m}+L_{f s m} L=Lclm+Lfsm

VII. Experiment

性能超越了14个最近模型，包括RAS(ECCV 2018)、DGRL(CVPR 2018)、PiCANet(CVPR 2018)、MLMSNet(CVPR 2019)、AFNet(CVPR 2019)、PS(CVPR 2019)、CPD(CVPR 2019)、BASNet(CVPR 2019)、PoolNet(CVPR 2019)、EGNet(ICCV 2019)、ITSD(CVPR 2020)、GCPANet(AAAI 2020)、GateNet(ECCV 2020)、MINet(CVPR 2020)

VIII. Summary

本文的最大创新点在于提出了一种提升SOD小物体检测性能的思路：将小目标放大。作为一个图像预处理过程，本文先生成了一个粗分割结果来尽可能包含显著目标，然后以粗结果为依据进行重采样，完成放大的过程。既然尽可能地去将目标的尺寸给统一了，那么自然也能减轻scale varation带来的困难。

至于SOD网络部分，仍然采用的是比较主流的思路，去设法提升side output融合的效果。将中间各层特征分别与最终特征进行融合并监督，以达到恢复最终特征中缺失信息的目的。

Ref

[1] Zheng, H.; Fu, J.; Zha, Z.-J.; and Luo, J. 2019. Looking for the devil in the details: Learning trilinear attention sampling network for fine-grained image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 5012–5021.
[2]Jia, S.; and Bruce, N. D. 2020. Eml-net: An expandable multi-layer network for saliency prediction. Image and Vision Computing 103887.