Reverse Attention for Salient Object Detection

Reverse Attention for Salient Object Detection
2018ECCV

Abstract

得益于深度学习技术的快速发展，显著目标检测最近取得了显著进展。然而，仍然存在以下两个主要挑战阻碍其在嵌入式设备中的应用，低分辨率输出和沉重的模型权重。为此，本文提出了一个准确但紧凑的深度网络，用于高效的显著目标检测。更具体地说，给定最深层的粗略显著性预测，我们首先采用残差学习来学习侧输出残差特征以进行显著性细化，这可以在保持准确性的情况下使用非常有限的卷积参数来实现。其次，我们进一步提出反向关注以自上而下的方式指导这种侧输出残差学习。通过从侧输出特征中删除当前预测的显著区域，网络最终可以探索缺失的对象部分和细节，从而获得高分辨率和准确性。在六个基准数据集上的实验表明，所提出的方法与最先进的方法相比具有优势，并且在简单性、效率（45 FPS）和模型大小（81 MB）方面具有优势。
keywords: 显著目标检测, 反向注意, 边输出残差学习

Introduction

显著物体检测，也称为显著性检测，旨在定位和分割图像中最显眼和吸引眼球的物体或区域。通常用作预处理步骤，以方便后续的各种高级视觉任务，例如图像分割 [1]，图像字幕 [2] 等。最近，随着深度卷积神经网络 (CNNs) 的快速发展，显著的对象检测已比传统的基于手工制作的基于特征的方法取得了重大改进。完全卷积神经网络 (FCNs) [3] 的出现，由于其效率和端到端训练，进一步将其推向了新的技术水平。这种架构也有利于其他应用，例如语义分割 [4]，边缘检测 [5]。

尽管已经取得了深刻的进步，但仍然存在两个主要挑战，这些挑战阻碍了其在现实世界中的应用，例如嵌入式设备。一种是基于FCNs的显著性模型产生的显著性图的分辨率低。由于CNN体系结构中反复的跨步和池化操作，不可避免地会失去分辨率和难以细化，从而无法准确定位显著对象，尤其是对于对象边界和小对象。另一种是现有深度显著性模型的重大和冗余大。从图1中可以看出，所有列出的深度模型都大于1 00 MB，这对于预处理步骤来说太重了，无法应用于后续的高级任务中，并且对于嵌入式设备来说也不是有效的存储器。

Fig. 1. ECSSD上最近基于深度CNN的显着性检测模型的最大F度量，包括DS [6]，ELD [7]，DCL [8]，DHS [8]，RFCN [9]，NLDF [10]，DSS [11]，MSRNet [12]，Amulet[13] 、UCF [14] 和我们的 (红色圆圈)。可以看出，所提出的模型是唯一一个小于100 MB的模型，同时通过最先进的方法实现了可比的性能。

已经探索了多种解决方案，以提高基于FCNs的预测的分辨率。早期作品【8,15,16】通常将其与额外区域或基于超像素的流相结合，以高时间成本为代价融合各自的优势。然后，构建一些简单但有效的结构，将浅层和深层CNN特征的互补线索结合起来，分别捕获低级空间细节和高级语义信息，如跳跃连接【12】、短连接【11】、密集连接【17】、自适应聚合【13】。这种多级特征融合方案在语义分割[18,19]、边缘检测[20]、骨架检测[21,22]中也发挥着重要作用。然而，在复杂的现实场景下，尤其是在处理具有不同尺度的多个显著对象时，现有的古语融合仍然不能用于显著性检测。此外，一些耗时的后处理技能也被应用于细化，例如，基于超像素的过滤器【23】，全连接条件随机场（CRF）[8,11,24]。然而，据我们所知，目前还没有考虑到轻量级模型和高精度的显著性检测网络。

为此，我们提出了一个准确而紧凑的深度显著目标检测网络，该网络实现了与最先进的方法相当的性能，从而实现了实时应用。通常，由于较大的感受野和模型容量可以捕获更多语义信息，因此具有较大内核大小的更多卷积通道会在显著目标检测中获得更好的性能，例如，在最后一个侧输出中有 512 个内核大小为 7×7 的通道DSS [11]。以不同的方式，我们将残差学习 [25] 引入 HED [5] 的架构中，并将显著目标检测视为超分辨率重建问题 [26]。鉴于 FCN 的低分辨率预测，学习边输出残差特征以逐步对其进行细化。请注意，它只能使用 64 通道的卷积和每个侧输出中 3×3 的内核大小来实现，其参数明显少于 DSS。

类似的残差学习也被用于骨骼检测[21]和图像超分辨率[27]。然而，由于其具有挑战性，如果我们直接将其应用于显着目标检测，其性能还不够令人满意。由于大多数现有的深度显著性模型都是从图像分类网络中微调出来的，微调后的网络在残差学习过程中会无意识地关注具有高响应值的区域，如图 5 所示，从而难以捕获残差细节，例如对象边界和其他未检测到的对象部分。为了解决这个问题，我们提出了反向注意力以自上而下的方式指导侧输出残差学习。具体来说，对深层的预测进行上采样，然后对其进行反向加权以对其相邻的浅侧输出特征进行加权，从而快速引导网络专注于未检测到的区域进行残差捕获，从而获得更好的性能，如图 2 所示。

Fig. 2. 视觉对比DSS【11】（顶行）、我们的方法（中间行）和反向注意（底行）分别在不同侧输出中产生的显著性图。可以清楚地看到，显著性图的分辨率从深侧输出逐渐提高到浅侧输出，我们基于反向注意的侧输出残差学习的性能比短连接好得多【11】。

总而言之，本文的贡献可以得出以下结论