Abstract

基于深度学习的显著性目标检测方法取得了很大的进步，然而，物体的尺度变化和类别的未知一直是显著性目标检测任务的挑战，这些与多层次和多尺度特征的利用紧密相关。在本文中，提出了聚合交互模块（tip:本文创新点）来聚合相邻层的特征，由于整个工程中仅使用较小的上/下采样率即可因此引入的噪声较少。为了从聚合特征中获得更有效的多尺度特征，本文将自交互模块（self-interaction modules ）嵌入每个解码器单元中。此外，由尺度变化引起的类不平衡问题削弱了二元交叉熵损失的影响，并导致预测的空间不一致。因此，本文利用一致性增强的损失来突出显示前后差异，并保留类内一致性。最后，在五个基准数据集上的实验结果表明，与23种最新方法相比，本文方法无需进行任何后处理过程，就具有良好的性能。源代码地址： https://github.com/lartpang/MINet.

1、简介

显著性物体检测（Salient object detection ，SOD）旨在区分视觉上最明显的区域。在数据驱动的深度学习方法的帮助下，它正在快速发展，并已应用于许多计算机视觉领域，例如视觉跟踪，图像检索，非照片级渲染，4D显著性检测，无参考的合成图像质量评估等。虽然目前已经取得了很大的进展，但仍有两个问题需要注意，一是如何从尺度变化的数据中提取更多的有效信息，二是如何提高这种情况下预测的空间一致性。由于显著区域的尺度不同，基于CNN的方法由于重复的子采样缺乏必要的细节信息，难以持续准确地分割不同尺度的突出物体(图1)。另外，考虑到卷积运算固有的本地局部性和交叉熵函数的像素级特征，很难实现物体的均匀显著性提取。

图1：几个具有大小变化对象的可视化示例及其由提出的MINet、AFNet、 CPD和PAGR方法生成的预测

对于第一个问题（如何从尺度变化的数据中提取更多的有效信息），现有方法的主要解决方法是逐层整合较浅的特征。有些方法通过将编码器中相应层次的特征连接到解码器中(图2(a，c，e))。

图2，不同架构的图示。绿色块、橙色块和灰色块分别表示编码器、传输层和解码器中的不同卷积块。左栏：编码器和传输层之间的连接模式；右栏：传输层和解码器之间的连接模式。 (a, e) FCN [22]; (b)Amulet [51]; (c) BMPM [48]; (d) AIMs (Sec. 3.2); (f) DSS [13];(g) DGRL [34]; (h)SIMs (Sec. 3.3).

单层特征只能表征特定尺度的信息，在自上而下的路径中，由于深层特征的不断积累，浅层特征的细节表示能力被削弱。为了利用多层次特征，一些方法将多层次的特征以全连接的方式或启发式/试探的方式进行整合(图2(b，f，g))。然而, 过多的特征整合和不同分辨率之间缺乏平衡, 容易导致计算成本高、噪声多、融合困难, 从而扰乱了后续自上而下路径的信息恢复。此外，空间金字塔池化模块(ASPP)和金字塔池化模块(PPM)被用于提取多尺度的上下文感知特征，并对单层特征表示进行了改进。然而，现有的方法通常是在编码器后面配备这些模块，这就导致它们的网络由于顶层特征的低分辨率的限制而错过了许多必要的细节。

对于第二个问题（如何提高尺度变化这种情况下预测的空间一致性），现有的一些模型[ 41,27 ]主要使用一个特定的分支或者一个额外的网络来细化结果。然而，这些方法都面临计算冗馀和训练困难的问题，不利于进一步的应用。

受Zhang等提出的相互学习思想（《 Deep mutual learning》）的启发，本文提出了一种聚合交互策略(aggregated interaction strategy，AIM)，以更好地利用多层次特征，避免大分辨率差异造成的特征融合干扰(图2(d))，并且通过协同学习知识引导，有效整合相邻分辨率的上下文信息。为了进一步从提取的特征中获得丰富的尺度特异性信息，本文还设计了一个自交互模块(SIM)(图2(h))。两个不同分辨率的交互分支被训练成从单个卷积块中学习多尺度特征， AIM和SIM有效地提高了SOD任务中处理尺度变化的能力。

与《 Deep mutual learning》中的设定不同，在这两个模块中，相互学习机制被纳入到特征学习中。每一个分支都可以通过交互学习更灵活地整合来自其他分辨率的信息。在AIM和SIM中，主分支(图4中的B1和图5中的B0)由辅助分支补充，其分辨能力得到了进一步的增强。此外，多尺度的问题也会导致数据集中前景和背景区域之间的严重失衡，因此在训练阶段引入了一个一致性增强损失(CEL)，它对物体的尺度不敏感。同时，CEL可以更好地处理空间一致性问题，在不需要额外参数的情况下均匀地突出显著区域，因为其梯度具有保持类内一致性和扩大类间差异的特点。

本文的贡献可概括为三个方面：

1、所提出的MINet能够有效地应对SOD任务中的挑战。聚合交互模块（AIM）可以通过相互学习的方式有效地利用相邻层的特征，而自我交互（SIM）模块则使网络可以自适应地从数据中提取多尺度信息，并更好地应对尺度变化。

2、提出增强损失函数，以协助模型统一突出显示整个显著区域，并更好地处理由各种比例的物体引起的前、后区域之间的像素不平衡问题，而无需任何后处理或额外处理。

3、本文的方法与五个数据集上的23种最先进的SOD方法进行了比较。在不同的评估指标下，它都能实现最佳性能。此外，该模型在GPU上具有35 FPS的正向推理速度。

2、最近工作

2.1、显著性目标检测

早期的方法主要是基于手工制作的先验指标 [5, 39, 49, 47]。它们的通用性和有效性是有限的。早期的深度显著性目标检测方法 [57, 16]使用多层感知来预测图像中每个处理单元的显著性性分数。这些方法的计算效率很低，而且破坏了潜在的特征结构。参见[2, 35]，了解更多关于传统和早期深度学习方法的细节。

最近，一些方法[20, 53]引入了全卷积网络(FCN)[22]，并取得了可喜的重新发展。并取得了很好的效果。此外，Liu等人[20]将全局和局部上下文模块分层嵌入到自上而下的路径中，为每个像素构建了信息语境特征。陈等人。 [4] 在自上而下的路径中提出反向注意来指导残差显着性学习，从而驱动网络发现补充对象区域和细节。尽管如此，上述方法仅在每个解码器单元中使用单独的分辨率特征，这对于应对复杂和各种尺度问题来说并不是一种足够有效的策略。

2.2、尺度变化

尺度变化是 SOD 任务的主要挑战之一。受限于局部卷积操作和子采样操作，CNN很难处理这个问题。一方面，嵌入在不同分辨率特征中的关于物体的信息量随着物体的尺度而变化。一个直截了当的策略是粗略地整合所有的特征。另一方面，每个卷积层只具有处理特定尺度的能力。因此，我们需要通过构建多路径特征提取结构来表征单层的多尺度信息。

多层次信息。张等人。 [51] 简单地将所有层次的特征组合到传输层中。这种粗略的融合容易产生信息冗余和噪声干扰。在[48]中，利用门函数来控制消息传递率，以优化层间信息交换的质量。然而，多重门控处理会导致来自其他层的信息严重衰减，从而限制了网络的学习能力。与这些方法不同的是，我们只融合相邻层的特征，因为它们的抽象程度更接近，同时获得了丰富的尺度信息。

多尺度信息。空间金字塔池化模块(ASPP)和金字塔池化模块(PPM) [55] 是多尺度信息提取的两种常见选择，并且通常固定在网络中的最深层 [ 6, 32]。由于较深的特征包含的小尺度对象信息较少，尤其是顶层特征，这些方法无法有效处理大尺度变化。此外，在[37]中，金字塔注意力模块可以通过对所有位置进行多次下采样和softmax操作来获得多尺度注意力图来增强特征。但是这样的softmax严重抑制了非最大值，对噪声更敏感。它不能很好地改善尺度问题。为了避免误判小物体，我们提出了一个多尺度处理模块，其中两个分支交互学习特征。通过数据驱动的训练，双路径结构可以学习到丰富的多尺度表示。此外，过大和过小的物体会造成前景和背景样本的不平衡，削弱了像素级监督的效果。我们引入了一致性增强损失（CEL）作为交叉熵损失的辅助。 CEL对物体的大小不敏感，可以克服监督的困难，在面对大尺度变化时表现非常好。

2.3、空间相干性

为了提高显着性图的空间连贯性和质量，一些非深度学习方法方法通常整合生成区域 [44]、超像素 [45] 或目标建议 [11] 的超分割方法。对于基于深度学习的方法，Wuetal[41] 提出了一个具有两个分支的级联部分解码器框架，并直接利用注意力分支生成的注意力图来细化显着性检测分支的特征。秦等人。 [27]采用残差细化模块结合超损失来进一步细化预测，这显着降低了推理速度。在本文中，CEL 更加关注预测的整体效果。它有助于获得更均匀的显着性结果，是效果和速度之间更好的权衡。

3、提出的方法

在本文中，我们提出了一种交互式集成网络，它融合了多层次和多尺度的特征信息，以处理显著性目标检测（SOD）任务中普遍存在的尺度变化问题。

Multi-scale Interactive Network for Salient Object Detection（用于显著性目标检测的多尺度交互网络）相关推荐

【Salient Object Detection】显著性物体检测资料汇总
显著性物体检测的一系列资料汇总 v1.0 研究小组&people 南开大学媒体计算, Salient object detection datasets,全面的方法总结评测+一系列此领域研究工 ...
ECCV 2020预会议直播笔记| Suppress and Balance: A Simple Gated Network for Salient Object Detection
目标跟踪基础与智能前沿寻找目标跟踪方向的小伙伴,如果你苦于没有地方可以和同方向的小伙伴交流,我们创建了一个交流群,点上方链接可以进入,每周的交流活动通过该号宣传,群里随时随地可以展开讨论,无论是学 ...
EGNet: Edge Guidance Network for Salient Object Detection 论文及代码解读
EGNet: Edge Guidance Network for Salient Object Detection 论文及代码解读注:本文原创作者为Jia-Xing Zhao, Jiang-Jian ...
【论文笔记】Multi-Content Complementation Network for Salient Object Detection in Optical RSI
论文论文:Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing I ...
分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection
分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection 引入方法网 ...
显著性目标检测之Global Context-Aware Progressive Aggregation Network for Salient Object Detection
Global Context-Aware Progressive Aggregation Network for Salient Object Detection 文章目录 Global Contex ...
Lightweight Adversarial Network for Salient Object Detection
Abstract 作者提出了一种用于显着目标检测(salient object detection)的轻量级对抗网络,该网络通过进行对抗性训练来实现更高阶的空间一致性,并分别通过轻量级bottlene ...
EGNet: Edge Guidance Network for Salient Object Detection
论文主要解决的问题: 全卷积神经网络(FCNs)在突出的目标检测任务中显示出了其优势.然而,大多数现有的基于fcns的方法仍然存在粗糙的对象边界.与基于区域的方法相比,像素级显著目标检测方法具有优势. ...
【文献翻译】Concealed Object Detection（伪装目标检测）
文章目录 Concealed Object Detection Abstract 1 Introduction 1.1 Contributions 2 Related Work 3 COD10K 数据 ...

Multi-scale Interactive Network for Salient Object Detection（用于显著性目标检测的多尺度交互网络）