分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection

  • 引入
  • 方法
    • 网络概述
    • FIA
    • SR
    • HA
    • GCF
    • 损失函数
  • 实验相关
  • 总结

引入

显著目标检测的目的是检测感兴趣的区域吸引。显著目标检测作为一种高效的预处理技术,在图像理解、图像还原和目标跟踪等领域具有广泛的应用价值。
语义信息:是信息的表现形式之一,指能够消除事物不确定性的有一定意义的信息。
全卷积网络(FCN)通过叠加多个卷积层和池化层,逐步扩大网络的接受域,提取高级语义信息。如以往作品所指出,由于金字塔状的CNNs结构,低层特征通常具有更大的空间尺寸和更细粒度的细节,而高层特征往往获得更多的语义知识,丢弃一些无意义或不相关的细节信息。一般来说,高层特征有利于突出目标的粗定位,而包含空间结构细节的低层特征适合细化边界。然而,基于FNC的方法存在以下几个问题:(1)由于不同层次特征之间的差异,语义信息与外观信息的简单结合不够充分,缺乏考虑不同特征对显著性目标检测的不同贡献;(2)以往的研究大多忽略了全局上下文信息,但这一部分有利于推断多个显著区域之间的关系,产生更完整的显著性结果;
为了解决上述问题,我们提出了一种新的网络名为全局上下文感知渐进聚合网络(GCPANet),该网络由四个模块组成:特征交织聚合(Feature Interweaved Aggregation, FIA)模块、自我细化(Self - refinaved, SR)模块、Head Attention(HA)模块和全局上下文流(Global Context Flow, GCF)模块。
FIA:考虑到多级特征之间的特征差异,我们设计了FIA模块,将高级语义特征、低级细节特征和全局上下文特征充分融合,期望在抑制噪声的同时恢复更多的结构和细节信息。在第一个FIA模块之前,我们在骨架的顶层增加了一个HA模块,以加强突出物的空间和通道响应。
SR:在聚合之后,特性将被输入到SR模块中,通过利用特性中的内部特性来精炼特性映射。
GCF:考虑到上下文信息有利于捕获多个显著对象之间或显著对象不同部分之间的关系,设计了一个GCF模块,从全局的角度利用关系,有利于提高显著对象检测的完整性。
HA模块:利用空间注意和通道注意来减少信息冗余,增强顶层特征,自细化(SR)模块进一步细化和增强输入特征;
如下图所示,该方法可以处理一些具有挑战性的场景,如复杂的场景理解(高亮度天花板干扰),或多目标关系推理(乒乓球拍和球)。

方法

网络概述


如图所示,本文网络为对称的编解码器体系结构,其中编码器组件基于Res Net-50提取多级特征,解码器组件以监督的方式逐步集成多级综合特征生成显著性图。具体来说,1.首先使用HA模块对显著性目标进行高响应的空间区域和特征通道增强,使用SR模块通过特征细化和增强生成第一阶段高级特征。2.我们逐步将一个FIA模块和一个SR模块级联三次,以学习更多的鉴别特征,并生成更准确的显著性图。接下来详细介绍网络的4个组成部分:

FIA

FIA(Feature Interweaved Aggregation Module,特性交织聚合模块): 低层特征包含更多的细节信息,如纹理、边界、空间结构等,但同时也包含更多的背景噪声。而高级特征可以提供抽象的语义信息,有利于定位显著目标和抑制噪声。因此,这两个层次特征总是结合在一起,形成互补特征。除了这两个层次特征之外,全局上下文信息对于从全局角度推断不同显著性物体或部分之间的关系非常有用,有利于生成更加完整和准确的显著性图。此外,使用上下文特征可以缓解特征稀释的效果。因此,我们开发了FIA模块,将这三个层次的特征充分融合,从而产生具有全局感知的区别性和综合性的特征。具体而言,如图3所示,FIA模块接收三部分输入,即:上一层输出的高级特性,对应底层的低级特性,以及GCF模块生成的全局上下文特性。

以往的作品在对低层特征进行上行采样后,通常只是简单地使用高层特征,通过连接或加法操作,作者采用了一种更激进但更高效的操作,即,乘法。乘法运算可以增强显著目标的响应,同时抑制背景噪声,图中涉及的运算如下图,

此外,为了建立显著性对象不同部位之间的关系模型,缓解高水平特征的稀释过程,我们引入了各阶段的全局上下文特征fgt,我们使用全局上下文特征fgt来生成上下文掩码Wgt,然后,上下文掩码Wgt与压缩的底层特征相乘,公式如下:

最后将这三层特征进行拼接,再经过一个3×3的卷积层,得到最终的融合特征:
上述卷积层除conv2、conv3、conv4外,均配备了批处理归一层和ReLU激活函数。FIA模块的输出被传递到SR模块。

SR

Self Refinement Module(自我优化模块):在FIA模块中,我们将不同层次特征之间的互补特征结合起来,得到特征的综合表达。该方法简单直观,可直接在FIA模块后应用softmax层获得显著性图,但仍存在一些缺陷。例如,预测的显著性目标存在一些空洞,这是由于不同层次的矛盾响应造成的。因此,在通过HA模块和FIA模块后,开发了一个SR模块,利用乘法和加法运算进一步细化和增强特征图(图4)。
输入的图像主要经过了一下两步计算:

HA

Head Attention Module:由于编码器组件的顶层特征对于突出的目标检测来说通常是冗余的,因此我们设计了一个跟随顶层的HA模块,通过利用空间和信道上的注意机制来学习更有选择性和代表性的特征。Head Attendtion Module 中:

  1. 将输入图片压缩成256通道的特征图,然后和SR一样,经过卷积得到第一阶段特征图F1;
  2. 将输入特征F通过平均池化向下采样到一个信道上的特征向量f,f具有很强的一致性和不变性。然后利用连续两个全连通层fc1(·)、fc2(·)将特征向量f投影到输出向量y中,通过向量y加权得到最终输出的特征图Fout。这里fc1(·)、fc2(·)用的激活函数分别为:ReLU和Sigmod函数;
  3. 最终结果为F1经由y加权得到;

以上步骤可以归结为一下三步运算:

GCF

Global Context Flow Module:提出原因:对于背景杂乱、前景干扰、多个突出物等突出物检测具有挑战性的场景,由于突出物不同部位之间或多个突出物之间缺乏全局语义关系,简单地整合高水平低水平特征可能无法完全检测出突出区域。此外,由于自顶向下的途径是建立在自底向上的主干上的,高层特征在传递到低层的过程中会逐渐被稀释。为了解决这些问题,考虑了不同阶段的不同贡献,设计了GCF模块嵌入到每个阶段FIA模块中来捕获全局上下文信息,每个阶段的运算如下:

损失函数

在显著性检测中,通常使用二值交叉熵损失作为损失函数来度量生成的显著性映射与真值之间的关系,公式为:

其中H、W分别为图像的高度和宽度,Gij为像素(i,j)的真值标签, Sij为对应位置(i,j)处突出物的概率。为了便于优化所提议的网络,在三个解码阶段增加了辅助损耗。具体来说,在每个阶段应用一个3×3的卷积操作,将输出特征映射的通道压缩为1。然后通过双线性插值将这些地图上采样到与真值相同的大小,并使用sigmod函数将预测值归一化为[0,1]。全部损失由两部分组成,即,各子级对应输出的显性损耗和辅助损耗,为:

实验相关

实验细节:我们采用Image Net上预训练的ResNet-50 作为我们的网络骨干。1.在训练阶段,我们通过随机水平翻转将每张图像的大小调整为320×320,然后随机裁剪一个尺寸为288×288的碎片进行训练;2.在推理阶段,将图像简单地调整为320×320,然后送入网络进行预测,不进行任何其他后处理(如CRF)。采用**小批量随机梯度下降(SGD)**优化整个网络,批量大小为32,动量为0.9,权重为5e-4。我们使用warm-up 和 linear decay策略,骨架网络用5e-3,其他部分用0.05训练我们的模型,30周期停止训练;用一张NVIDIA titanium - xp GPU卡加速,对320×320图像的推断大约需要0.02秒(超过50帧/秒)。
实验结果:实验中,不同方法的显著性映射由作者提供,或者通过在默认参数下运行他们发布的代码获得。

  • 表1给出了F-measure、S-measure、MAE评分的定量比较结果。很明显,所提出的方法在不同的度量条件下取得了最佳的性能,这证明了所提出模型的有效性。此外,如图5所示,在不同阈值下,我们方法的PR曲线和F-measure曲线(红色曲线)在大多数情况下都比之前的其他方法突出,这与表1所报告的测度相一致。

  • 为了进一步说明所提方法的优势,我们提供了一些不同方法的可视化例子。如图6所示,我们提出的方法可以处理各种具有挑战性的场景,包括细粒度结构、杂乱的背景、前景干扰、对象并发性和多个突出对象等。与以往的方法相比,该方法生成的显著性图更加完整、准确。注意,我们的方法对背景/前景干扰(第二/第三行)更有效,可以捕获多个对象之间的关系(第五行),这说明了特征交织聚合策略和引入全局上下文信息的威力。

    Ablation Study:在这一部分,我们进行烧蚀研究,以验证在提出的模型中设计的每个关键部件的有效性。在ECSSD数据集上进行了消融实验,采用ResNet-50作为主干。如表3所示,所提议的模型包含所有组件(即其中,FIA、SR、HA和GCF)的显著性检测结果最好,这说明该模型的核心部件能够获得最佳的显著性检测结果。

    GCF测试:此外,我们将GCF模块的有效性与另一种设置进行比较,在另一种设置中,全局上下文特性在所有阶段都是共享的。从表2可以看出,提议的GCF模块的性能优于共享模块。造成这一现象的潜在原因是,GCF模块的并行方案可以为不同阶段提供鲜明的特征,有利于学习突出对象的综合特征和鉴别特征。

总结

在本文中,我们提出了一个全局上下文感知的渐进聚合网络(GCPANet)来实现显著目标检测。考虑到不同级别特性的不同特性,我们设计了一个简单而有效的聚合模块来充分集成不同级别特征。引入不同阶段的全局上下文信息,获取多个显著对象或显著对象的多个区域之间的关系,缓解特征的稀释效应。在六个基准数据集上的实验结果表明,该网络在不同的评估指标下可以执行其他12种先进的方法。

分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection相关推荐

  1. 显著性目标检测之Global Context-Aware Progressive Aggregation Network for Salient Object Detection

    Global Context-Aware Progressive Aggregation Network for Salient Object Detection 文章目录 Global Contex ...

  2. 【显著性物体检测】【ECCV2018】Reverse Attention for Salient Object Detection【论文笔记】

    简介:在不怎么增加计算量的前提下,采用从粗到精的思想,由高级特征到低级特征,补全显著性检测的轮廓[最近很多都是基于这个思想].模型的速度与效果都占优.具体关注,是怎么实现特征的多级利用的. ECSSD ...

  3. 两阶段3D目标检测网络 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud

    本文介绍一篇两阶段的3D目标检测网络:SIENet. 这里重点是理解本文提出的 Hybrid-Paradigm Region Proposal Network 和 Spatial Informatio ...

  4. Multi-scale Interactive Network for Salient Object Detection(用于显著性目标检测的多尺度交互网络)

    Abstract 基于深度学习的显著性目标检测方法取得了很大的进步,然而,物体的尺度变化和类别的未知一直是显著性目标检测任务的挑战,这些与多层次和多尺度特征的利用紧密相关.在本文中,提出了聚合交互模块 ...

  5. 【目标检测】36、OTA: Optimal Transport Assignment for Object Detection

    文章目录 一.背景 二.方法 2.1 Optimal Transport 2.2 OT for label assignment 2.3 Center prior 2.4 Dynamic k Esti ...

  6. 【目标检测论文阅读笔记】Feature-Enhanced CenterNet for Small Object Detection in Remote Sensing Images

    Abstract: 与 anchor-based基于锚点的检测器相比,anchor-free无锚点检测器 具有灵活性和较低计算复杂度的优点.然而,在复杂的遥感场景中,受限的几何尺寸.目标的弱特征 以及 ...

  7. 目标检测--RON: Reverse Connection with Objectness Prior Networks for Object Detection

    RON: Reverse Connection with Objectness Prior Networks for Object Detection CVPR2017 https://github. ...

  8. 目标检测--Enhancement of SSD by concatenating feature maps for object detection

    Enhancement of SSD by concatenating feature maps for object detection BMVC 2017 本文是对SSD 的改进,通过牺牲一点速度 ...

  9. 目标检测论文阅读:Multi-scale Location-aware Kernel Representation for Object Detection(CVPR2018)

    Multi-scale Location-aware Kernel Representation for Object Detection 论文链接:https://arxiv.org/abs/180 ...

最新文章

  1. Exchange-批量创建通讯组邮箱
  2. Android 4.2.2原生Launcher修改使之可以运行过程小结
  3. Swift之父退出核心团队,自曝原因:环境有毒!
  4. 机器学习笔记(十六)强化学习
  5. jQuery UI Download
  6. 有人去瑞幸咖啡java_瑞幸股价暴跌,门店竟然爆单了
  7. MVC的传递数据的方法
  8. 2018 ACM/ICPC 沈阳站小结
  9. Java 多线程(一)并发、并行、线程、多线程、进程
  10. [转]虚函数实现原理
  11. Ajax学习笔记-运行原理及实现-2
  12. 从GPU诞生说起:AMD统一渲染架构回顾及展望(转)
  13. OMRON PLC使用技巧总结
  14. cad等比例缩放快捷键_终于领会CAD缩放(放大与缩小)快捷键
  15. mint-ui引用iconfont图标
  16. 9.5 预测市场和真实世界的数据源
  17. 运动无线蓝牙耳机哪款好、运动无线蓝牙耳机推荐
  18. hostent实例详解
  19. Android中电池信息(Battery information)的取得
  20. SAP QA11 检验决策并过帐 BAPI

热门文章

  1. Oracle APEX 系列文章15:无人值守一键安装Oracle APEX环境
  2. 微软Office Plus吊打WPS Office?不一定,WPS未来被它“拿捏”了
  3. 利用Python实现MOOC扫码登录
  4. 闲鱼自动收货源码最新版本+搭建教程
  5. JavaScript(十) BOM
  6. 秒搞VirtualBox 、CentOS 的安装过程
  7. Android系统修改默认语言为中文
  8. ETA6027,可编程限流负载开关,限流可调,过流报警,防反灌
  9. 善用 ASP.NET 內建功能來擊退網路攻擊
  10. bootstrap自动生成html,利用Bootstrap快速搭建个人响应式主页(附演示+源码)-ATtuing...