论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/16408
发表于:AAAI 2021

Abstract

显著目标的定位与分割是显著目标检测(SOD)中两个不同的任务。前者的目的是在全局范围内找到图像中最有吸引力的物体,而后者只能依赖包含显著目标的局部区域来实现。然而,以前的方法主要是以简单的端到端方式同时完成这两项任务,忽略了两项任务之间的差异。我们假设人类视觉系统会有序地定位和分割物体,因此我们为SOD提出了一个新颖的带有知识回顾网络的渐进式架构(PA-KRN),它由三个部分组成:

  • 一个粗定位模块(CLM),使用body-attention标签定位包含显著目标的粗糙区域,而没有边界细节
  • 一个基于注意力的采样器,以body-attention map为基础,可以获得高分辨率的显著目标区域
  • 一个细分割模块(FSM),对显著目标进行精细分割

应用于CLM和FSM的网络主要基于我们提出的知识回顾网络(KRN),该网络利用最精细的特征图来重新整合之前的所有层,这可以弥补自上而下路径中不断被稀释的重要信息。在五个benchmark上的实验表明,我们仅通过单一的KRN便可以超过SOTA。此外,PA-KRN表现更好,大大超越了上述的方法。

I. Motivation

目前基于提升边缘处性能的SOD方法存在如下问题:

  • 一些显著对象的分辨率较低(小目标),本身就缺乏边缘细节
  • SOD可以被拆分为两个任务(摘要中所提到的SOL与SOS),可能并不适合直接用单一End to End的方式来解决

此外,U型的网络也存在一些固有的问题:

  • 在网络逐渐融合浅层特征的过程中,深层特征会被逐渐被稀释

针对第一个小目标检测的问题,本文仿照人类视觉系统寻找显著目标的方式,构建了一个先定位再分割的网络。人眼这一生理过程如下图左所示:

可以看到这里面有个很有意思的东西叫做“Move Closer”,也就是说,在找到需要进一步观察的对象后,人眼有一个“放大”的过程(凑近了看&看的更清楚),这个时候其实周围信息就并不那么重要了。那么落实到分割的过程中,将小目标放大,确实有可能提升分割的性能。

而针对第二个问题,本文提出了知识回顾网络(KRN),引入了一种新的特征融合思路,用于缓解特征融合过程中深层信息丢失的问题。信息丢失的一个例子如下所示:

以FPN为例,可以看到,在自顶向下融合的过程中,红圈内的全局信息逐渐被稀释掉了。

II. Network Architecture


整体分为两大块,一部分是CLM&Sampler,用于对输入图像进行预处理,得到采样后的图像;另一部分是FSM,用于对采样后的图像执行SOD任务。CLM与FSM应用了同一套类似的Encoder-Decoder框架KRN。

III. Coarse Locating Module

Coarse Locating Module,粗定位模块,这个模块的作用是获得显著对象的大致位置,也就是上文提到的body attention map(以下简称attention map)。attention map张这样:

这里有一点比较有意思,CLM作为网络的一部分是单独进行训练的,以学习生成attention map的能力。既然要单独训练,那么首先就得制作相应的ground truth以供训练。从图中对比GT与attention map我们可以发现,attention map十分类似于对GT进行膨胀(dilation)操作,因此我们考虑以膨胀为基础来制作attention map。具体的操作分如下两步:

  • 首先使用核大小为K×K的binary dilation操作对ground truth进行处理,扩大label的范围,初步实现“包含大致位置”的效果
  • 再用核大小同样为K×K,σ\sigmaσ为8的高斯核,进行模糊处理。这么做的用意个人猜测是直接binary dilation后的结果边缘并不是平滑的,这种情况下一些有用的边界处背景信息并没有被包含在粗attention map中,因此需要做一定的模糊处理来达到平滑边缘的效果

attention map的好处有如下几个:

  • 将显著目标中一些细长部分的区域扩大,降低识别难度,如上图第一行蝎尾、鹿脚
  • 有的情况前后景复杂,显著目标可能被前景分割为多个部分,此时attention map能将其重新融合至同一目标的范畴内,如上图第二行
  • 对复杂边缘进行平滑,如上图第三行

至于CLM网络的结构,其是基于KRN的,这将在后文进行介绍。

IV. Attention-based Sampler

Attention-based Sampler,基于注意力的采样器,这个模块是配合上节所提到的attention map一并使用的,用来解决小对象识别的问题。本文解决小目标的思想比较奇特:

  • 把小目标放大,就不存在小目标了

因此,回到上一节,attention map的作用就是确定哪个是显著目标,需要被放大,然后由sampler完成放大的过程。

这里需要注意的一点是,肯定不能够直接裁切放大,因为小目标本身原始的分辨率已经较低,缺乏细节,直接进行放大并不能改善信息缺乏的现状,因此需要用sampler进行重新采样,补充细节,使其无论在尺寸和细节上都接近真实的一般目标。

Attention-based Sampler结构如下所示,其输入为原始图像与attention map,输出为采样后的图像:

实际上该sampler直接引自文献[1](TASN, CVPR 2019)中的原始实现,感兴趣可以阅读相应的论文。

V. Fine Segmenting Module & Knowledge Review Network

Fine Segmenting Module,细分割模块。前面介绍的两个部分相当于图像的预处理阶段,因此到FSM才算正式开始SOD任务。FSM所采用的结构与CLM类似,也是一个KRN(注意FSM所用的KRN与CLM略有不同,多一个Edge Supervision),因此接下来重点对KRN(FSM)的结构进行介绍,如下图所示:

可以看到backbone依然采用的是一个Encoder(ResNet50)-Decoder架构,重点在于KRN的两个组成部分——KRM、SAM。为了描述方便,如图中所示,记Decoder得到的各级特征为F1F_1F1​、F2F_2F2​、F3F_3F3​、F4F_4F4​、F5F_5F5​。

Knowledge Review Module

如摘要所述,KRM的作用为"将最精细的特征图与其他层的特征重新融合在一起"。而所谓精细,指的自然就是分辨率最高的F5F_5F5​了,具体的过程如下:

  • 首先,利用1×1卷积压缩F1F_1F1​、F2F_2F2​、F3F_3F3​、F4F_4F4​的通道数,使其与F5F_5F5​一致
  • 对F1F_1F1​、F2F_2F2​、F3F_3F3​、F4F_4F4​进行上采样,使其尺寸与F5F_5F5​一致
  • 让F1F_1F1​、F2F_2F2​、F3F_3F3​、F4F_4F4​分别与F5F_5F5​进行pixel-wise add,融合得到四组特征。这四组特征均利用ground truth进行监督
  • 最后,对这四组特征进行channel-wise concat,并利用1×1卷积降维至单通道,再上采样回原尺寸得到最终输出结果
Side-out Aggregation Module

从上图中可以看到,这个模块起的就是Decoder block的作用,核心思想与原始FPN类似,通过多次下采样、平均池化、卷积、再融合的过程,来提取多尺度的特征。

VI. Loss

由于本文CLM与FSM是分开训练的,因此下面依次介绍CLM与FSM所采用的loss。

CLM所采用的loss改编自文献[2]。记PPP为predicted saliency map,Q为body-attention map,F为ground truth,有:
Lclm=λ1lb+λ2∑i=15lbiL_{c l m}=\lambda_{1} l_{b}+\lambda_{2} \sum_{i=1}^{5} l_{b}^{i} Lclm​=λ1​lb​+λ2​i=1∑5​lbi​ lb=NSS′+CC′+KLDl_{b}=N S S^{\prime}+C C^{\prime}+K L Dlb​=NSS′+CC′+KLD NSS′(P,F)=1N∑i(F−μ(F)σ(F)−P−μ(P)σ(P))×FiN S S^{\prime}(P, F)=\frac{1}{N} \sum_{i}\left(\frac{F-\mu(F)}{\sigma(F)}-\frac{P-\mu(P)}{\sigma(P)}\right) \times F_{i}NSS′(P,F)=N1​i∑​(σ(F)F−μ(F)​−σ(P)P−μ(P)​)×Fi​

由于采用了deep supervision,有lbil_{b}^{i}lbi​指第iii个中间attention map的loss,lbl_{b}lb​为最终attention map的loss,λ1=2\lambda_{1}=2λ1​=2,λ2=1\lambda_{2}=1λ2​=1。

而FSM采用的loss与大多数SOD方法类似,有ls=lsa=lbce+lioul_{s}=l_{sa}=l_{b c e}+l_{i o u}ls​=lsa​=lbce​+liou​,le=lbcel_{e}=l_{bce}le​=lbce​ ,最终:
Lfsm=λ3ls+λ4∑i=15lsai+λ5∑i=15leiL_{f s m}=\lambda_{3} l_{s}+\lambda_{4} \sum_{i=1}^{5} l_{s a}^{i}+\lambda_{5} \sum_{i=1}^{5} l_{e}^{i}Lfsm​=λ3​ls​+λ4​i=1∑5​lsai​+λ5​i=1∑5​lei​
与CLM类似,FSM同样采用了deep supervision,有λ3=2\lambda_{3}=2λ3​=2,λ4=λ5=1\lambda_{4}=\lambda_{5}=1λ4​=λ5​=1。

在分别训练完CLM与FSM后,最后联合finetune所用的loss为两者的相加:
L=Lclm+LfsmL=L_{c l m}+L_{f s m} L=Lclm​+Lfsm​

VII. Experiment

性能超越了14个最近模型,包括RAS(ECCV 2018)、DGRL(CVPR 2018)、PiCANet(CVPR 2018)、MLMSNet(CVPR 2019)、AFNet(CVPR 2019)、PS(CVPR 2019)、CPD(CVPR 2019)、BASNet(CVPR 2019)、PoolNet(CVPR 2019)、EGNet(ICCV 2019)、ITSD(CVPR 2020)、GCPANet(AAAI 2020)、GateNet(ECCV 2020)、MINet(CVPR 2020)

VIII. Summary

本文的最大创新点在于提出了一种提升SOD小物体检测性能的思路:将小目标放大。作为一个图像预处理过程,本文先生成了一个粗分割结果来尽可能包含显著目标,然后以粗结果为依据进行重采样,完成放大的过程。既然尽可能地去将目标的尺寸给统一了,那么自然也能减轻scale varation带来的困难。

至于SOD网络部分,仍然采用的是比较主流的思路,去设法提升side output融合的效果。将中间各层特征分别与最终特征进行融合并监督,以达到恢复最终特征中缺失信息的目的。

Ref

[1] Zheng, H.; Fu, J.; Zha, Z.-J.; and Luo, J. 2019. Looking for the devil in the details: Learning trilinear attention sampling network for fine-grained image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 5012–5021.
[2]Jia, S.; and Bruce, N. D. 2020. Eml-net: An expandable multi-layer network for saliency prediction. Image and Vision Computing 103887.

论文阅读:A Progressive Architecture With Knowledge Review Network for Salient Object Detection相关推荐

  1. [论文阅读] Looking for the Detail and Context Devils: High-Resolution Salient Object Detection

    论文地址:https://dx.doi.org/10.1109/TIP.2020.3045624 发表于:TIP 2021 Abstract 近年来,随着大规模基准测试与深度学习技术的成就,显著目标检 ...

  2. 论文笔记-Suppress and Balance: A Simple Gated Network for Salient Object Detection

    Hello, 今天是论文阅读计划的第19天啦- 也是我在这30天中要介绍的最后一篇目标检测的论文啦 一.背景 最显著的目标检测方法使用的基本结构是三角网或特征金字塔网络(FPN).这些方法忽略了编码器 ...

  3. EGNet: Edge Guidance Network for Salient Object Detection 论文及代码解读

    EGNet: Edge Guidance Network for Salient Object Detection 论文及代码解读 注:本文原创作者为Jia-Xing Zhao, Jiang-Jian ...

  4. 显著性目标检测之Global Context-Aware Progressive Aggregation Network for Salient Object Detection

    Global Context-Aware Progressive Aggregation Network for Salient Object Detection 文章目录 Global Contex ...

  5. 【论文笔记】Multi-Content Complementation Network for Salient Object Detection in Optical RSI

    论文 论文:Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing I ...

  6. 分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection

    分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection 引入 方法 网 ...

  7. 三维目标检测论文阅读:VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

    VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection 理解了PointPillars这篇文章后,看这篇文章就清 ...

  8. 【论文阅读】A2S-Det: Efficiency Anchor Matching in Aerial Image Oriented Object Detection

    A 2 S-Det:航空图像定向目标检测中的高效锚点匹配 论文地址:https://www.mdpi.com/2072-4292/13/1/73/htm 二次阅读笔记也可以看看,下面这篇博客翻译会更准 ...

  9. 论文阅读(Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection)

    Chenyi Chen--[ACCV2016]R-CNN for Small Object Detection 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 总结与收获点 参考文献 ...

最新文章

  1. 数据结构 二叉树
  2. Matlab中imagesc用法
  3. Vysor_v1.6.9
  4. 基于 vue2 导航栏透明渐变
  5. web端业务数据管理平台+Axure运营数据管理平台+月度数据统计分析+年度排行榜数据统计页面分析+运营大数据统计管理后台+用户信息管理+Axure通用web端高保真交互业务数据管理平台
  6. php怎么防止爬虫,PHP语言学习之php 防止爬虫设置
  7. MySQL 千万级 数据库或大表优化
  8. SOAP ,WSDL 和UDDI
  9. 2021-10-22 学习笔记:和弦对照信息表
  10. JxBrowser使用心得和带中文翻译的文档分享
  11. php进销存源码系统开发
  12. x轴z轴代表的方向图片_x轴y轴z轴代表的方向_x轴y轴z轴代表的方向图
  13. 30 系列显卡是新一代架构,新驱动不支持 cuda 9 以及 cuda 10,所以必须安装 cuda 11
  14. 软件安全开发 - 流程规范
  15. C笔记《C Primer Plus 6E》
  16. 2022.4.21 python中关于sklearn 0.18的错误—— cannot import name comb
  17. 【历史上的今天】5 月 26 日:美国首个计算机软件程序专利;苹果市值首次超越微软;Wiki 的发明者出生
  18. 开源博客wordpress,一键搭建属于自己的博客
  19. minHash最小哈希
  20. Go 每日一库之 gorilla/sessions

热门文章

  1. 计算机怎么调整显示英语翻译,翻译词汇:计算机显示英语词汇 口译词汇
  2. bash执行mysql的warning怎么屏蔽_使用mysql从终端禁止警告消息,但密码写在bash脚本...
  3. 数据结构 6-0 图
  4. pytorch学习笔记(三十七):Adam
  5. html元素不可见的三种方式
  6. stm32F4的ADC+DMA+Timer,实现2MHz连续采样。1LSB分辨率,极低噪声。
  7. 解决 X: user not authorized to run the X server, aborting.
  8. 虚拟机Net模式下ping主机和连接外网
  9. 【Java】内存解析
  10. 青橙 A1280. 最长双回文串