论文阅读:A Progressive Architecture With Knowledge Review Network for Salient Object Detection
论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/16408
发表于:AAAI 2021
Abstract
显著目标的定位与分割是显著目标检测(SOD)中两个不同的任务。前者的目的是在全局范围内找到图像中最有吸引力的物体,而后者只能依赖包含显著目标的局部区域来实现。然而,以前的方法主要是以简单的端到端方式同时完成这两项任务,忽略了两项任务之间的差异。我们假设人类视觉系统会有序地定位和分割物体,因此我们为SOD提出了一个新颖的带有知识回顾网络的渐进式架构(PA-KRN),它由三个部分组成:
- 一个粗定位模块(CLM),使用body-attention标签定位包含显著目标的粗糙区域,而没有边界细节
- 一个基于注意力的采样器,以body-attention map为基础,可以获得高分辨率的显著目标区域
- 一个细分割模块(FSM),对显著目标进行精细分割
应用于CLM和FSM的网络主要基于我们提出的知识回顾网络(KRN),该网络利用最精细的特征图来重新整合之前的所有层,这可以弥补自上而下路径中不断被稀释的重要信息。在五个benchmark上的实验表明,我们仅通过单一的KRN便可以超过SOTA。此外,PA-KRN表现更好,大大超越了上述的方法。
I. Motivation
目前基于提升边缘处性能的SOD方法存在如下问题:
- 一些显著对象的分辨率较低(小目标),本身就缺乏边缘细节
- SOD可以被拆分为两个任务(摘要中所提到的SOL与SOS),可能并不适合直接用单一End to End的方式来解决
此外,U型的网络也存在一些固有的问题:
- 在网络逐渐融合浅层特征的过程中,深层特征会被逐渐被稀释
针对第一个小目标检测的问题,本文仿照人类视觉系统寻找显著目标的方式,构建了一个先定位再分割的网络。人眼这一生理过程如下图左所示:
可以看到这里面有个很有意思的东西叫做“Move Closer”,也就是说,在找到需要进一步观察的对象后,人眼有一个“放大”的过程(凑近了看&看的更清楚),这个时候其实周围信息就并不那么重要了。那么落实到分割的过程中,将小目标放大,确实有可能提升分割的性能。
而针对第二个问题,本文提出了知识回顾网络(KRN),引入了一种新的特征融合思路,用于缓解特征融合过程中深层信息丢失的问题。信息丢失的一个例子如下所示:
以FPN为例,可以看到,在自顶向下融合的过程中,红圈内的全局信息逐渐被稀释掉了。
II. Network Architecture
整体分为两大块,一部分是CLM&Sampler,用于对输入图像进行预处理,得到采样后的图像;另一部分是FSM,用于对采样后的图像执行SOD任务。CLM与FSM应用了同一套类似的Encoder-Decoder框架KRN。
III. Coarse Locating Module
Coarse Locating Module,粗定位模块,这个模块的作用是获得显著对象的大致位置,也就是上文提到的body attention map(以下简称attention map)。attention map张这样:
这里有一点比较有意思,CLM作为网络的一部分是单独进行训练的,以学习生成attention map的能力。既然要单独训练,那么首先就得制作相应的ground truth以供训练。从图中对比GT与attention map我们可以发现,attention map十分类似于对GT进行膨胀(dilation)操作,因此我们考虑以膨胀为基础来制作attention map。具体的操作分如下两步:
- 首先使用核大小为K×K的binary dilation操作对ground truth进行处理,扩大label的范围,初步实现“包含大致位置”的效果
- 再用核大小同样为K×K,σ\sigmaσ为8的高斯核,进行模糊处理。这么做的用意个人猜测是直接binary dilation后的结果边缘并不是平滑的,这种情况下一些有用的边界处背景信息并没有被包含在粗attention map中,因此需要做一定的模糊处理来达到平滑边缘的效果
attention map的好处有如下几个:
- 将显著目标中一些细长部分的区域扩大,降低识别难度,如上图第一行蝎尾、鹿脚
- 有的情况前后景复杂,显著目标可能被前景分割为多个部分,此时attention map能将其重新融合至同一目标的范畴内,如上图第二行
- 对复杂边缘进行平滑,如上图第三行
至于CLM网络的结构,其是基于KRN的,这将在后文进行介绍。
IV. Attention-based Sampler
Attention-based Sampler,基于注意力的采样器,这个模块是配合上节所提到的attention map一并使用的,用来解决小对象识别的问题。本文解决小目标的思想比较奇特:
- 把小目标放大,就不存在小目标了
因此,回到上一节,attention map的作用就是确定哪个是显著目标,需要被放大,然后由sampler完成放大的过程。
这里需要注意的一点是,肯定不能够直接裁切放大,因为小目标本身原始的分辨率已经较低,缺乏细节,直接进行放大并不能改善信息缺乏的现状,因此需要用sampler进行重新采样,补充细节,使其无论在尺寸和细节上都接近真实的一般目标。
Attention-based Sampler结构如下所示,其输入为原始图像与attention map,输出为采样后的图像:
实际上该sampler直接引自文献[1](TASN, CVPR 2019)中的原始实现,感兴趣可以阅读相应的论文。
V. Fine Segmenting Module & Knowledge Review Network
Fine Segmenting Module,细分割模块。前面介绍的两个部分相当于图像的预处理阶段,因此到FSM才算正式开始SOD任务。FSM所采用的结构与CLM类似,也是一个KRN(注意FSM所用的KRN与CLM略有不同,多一个Edge Supervision),因此接下来重点对KRN(FSM)的结构进行介绍,如下图所示:
可以看到backbone依然采用的是一个Encoder(ResNet50)-Decoder架构,重点在于KRN的两个组成部分——KRM、SAM。为了描述方便,如图中所示,记Decoder得到的各级特征为F1F_1F1、F2F_2F2、F3F_3F3、F4F_4F4、F5F_5F5。
Knowledge Review Module
如摘要所述,KRM的作用为"将最精细的特征图与其他层的特征重新融合在一起"。而所谓精细,指的自然就是分辨率最高的F5F_5F5了,具体的过程如下:
- 首先,利用1×1卷积压缩F1F_1F1、F2F_2F2、F3F_3F3、F4F_4F4的通道数,使其与F5F_5F5一致
- 对F1F_1F1、F2F_2F2、F3F_3F3、F4F_4F4进行上采样,使其尺寸与F5F_5F5一致
- 让F1F_1F1、F2F_2F2、F3F_3F3、F4F_4F4分别与F5F_5F5进行pixel-wise add,融合得到四组特征。这四组特征均利用ground truth进行监督
- 最后,对这四组特征进行channel-wise concat,并利用1×1卷积降维至单通道,再上采样回原尺寸得到最终输出结果
Side-out Aggregation Module
从上图中可以看到,这个模块起的就是Decoder block的作用,核心思想与原始FPN类似,通过多次下采样、平均池化、卷积、再融合的过程,来提取多尺度的特征。
VI. Loss
由于本文CLM与FSM是分开训练的,因此下面依次介绍CLM与FSM所采用的loss。
CLM所采用的loss改编自文献[2]。记PPP为predicted saliency map,Q为body-attention map,F为ground truth,有:
Lclm=λ1lb+λ2∑i=15lbiL_{c l m}=\lambda_{1} l_{b}+\lambda_{2} \sum_{i=1}^{5} l_{b}^{i} Lclm=λ1lb+λ2i=1∑5lbi lb=NSS′+CC′+KLDl_{b}=N S S^{\prime}+C C^{\prime}+K L Dlb=NSS′+CC′+KLD NSS′(P,F)=1N∑i(F−μ(F)σ(F)−P−μ(P)σ(P))×FiN S S^{\prime}(P, F)=\frac{1}{N} \sum_{i}\left(\frac{F-\mu(F)}{\sigma(F)}-\frac{P-\mu(P)}{\sigma(P)}\right) \times F_{i}NSS′(P,F)=N1i∑(σ(F)F−μ(F)−σ(P)P−μ(P))×Fi
由于采用了deep supervision,有lbil_{b}^{i}lbi指第iii个中间attention map的loss,lbl_{b}lb为最终attention map的loss,λ1=2\lambda_{1}=2λ1=2,λ2=1\lambda_{2}=1λ2=1。
而FSM采用的loss与大多数SOD方法类似,有ls=lsa=lbce+lioul_{s}=l_{sa}=l_{b c e}+l_{i o u}ls=lsa=lbce+liou,le=lbcel_{e}=l_{bce}le=lbce ,最终:
Lfsm=λ3ls+λ4∑i=15lsai+λ5∑i=15leiL_{f s m}=\lambda_{3} l_{s}+\lambda_{4} \sum_{i=1}^{5} l_{s a}^{i}+\lambda_{5} \sum_{i=1}^{5} l_{e}^{i}Lfsm=λ3ls+λ4i=1∑5lsai+λ5i=1∑5lei
与CLM类似,FSM同样采用了deep supervision,有λ3=2\lambda_{3}=2λ3=2,λ4=λ5=1\lambda_{4}=\lambda_{5}=1λ4=λ5=1。
在分别训练完CLM与FSM后,最后联合finetune所用的loss为两者的相加:
L=Lclm+LfsmL=L_{c l m}+L_{f s m} L=Lclm+Lfsm
VII. Experiment
性能超越了14个最近模型,包括RAS(ECCV 2018)、DGRL(CVPR 2018)、PiCANet(CVPR 2018)、MLMSNet(CVPR 2019)、AFNet(CVPR 2019)、PS(CVPR 2019)、CPD(CVPR 2019)、BASNet(CVPR 2019)、PoolNet(CVPR 2019)、EGNet(ICCV 2019)、ITSD(CVPR 2020)、GCPANet(AAAI 2020)、GateNet(ECCV 2020)、MINet(CVPR 2020)
VIII. Summary
本文的最大创新点在于提出了一种提升SOD小物体检测性能的思路:将小目标放大。作为一个图像预处理过程,本文先生成了一个粗分割结果来尽可能包含显著目标,然后以粗结果为依据进行重采样,完成放大的过程。既然尽可能地去将目标的尺寸给统一了,那么自然也能减轻scale varation带来的困难。
至于SOD网络部分,仍然采用的是比较主流的思路,去设法提升side output融合的效果。将中间各层特征分别与最终特征进行融合并监督,以达到恢复最终特征中缺失信息的目的。
Ref
[1] Zheng, H.; Fu, J.; Zha, Z.-J.; and Luo, J. 2019. Looking for the devil in the details: Learning trilinear attention sampling network for fine-grained image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 5012–5021.
[2]Jia, S.; and Bruce, N. D. 2020. Eml-net: An expandable multi-layer network for saliency prediction. Image and Vision Computing 103887.
论文阅读:A Progressive Architecture With Knowledge Review Network for Salient Object Detection相关推荐
- [论文阅读] Looking for the Detail and Context Devils: High-Resolution Salient Object Detection
论文地址:https://dx.doi.org/10.1109/TIP.2020.3045624 发表于:TIP 2021 Abstract 近年来,随着大规模基准测试与深度学习技术的成就,显著目标检 ...
- 论文笔记-Suppress and Balance: A Simple Gated Network for Salient Object Detection
Hello, 今天是论文阅读计划的第19天啦- 也是我在这30天中要介绍的最后一篇目标检测的论文啦 一.背景 最显著的目标检测方法使用的基本结构是三角网或特征金字塔网络(FPN).这些方法忽略了编码器 ...
- EGNet: Edge Guidance Network for Salient Object Detection 论文及代码解读
EGNet: Edge Guidance Network for Salient Object Detection 论文及代码解读 注:本文原创作者为Jia-Xing Zhao, Jiang-Jian ...
- 显著性目标检测之Global Context-Aware Progressive Aggregation Network for Salient Object Detection
Global Context-Aware Progressive Aggregation Network for Salient Object Detection 文章目录 Global Contex ...
- 【论文笔记】Multi-Content Complementation Network for Salient Object Detection in Optical RSI
论文 论文:Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing I ...
- 分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection
分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection 引入 方法 网 ...
- 三维目标检测论文阅读:VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection 理解了PointPillars这篇文章后,看这篇文章就清 ...
- 【论文阅读】A2S-Det: Efficiency Anchor Matching in Aerial Image Oriented Object Detection
A 2 S-Det:航空图像定向目标检测中的高效锚点匹配 论文地址:https://www.mdpi.com/2072-4292/13/1/73/htm 二次阅读笔记也可以看看,下面这篇博客翻译会更准 ...
- 论文阅读(Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection)
Chenyi Chen--[ACCV2016]R-CNN for Small Object Detection 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 总结与收获点 参考文献 ...
最新文章
- 数据结构 二叉树
- Matlab中imagesc用法
- Vysor_v1.6.9
- 基于 vue2 导航栏透明渐变
- web端业务数据管理平台+Axure运营数据管理平台+月度数据统计分析+年度排行榜数据统计页面分析+运营大数据统计管理后台+用户信息管理+Axure通用web端高保真交互业务数据管理平台
- php怎么防止爬虫,PHP语言学习之php 防止爬虫设置
- MySQL 千万级 数据库或大表优化
- SOAP ,WSDL 和UDDI
- 2021-10-22 学习笔记:和弦对照信息表
- JxBrowser使用心得和带中文翻译的文档分享
- php进销存源码系统开发
- x轴z轴代表的方向图片_x轴y轴z轴代表的方向_x轴y轴z轴代表的方向图
- 30 系列显卡是新一代架构,新驱动不支持 cuda 9 以及 cuda 10,所以必须安装 cuda 11
- 软件安全开发 - 流程规范
- C笔记《C Primer Plus 6E》
- 2022.4.21 python中关于sklearn 0.18的错误—— cannot import name comb
- 【历史上的今天】5 月 26 日:美国首个计算机软件程序专利;苹果市值首次超越微软;Wiki 的发明者出生
- 开源博客wordpress,一键搭建属于自己的博客
- minHash最小哈希
- Go 每日一库之 gorilla/sessions
热门文章
- 计算机怎么调整显示英语翻译,翻译词汇:计算机显示英语词汇 口译词汇
- bash执行mysql的warning怎么屏蔽_使用mysql从终端禁止警告消息,但密码写在bash脚本...
- 数据结构 6-0 图
- pytorch学习笔记(三十七):Adam
- html元素不可见的三种方式
- stm32F4的ADC+DMA+Timer,实现2MHz连续采样。1LSB分辨率,极低噪声。
- 解决 X: user not authorized to run the X server, aborting.
- 虚拟机Net模式下ping主机和连接外网
- 【Java】内存解析
- 青橙 A1280. 最长双回文串