论文地址:https://dx.doi.org/10.1109/TIP.2020.3045624
发表于:TIP 2021

Abstract

近年来,随着大规模基准测试与深度学习技术的成就,显著目标检测(SOD)已经显示出巨大的成功。然而,现有的SOD方法主要集中在低分辨率的自然图像上,如400×400或更低。这一缺陷阻碍了它们在先进实际应用中的落地,因为这些应用需要高分辨率且富含细节的结果。此外,显著目标缺乏边界细节以及语义上下文信息也是准确SOD的一个关键问题。为了解决这些问题,在本文中,我们专注于解决高分辨率显著目标检测(HRSOD)任务。从技术角度,我们提出了第一个端到端的可学习框架,名为双重细化网络(DRFNet),用于全自动的HRSOD。具体而言,所提出的DRFNet由一个共享的特征提取器与两个有效的细化头组成。通过对细节与上下文信息的解耦,其中一个细化头采用了全局感知的特征金字塔,在不增加太多计算负担的情况下,它可以提升空间细节信息,从而缩小高层语义与低层细节之间的差距。同时,另一个细化头采用了混合空洞卷积块与分组上采样,其在提取上下文信息方面十分有效。基于双重细化。我们的方法可以扩大感受野,并从高分辨率图像中获得更多可区分的特征。在高分辨率基准测试(DUT-HR SOD&DAVIS-SOD)上的实现结果表明,我们的方法不仅高效,而且比其他SOTA更加准确。此外,我们的方法在典型的低分辨率基准测试上具有良好的通用性。

I. Motivation

随着硬件的发展,现阶段高分辨率的应用比以前多得多(4K电视、智能手机、高清显示器)。但是现有的大部分方法都是针对低分辨率图像进行设计的,不能直接应用在高分辨率图像上(计算量很大)。因此有必要设计相应的高分辨率SOD模型。

文中指出HRSOD模型的设计主要有以下的难点:

  • 高分辨率图像可能包含更多具有不同结构与形状的物体
  • 高分辨率图像可能包含更多的精确细节,如发丝等

而目前视觉任务中处理高分辨率图像的思路主要有以下几种:

  • 将高分辨率图像裁剪/放缩至低分辨率,然后用一般的网络来处理得到一个低分辨率结果,再将结果上采样回高分辨率
  • 设计专门的轻量级网络来平衡掉输入高分辨率图像时所带来的开销。不过文中认为这种方法由于还是使用了多级下采样,容易丢失空间信息
  • 设计非对称网络,使用不同的分支来分别处理不同分辨率下的图像,即利用图像的高分辨率版本,提取其低级细节特征;利用图像的低分率版本,提取以高级语义特征,最后进行融合。不过文中认为由于多级特征之间存在gap,目前的方法大多没处理好gap的问题,导致结果不理想

本文主要是对第三种思路进行改进,实现更好的特征融合;而至于"不同分辨率"的问题,本文的实现形式是在共享Encoder的情况下使用双Decoder。

II. Network Architecture


属于一种Encoder-Decoder架构的变体。不过本文提到了这么一点,轻量级的网络在完成SOD任务时也很有效,因此本文出于计算效率的考虑,使用了VGG-16/ResNet18作为backbone,而非其他SOD模型中常用的ResNet50。为了后文表述方便,记Encoder提取的各级特征为Fi,i∈[1,…,5]\mathbf{F}_{i}, i \in[1, \ldots, 5]Fi​,i∈[1,…,5]。

III. Detail Refinement Head

细节细化头的作用是专注于提取高分辨率图像的低级特征,其包含三个子模块:

  • 卷积特征缩减块CFRB
  • 深度特征上采样块DFUB
  • 全局特征交互块GFIB

当然,文中虽然把这几样东西称作是模块,其实从本质上讲其更类似于特定的卷积设计技巧。接下来我们将对这三个模块分别进行介绍。

Convolutional Feature Reduction Block

这个东西的作用是减少特征的维度。那么谈到降维,最容易想到的就是1×1卷积,实际上本文的CFRB也确实仅由1×1卷积+BN+ReLU构成。考虑到高分辨率图像带来的计算开销,CFRB统一将通道维度调整至32(对低分辨率图像来说一般是调至64)。

Depth-Wise Feature Upsampling Block

传统SOD网络在decoder进行上采样的过程中一般用的是双线性插值或者反卷积,文中认为这种方法会带来较大的计算开销。为此,本文在上采样时所用的卷积为文[1]所用的depth-wise convolution。

Global-Aware Feature Interaction Block

GFIB做的其实就是一个带通道注意力的特征融合,其结构如下所示:

对于通过channel-wise concat得到的融合特征,首先使用GAP+FC计算得到一个通道权重αg\alpha_{g}αg​。对于传统的低分辨率方法,在计算得到权重后,再与原特征相乘便完成了加权。而这里考虑到高分辨率,对原融合特征使用了3×3卷积进行降通道,然后才与权重相乘进行加权。形式化地,有:αG=σ(W1∗GAP([FC,FD])+b)FR=g(W2∗[FC,FD]+b)FG=αG⊙FR\begin{aligned} &\alpha_{G}=\sigma\left(W_{1} * G A P\left(\left[\mathbf{F}_{C}, \mathbf{F}_{D}\right]\right)+b\right) \\ &\mathbf{F}_{R}=g\left(W_{2} *\left[\mathbf{F}_{C}, \mathbf{F}_{D}\right]+b\right) \\ &\mathbf{F}_{G}=\alpha_{G} \odot \mathbf{F}_{R} \end{aligned} ​αG​=σ(W1​∗GAP([FC​,FD​])+b)FR​=g(W2​∗[FC​,FD​]+b)FG​=αG​⊙FR​​ 其中∗*∗表示矩阵乘,⊙\odot⊙表示elemet-wise乘,W1W_{1}W1​、W2W_{2}W2​、bbb表示可学习参数,ggg表示ReLU,σ\sigmaσ表示sigmoid激活函数。

IV. Context Refinement Head

全局细化头的目标就是对融合特征去进行各种更好地后处理了,这也算一种很常见的思路,比如ASPP模块干的就是这个。但是文中指出这类传统的金字塔结构有个问题,即计算量较大,并不完美契合高分辨率任务,因此本文自己搞了个类ASPP模块,同样是做不同感受野特征的融合,记做HDCB。此外,CRH同样也改良了传统的上采样方式,记为GWU。接下来将分别介绍HDCB与GWU这两个模块。

Hybrid Dilation Convolutional Block

HDCB的结构如下所示:

对于输入特征FiF_{i}Fi​,使用不同dilate rate的卷积分支WrjW_{r_{j}}Wrj​​进行计算,有:Firj=Wrj∗Fi\mathbf{F}_{i}^{r_{j}}=W_{r_{j}} * \mathbf{F}_{i} Firj​​=Wrj​​∗Fi​ 这样就可以得到各级特征Firj\mathbf{F}_{i}^{r_{j}}Firj​​。对于这么个各级特征,再计算空间注意力图AirjA_{i}^{r_{j}}Airj​​,有:Airj=σ(Wa∗Firj)A_{i}^{r_{j}}=\sigma\left(W_{a} * \mathbf{F}_{i}^{r_{j}}\right) Airj​​=σ(Wa​∗Firj​​) 其中WaW_{a}Wa​指计算注意力时所用1×1卷积中的参数。由于这几张特征图后面还要做融合,因此这里的注意力图还需要进行归一化:A^irj=Airj∑rjAirj\hat{A}_{i}^{r_{j}}=\frac{A_{i}^{r_{j}}}{\sum_{r_{j}} A_{i}^{r_{j}}} A^irj​​=∑rj​​Airj​​Airj​​​ 最后,使用残差连接将原始输入特征FiF_{i}Fi​与多尺度特征Firj\mathbf{F}_{i}^{r_{j}}Firj​​进行相加,得到最终的带注意力特征图Fia\mathbf{F}_{i}^{a}Fia​:Fia=Fi+∑jAirjFirj\mathbf{F}_{i}^{a}=\mathbf{F}_{i}+\sum_{j} A_{i}^{r_{j}} \mathbf{F}_{i}^{r_{j}} Fia​=Fi​+j∑​Airj​​Firj​​ 文中对于HDCB节省空间的解释是输入特征图的大小与输出特征图的大小相同(主要体现在深度上),这主要得益于最后融合的时候使用的是element-wise sum而非channel-wise concat。此外,也引入了注意力机制,保证了性能。

Group-Wise Upsampling

这个的思想与上文中介绍的Depth-Wise Feature Upsampling Block类似,也是利用分组反卷积来替代传统的双线性插值操作,从而在保证性能的前提下节省计算量。

V. Guided Feature Boosting

GFB做的是多级特征融合,也就是怎么将DRH获得的低级特征FDRH\mathbf{F}_{D R H}FDRH​与CRH获得的高级特征FCRH\mathbf{F}_{C R H}FCRH​进行融合的问题,其结构如下所示:

既然要解决gap,那么就得引入一个额外的中间特征来减轻这个gap,文中所用的便为Encoder最终输出的公共全局特征FG\mathbf{F}_{G}FG​。首先,将这三者进行channel-wise concat。由于按通道叠加会带来通道数上升进而影响性能,因此在叠加后需要立刻降通道:Fre=Wre∗[FDRH,FG,FCRH]\mathbf{F}_{r e}=W_{r e} *\left[\mathbf{F}_{D R H}, \mathbf{F}_{G}, \mathbf{F}_{C R H}\right] Fre​=Wre​∗[FDRH​,FG​,FCRH​] 其中WreW_{r e}Wre​表示降通道所用1×1卷积的参数。之后,将融合特征Fre\mathbf{F}_{r e}Fre​与两个粗预测结果相加,得到最终结果:Fboost =PDRH+Fre+PCRH\mathbf{F}_{\text {boost }}=\mathbf{P}_{D R H}+\mathbf{F}_{r e}+\mathbf{P}_{C R H} Fboost ​=PDRH​+Fre​+PCRH​ 因为1×1卷积降通道的过程本身某种程度也算做注意力的过程(将无用特征压缩掉),因此GFB所做的也是一种带注意力的多级特征融合。

VI. ExperViment

性能超越了16个最近模型,包括LEGS(CVPR 2015)、RFCN(ECCV 2016)、DCL(CVPR 2016)、DHS(CVPR 2016)、UCF(ICCV 2017)、AMU(ICCV 2017)、NLDF(CVPR 2017)、DSS(CVPR 2017)、BMP(CVPR 2018)、RAS(ECCV 2018)、DGRL(CVPR 2018)、PAGR(CVPR 2018)、CPD(CVPR 2019)、AFN(CVPR 2019)、EGN(ICCV 2019)、GLF[2](ICCV 2019)。

需要注意的是,由于是进行高分辨率训练,因此所用的训练集为DUT-HRSOD而非传统的DUTS-TR。此外本文也提出了一个DAVIS-SOD数据集作为测试集,用于未来的高分辨率SOD研究。

VII. Summary

高分辨率SOD最早可能是由HRSOD[2]这篇文章提出的,目前也算是属于一个比较起步的阶段,这篇文章可以算是第二篇。本文针对高分辨率的优化,主要集中于在网络的各个部分进行通道压缩以减轻运算量,并且将一些传统操作替换为计算效率更高的操作(如替换掉双线性上采样)。而对于通道压缩所可能带来的性能下降问题,本文采用带注意力的多级特征融合来进行弥补。

Ref

[1] ERFNet: Efficient residual factorized ConvNet for real-time semantic segmentation
[2] Zeng, Yi, et al. “Towards high-resolution salient object detection.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.

[论文阅读] Looking for the Detail and Context Devils: High-Resolution Salient Object Detection相关推荐

  1. 论文阅读:A Progressive Architecture With Knowledge Review Network for Salient Object Detection

    论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/16408 发表于:AAAI 2021 Abstract 显著目标的定位与分割是显著目标检测 ...

  2. 论文阅读:U2 Net: Going Deeper with Nested U-Structure for Salient Object Detection

    论文地址:https://arxiv.org/pdf/2005.09007.pdf 内容简介 这个网络是用来做显著目标检测的(SOD),能够取得出色的效果,同时模型文件较小,更适合于移动设备 不同于原 ...

  3. 论文阅读笔记五十三:Libra R-CNN: Towards Balanced Learning for Object Detection(CVPR2019)

    论文原址:https://arxiv.org/pdf/1904.02701.pdf github:https://github.com/OceanPang/Libra_R-CNN 摘要 相比模型的结构 ...

  4. 【目标检测论文阅读笔记】QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection

    Abstract 虽然深度学习的通用目标检测在过去几年取得了巨大成功,但检测小目标的性能和效率却远不尽如人意.促进小目标检测的最常见和有效的方法是使用高分辨率图像或特征图.然而,这两种方法都会导致昂贵 ...

  5. 【论文阅读】【三维目标检测】StarNet: Targeted Computation for Object Detection in Point Clouds

    文章目录 StarNet Center selection Featurizing local point clouds After Constructing final predictions fr ...

  6. 论文阅读:Salient Object Detection: A Benchmark

    论文阅读:Salient Object Detection: A Benchmark 南开大学的显著性检测benchmark 链接:http://mmcheng.net/zh/salobjbenchm ...

  7. [论文阅读] Boosting Salient Object Detection with Transformer-based Asymmetric Bilateral U-Net

    论文地址:https://arxiv.org/abs/2108.07851 发表于:Arxiv 2021.08 Abstract 现有的显著目标检测(SOD)方法主要依靠基于CNN的U型结构,通过跨层 ...

  8. [论文阅读] Stereoscopically Attentive Multi-scale Network for Lightweight Salient Object Detection

    论文地址:https://dx.doi.org/10.1109/TIP.2021.3065239 代码:https://mmcheng.net/SAMNet 发表于:TIP 2021 Abstract ...

  9. Minimum Barrier Salient Object Detection at 80 FPS 论文阅读笔记

    这几天帮学长研究这篇论文,整理了这些笔记,由于我在CV方面刚刚入门,博客中可能会有很多错误与不当之处,希望大家能多多指正. 附上我自己修改的C++代码,可以运行在windows环境下: 链接:http ...

最新文章

  1. IDEA主题设置(字体颜色背景)
  2. SAP CRM product category search - hidden search attribute
  3. 史上最详细JVM笔记
  4. html字体置顶,2020年应使用的3种CSS字体属性
  5. Lesson 07 for Plotting in R for Biologists
  6. python中read,readline,和readlines的区别 并逐行输出
  7. matlab振荡环节的频率特性,频率特性曲线
  8. win10PE iso镜像制作及问题解决
  9. 【课程·研】高级人工智能 | MOOC习题及课后作业:期末考试
  10. Win10没有Realtek高清晰音频管理器怎么办?
  11. Labview软件的特点
  12. DDS产生双频正弦波及叠加
  13. 小程序camera组件设置前前置摄像头无效
  14. 在线html5行情,Html5版本的全套股票行情图
  15. 3.4输入手写数字图片输出识别结果
  16. 怎样去除EXCEL中的重复行
  17. onvif 修改摄像头参数
  18. linux 内存使用计算
  19. 阿里内部资料,10W字总结JAVA面试题-Git篇
  20. C++:求整数num中包含因子k的个数

热门文章

  1. 大家都来测试测试自己的flex水平
  2. 查看sql_一键查看Oracle数据库当前SQL_WORKAREA_ACTIVE的相关操作
  3. python bootstrap安装_python + django + bootstrap + uWSGI + nginx 环境搭建
  4. centos7系统使用杀毒软件clamav
  5. python安装pillow图形处理库
  6. python画六角图_六角图的画法
  7. 深度学习——CNN的学习笔记
  8. 目标检测——NMS算法的学习笔记~
  9. hihocoder1033交错和
  10. AS5047P磁编码器ESP32驱动程序、硬件电路设计、SPI通信时序、逻辑波形分析、注意事项