论文地址:https://arxiv.org/abs/2104.10127
代码:https://github.com/fupiao1998/TrasformerSOD
发表于:Arxiv 2021.04

Abstract

源自机器翻译的transformer网络尤其擅长在长序列中建模远程依赖。 目前,transformer网络在各种视觉任务上取得了革命性的进展,从高级分类任务到低级密集预测任务。 本文主要研究Transformer网络在显著目标检测(SOD)中的应用。 具体来说,我们在统一框架内采用密集transformer主干(dense transformer backbone)进行基于全监督RGB图像的SOD、基于RGB-D图像对的SOD以及基于弱监督的SOD,基于transformer主干可以提供准确的结构建模, 这使得它在学习结构信息较少的弱标签时非常强大。 此外,我们发现vision transformer架构并没有提供直接的空间监督,而是将位置编码为一个特征。 因此,我们研究了两种策略通过我们统一框架中的transformer层提供更强的空间监督,即deep supervision和difficulty-aware learning。 我们发现,deep supervision可以使梯度回到更高层次的特征,从而使得在同一语义对象内做到统一激活。 另一方面,difficulty-aware learning能够识别hard pixel,从而实现有效的hard negative mining。 对传统backbone与transformer backbone在SOD上finetune前后的特征进行可视化,发现transformer backbone在较低层次特征和较高层次特征中分别编码了更准确的对象结构信息和更清晰的语义信息。 作为扩展,我们还将我们的模型应用于伪装目标检测(COD),并获得与上述三个SOD相关任务相似的观测结果。 在各种SOD和COD任务上的大量实验结果表明,transformer网络可以改变显著目标检测和伪装目标检测,为每个相关任务提供新的基准。 源代码和实验结果可以在我们的项目页面https://github.com/fupiao1998/TrasformerSOD找到。

I. Motivation

CNN存在的问题:深层网络的大感受野是通过牺牲结构信息来获得的,因此需要设计复杂的decoder来"尝试"恢复。

而对于Vision Transformer而言,位置编码在建模准确的空间信息方面存在局限,不适合密集预测任务。

II. Network Architecture

III. Transformer Encoder

Encoder所用的backbone为Swin Transformer。类似于CNN中的backbone,其也可以生成五个尺度下的特征,记做Eθ(x)={tl}l=15E_{\theta}(x)=\left\{t_{l}\right\}_{l=1}^{5}Eθ​(x)={tl​}l=15​,其通道数分别为128,256,512,1024,1024128,256,512,1024,1024128,256,512,1024,1024。

IV. Deep Supervision

其实把swin transformer拿来后,一种直接的做法就是把CNN中原来的decoder给直接接到transformer backbone上去。本文基本上也是这么做的,不过文中的将这一操作称为deep supervision,其结构如下所示:

其实这个deep supervision就是decoder。可以看到encoder最底层特征t5在和t4 concat之后,逐步继续与t3进行向上融合,与传统CNN中decoder的思路比较类似。

具体来说的话,对于encoder所提取的各级特征{tl}l=15\left\{t_{l}\right\}_{l=1}^{5}{tl​}l=15​,首先利用3×3卷积将其降维至32通道(即上图中的BC),得到特征图{dl}l=15\left\{d_{l}\right\}_{l=1}^{5}{dl​}l=15​。接下来做的就是相邻特征的融合,有:bl=Ca([dl,con⁡v3×3(bl+1)]),l=1,…,4b_{l}=C^{a}\left(\left[d_{l}, \operatorname{con} v_{3 \times 3}\left(b_{l+1}\right)\right]\right), l=1, \ldots, 4 bl​=Ca([dl​,conv3×3​(bl+1​)]),l=1,…,4 其中CaC^{a}Ca代表残差通道注意力模块(上图中的RCAB),用于提取各通道中有区分性的信息;[,][,][,]代表channel wise concat(上图中的C)。在concat之前,上采样所使用的方法为双线性上采样。

将各级decoder特征通过DASPP模块处理后,可以得到相应的单通道预测结果:{sl=Dm(bl)}l=15\left\{s_{l}=D_{m}\left(b_{l}\right)\right\}_{l=1}^{5}{sl​=Dm​(bl​)}l=15​

V. Discriminator

判别器RγR_{\gamma}Rγ​的结构较为简单,由五个3×3卷积层组成,其输入为原始图像xxx与预测结果sls_{l}sl​进行concat,输出为单通道的置信图clc_{l}cl​。这里重点讲下文中所提到的Difficulty-aware learning。这个东西的作用类似于hard negative mining,用来强化对hard sample的训练。

那么对于SOD这种密集预测任务来说,hard sample自然就是那些容易预测出错的像素,例如边缘处的像素。本文对于hard的定义也十分直观,对于预测错的像素,我们就认为其hard。形式化地,有:cl=sigmoid⁡(Rγ(sl,x))c_{l}=\operatorname{sigmoid}\left(R_{\gamma}\left(s_{l}, x\right)\right) cl​=sigmoid(Rγ​(sl​,x))

VI. Summary

将transformer引入了SOD任务中。不过有意思的一点是,这里除了backbone换成了transformer,其余部分的组件仍使用了CNN中的习惯设计,在一定程度上可以认为是backbone替换所带来的性能提升。

[论文阅读] Transformer Transforms Salient Object Detection and Camouflaged Object Detection相关推荐

  1. 文献阅读20期:Transformer Transforms Salient Object Detection and Camouflaged Object Detection

    [ 文献阅读 ] Transformer Transforms Salient Object Detection and Camouflaged Object Detection [1] 表现SOTA ...

  2. 论文阅读笔记——VulDeePecker: A Deep Learning-Based System for Vulnerability Detection

    本论文相关内容 论文下载地址--Engineering Village 论文中文翻译--VulDeePecker: A Deep Learning-Based System for Vulnerabi ...

  3. 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

  4. Zero-shot Learning零样本学习 论文阅读(一)——Learning to detect unseen object classes by between-class attribute

    Zero-shot Learning零样本学习 论文阅读(一)--Learning to detect unseen object classes by between-class attribute ...

  5. 【论文阅读】Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

    最近在看3d目标检测的文章,感觉看完东西还是要记一下自己的想法,尤其是有思考的文章. 论文题目:Point-GNN: Graph Neural Network for 3D Object Detect ...

  6. 论文阅读:Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos

    Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos 文章目录 Tube Convolutional Neu ...

  7. 【论文阅读】MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection --- 多模态,谣言检测,注意力机制

    本博客系博主根据个人理解所写,非逐字逐句翻译,预知详情,请参阅论文原文. 论文标题:MFAN: Multi-modal Feature-enhanced Attention Networks for ...

  8. [论文阅读] Scene Context-Aware Salient Object Detection

    论文地址:https://openaccess.thecvf.com/content/ICCV2021/html/Siris_Scene_Context-Aware_Salient_Object_De ...

  9. 论文阅读笔记:(2021.10 CoRL) DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

    论文地址:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries | OpenReviewWe introduc ...

最新文章

  1. html网页在指定位置嵌入表格,网页制作中表格的主要作用 网页制作中插入表格怎么调整位置...
  2. [转]产品需求文档(PRD)的写作
  3. 数据操作DataBaseCtrl
  4. Java中ThreadPoolExecutor的参数理解
  5. 汇编语言实现计算器---可加减乘除括号负数混合运算
  6. 怎么做95置信区间图_这种动态的OD图怎么做?简单3步快速搞定
  7. 目标检测之空间变形网络(STN)
  8. iis 搭建html网站,iis6.0 、7.0添加网站(搭建网站)
  9. 闫墨杰415知识点总结
  10. UML中依赖(Dependency)和关联(Association)之间的区别
  11. 基于格密码的算法研究
  12. 基于sklearn的文本特征提取与分类
  13. error:crosses initialization of
  14. 十三、商城 - 商城架构-分布式Dubbo(1)
  15. GoF设计模式(二)-行为型模式简介
  16. 王峻涛访谈录(三)6688是干什么的?
  17. 用java流复制文件不能复制全,少几十兆!!
  18. MD5加密及密码验证
  19. nodejs crud功能(orm 七牛 mysql..)
  20. 统计学知识梳理(四)线性回归、卡方分布与方差分析

热门文章

  1. linux7.0下mysql_CentOS 7.0下使用yum安装MySQL
  2. 拦截器ConnectInterceptor
  3. 原生jsonp发送跨域请求
  4. linux 测试端口连通性_磨刀不误砍柴工,带你搞定云网络系统性能测试
  5. rand函数怎么避免重复_Excel常用的计算统计函数
  6. vue通过链接显示服务器上的图片_图片网站该如何做SEO优化?详细讲解图片优化技巧...
  7. frida hook java 函数_使用 Frida 来 Hook Java 类中的构造函数(构造函数带重载),获取解密后的js脚本...
  8. 二分——最大的最小值
  9. mac下使用mysql
  10. Altium AD20批量修改丝印大小、更改丝印字体、丝印显示中文、更改位号丝印 相对元件的位置