[ 文献阅读 ] Transformer Transforms Salient Object Detection and Camouflaged Object Detection [1]

表现SOTA！性能优于SCWS、JLDCF等网络，源自机器翻译的Transformer网络特别擅长在长序列中对远程依存关系进行建模。大量实验结果表明，Transformer网络可以转换显著性目标检测和伪装对象检测，从而为每个相关任务提供了新的基准。

1.Transformer Network

1.1.Transformer Network 总览

多头注意力机制：典型思想是自我注意，它捕捉输入序列中元素之间的长期依赖关系。自我注意机制旨在估计一个目标与给定序列中其他物体的相关性，并对序列中所有物体之间的相互作用进行建模。
假定有序列 $X∈Rn×d\mathbf{X} \in \mathbb{R}^{n \times d}$ ，n为序列长度，d为embedding维度。则输入的向量首先会被转换为3个不同的向量：Query vector $Q\mathbf{Q}$ ，Key vector $K\mathbf{K}$ ，Value vector $V\mathbf{V}$ ，这三个向量都有相同的维度d，并且相对应有三种可学习权重矩阵： $WQ∈Rn×dq,WK∈Rn×dk\mathbf{W}^{Q} \in \mathbb{R}^{n \times d_{q}}, \mathbf{W}^{K} \in \mathbb{R}^{n \times d_{k}}$ and $WV∈Rn×dv\mathbf{W}^{V} \in \mathbb{R}^{n \times d_{v}}$
基于以上，一个输入序列X可以转化为以下三个矩阵：
$Q=XWQ,K=XWK,V=XWV(1)\mathbf{Q}=\mathbf{X} \mathbf{W}^{Q}, \mathbf{K}=\mathbf{X} \mathbf{W}^{K}, \mathbf{V}=\mathbf{X} \mathbf{W}^{V}\tag{1}$
基于上述三个权值矩阵，计算所有队列的点积。然后使用softmax算子将结果归一化为注意分数。最后，将每个值向量乘以注意力得分之和。这样，具有较大注意分数的向量从以下层接收额外的关注。标度点积自我注意的定义是：
$Z=softmax⁡(QKTd)V(2)\mathbf{Z}=\operatorname{softmax}\left(\frac{\mathbf{Q K}^{T}}{\sqrt{d}}\right) \mathbf{V}\tag{2}$
自我注意层的输出与输入顺序无关。为了解决输入向量位置信息缺失的问题，在输入向量上增加了一个附加的位置编码。有两种可选的编码形式，包括可学习参数和正弦/余弦函数编码。形式如下：
$PE(pos,2i)=sin⁡(pos100002id)PE(pos⁡,2i+1)=cos⁡(pos100002id)(3)\begin{aligned} \mathbf{P E}(p o s, 2 i) &=\sin \left(\frac{p o s}{10000^{\frac{2 i}{d}}}\right) \\ \mathbf{P E}(\operatorname{pos}, 2 i+1) &=\cos \left(\frac{p o s}{10000^{\frac{2 i}{d}}}\right) \end{aligned}\tag{3}$
多头注意力机制后来是对自注意力机制的一个扩充，如下图：
Transformer 网络一般是用来做NLP自然语言处理的，但本文把它用来做目标检测。一般来说Transformer Network长下图这样：
如果将 $\times W \times 3$ 的图片打平成一维向量，这个向量的大小即 $3 H W$ ，这就会导致很大的计算复杂度，为了让计算复杂度维持在一个可以接受的水平，本文首先用ResNet-50将样本下采样为一个大小为 $H16×W16×3\frac{H}{16} \times \frac{W}{16} \times 3$ 的高级别特征映射，这样之后向量大小就变为 $HW256\frac{H W}{256}$ ，让计算复杂度维持在一个可以接受的水平。

1.2.显著目标检测

视觉图像上的显著目标检测实际上是一种需要根据上下文进行推断的任务。而且被检测的目标应当和其背景很好地区分开来。如下图所示：
本文将训练集定义为： $D=\{x, y\}_{i=1}^{N}$ ，其中x是RGB图片，y是ground truth或是基于弱监督的弱map或scribble

1.2.1.全监督模型

对于全监督模型，采用了加权结构感知损失，即加权01交叉熵损失和加权IOU损失之和，如下所示：
$(c,y)=ω∗Lce(c,y)+Liou(c,y)(4)\mathcal{L}_{\text {full }}(c, y)=\omega * \mathcal{L}_{c e}(c, y)+\mathcal{L}_{i o u}(c, y)\tag{4}$
其中 $ω\omega$ 是边缘感知权重： $ω=1+5∗∣(avg⁡−pool⁡(y)−y)∣,Lce\omega=1+5 *\left|\left(\operatorname{avg}_{-} \operatorname{pool}(y)-y\right)\right|, \mathcal{L}_{c e}$ ， $Lce\mathcal{L}_{c e}$ 是01交叉熵损失， $Liou\mathcal{L}_{i o u}$ 定义如下：
$+1(5)\mathcal{L}_{i o u}=1-\frac{\omega * \text { inter }+1}{\omega * \text { union }-\omega * \text { inter }+1}\tag{5}$
其中inter $= c * y$ , and union $= c + y$ 。

1.2.2.弱监督模型

弱监督学习管道的最终损失函数定义为：
$),\begin{array}{r} \mathcal{L}_{\text {weak }}=\mathcal{L}_{\text {Prediction\#1 }}+\mathcal{L}_{\text {Prediction\# } 2} \\ +\lambda \mathcal{L}_{c e}(e, \partial \text { Prediction\#1 }), \end{array}$
其中， $λ=1\lambda=1$ ，且有：
$=Lpce+λ1∗Lsm+λ2∗Lgcrf+λ3∗Lss\mathcal{L}_{\text {Prediction\#1 }}=\mathcal{L}_{p c e}+\lambda_{1} * \mathcal{L}_{s m}+\lambda_{2} * \mathcal{L}_{g c r f}+\lambda_{3} * \mathcal{L}_{s s}$
自监督损失被定义为结构相似性指数测度和L1损失的加权和，如下所示：
$Lss=α∗SSIM⁡(ch,c)+(1−α)∗Li⁡(ch,c)(8)\mathcal{L}_{s s}=\alpha * \operatorname{SSIM}\left(c_{h}, c\right)+(1-\alpha) * \operatorname{Li}\left(c_{h}, c\right)\tag{8}$

2.论文实验

参考文献

[1] Mao Y, Zhang J, Wan Z, et al. Transformer transforms salient object detection and camouflaged object detection[J]. arXiv preprint arXiv:2104.10127, 2021.

文献阅读20期：Transformer Transforms Salient Object Detection and Camouflaged Object Detection相关推荐

文献阅读07期：智网中动态电价对太阳能板普及的影响
[ 文献阅读·能源 ] Techno-economic analysis of the impact of dynamic electricity prices on solar penetratio ...
文献阅读10期：ATTENTION, LEARN TO SOLVE ROUTING PROBLEMS!
[ 文献阅读·路径规划 ] ATTENTION, LEARN TO SOLVE ROUTING PROBLEMS! [1] 推荐理由:这篇应该不用多说了,ATTENTION模型做路径规划,算是一篇Mi ...
经典文献阅读之--Swin Transformer
0. 简介 Transfomer最近几年已经霸榜了各个领域,之前我们在<经典文献阅读之–Deformable DETR>这篇博客中对DETR这个系列进行了梳理,但是想着既然写了图像处理领域 ...
文献阅读09期：基于ADMM方法的柔性负载实时定价
[ 文献阅读·能源 ] Load shifting of a supplier-based demand response of multi-class subscribers in smart gr ...
文献阅读06期：基于Logistic效用函数智能电网定价
[ 文献阅读·能源 ] The real-time pricing optimization model of smart grid based on the utility function of ...
[论文阅读] Transformer Transforms Salient Object Detection and Camouflaged Object Detection
论文地址:https://arxiv.org/abs/2104.10127 代码:https://github.com/fupiao1998/TrasformerSOD 发表于:Arxiv 2021. ...
【文献阅读】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
题目:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 时间:2021 会议/期刊:ICCV 2021 研 ...
谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolu
系列文章目录谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...
谣言检测文献阅读三—The Future of False Information Detection on Social Media:New Perspectives and Trends
系列文章目录谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

文献阅读20期：Transformer Transforms Salient Object Detection and Camouflaged Object Detection