[ 文献阅读 ] Transformer Transforms Salient Object Detection and Camouflaged Object Detection [1]

表现SOTA!性能优于SCWS、JLDCF等网络,源自机器翻译的Transformer网络特别擅长在长序列中对远程依存关系进行建模。大量实验结果表明,Transformer网络可以转换显著性目标检测和伪装对象检测,从而为每个相关任务提供了新的基准。

1.Transformer Network

1.1.Transformer Network 总览

  • 多头注意力机制:典型思想是自我注意,它捕捉输入序列中元素之间的长期依赖关系。自我注意机制旨在估计一个目标与给定序列中其他物体的相关性,并对序列中所有物体之间的相互作用进行建模。
  • 假定有序列X∈Rn×d\mathbf{X} \in \mathbb{R}^{n \times d}XRn×d,n为序列长度,d为embedding维度。则输入的向量首先会被转换为3个不同的向量:Query vector Q\mathbf{Q}Q,Key vector K\mathbf{K}K,Value vector V\mathbf{V}V,这三个向量都有相同的维度d,并且相对应有三种可学习权重矩阵:WQ∈Rn×dq,WK∈Rn×dk\mathbf{W}^{Q} \in \mathbb{R}^{n \times d_{q}}, \mathbf{W}^{K} \in \mathbb{R}^{n \times d_{k}}WQRn×dq,WKRn×dk and WV∈Rn×dv\mathbf{W}^{V} \in \mathbb{R}^{n \times d_{v}}WVRn×dv
  • 基于以上,一个输入序列X可以转化为以下三个矩阵:
    Q=XWQ,K=XWK,V=XWV(1)\mathbf{Q}=\mathbf{X} \mathbf{W}^{Q}, \mathbf{K}=\mathbf{X} \mathbf{W}^{K}, \mathbf{V}=\mathbf{X} \mathbf{W}^{V}\tag{1} Q=XWQ,K=XWK,V=XWV(1)
  • 基于上述三个权值矩阵,计算所有队列的点积。然后使用softmax算子将结果归一化为注意分数。最后,将每个值向量乘以注意力得分之和。这样,具有较大注意分数的向量从以下层接收额外的关注。标度点积自我注意的定义是:
    Z=softmax⁡(QKTd)V(2)\mathbf{Z}=\operatorname{softmax}\left(\frac{\mathbf{Q K}^{T}}{\sqrt{d}}\right) \mathbf{V}\tag{2} Z=softmax(d

    QKT
    )
    V
    (2)
  • 自我注意层的输出与输入顺序无关。为了解决输入向量位置信息缺失的问题,在输入向量上增加了一个附加的位置编码。有两种可选的编码形式,包括可学习参数和正弦/余弦函数编码。形式如下:
    PE(pos,2i)=sin⁡(pos100002id)PE(pos⁡,2i+1)=cos⁡(pos100002id)(3)\begin{aligned} \mathbf{P E}(p o s, 2 i) &=\sin \left(\frac{p o s}{10000^{\frac{2 i}{d}}}\right) \\ \mathbf{P E}(\operatorname{pos}, 2 i+1) &=\cos \left(\frac{p o s}{10000^{\frac{2 i}{d}}}\right) \end{aligned}\tag{3} PE(pos,2i)PE(pos,2i+1)=sin(10000d2ipos)=cos(10000d2ipos)(3)
  • 多头注意力机制后来是对自注意力机制的一个扩充,如下图:
  • Transformer 网络一般是用来做NLP自然语言处理的,但本文把它用来做目标检测。一般来说Transformer Network长下图这样:
  • 如果将H×W×3H \times W \times 3H×W×3的图片打平成一维向量,这个向量的大小即3HW3HW3HW,这就会导致很大的计算复杂度,为了让计算复杂度维持在一个可以接受的水平,本文首先用ResNet-50将样本下采样为一个大小为H16×W16×3\frac{H}{16} \times \frac{W}{16} \times 316H×16W×3的高级别特征映射,这样之后向量大小就变为HW256\frac{H W}{256}256HW,让计算复杂度维持在一个可以接受的水平。

1.2.显著目标检测

  • 视觉图像上的显著目标检测实际上是一种需要根据上下文进行推断的任务。而且被检测的目标应当和其背景很好地区分开来。如下图所示:
  • 本文将训练集定义为:D={x,y}i=1ND=\{x, y\}_{i=1}^{N}D={x,y}i=1N,其中x是RGB图片,y是ground truth或是基于弱监督的弱map或scribble

1.2.1.全监督模型

  • 对于全监督模型,采用了加权结构感知损失,即加权01交叉熵损失和加权IOU损失之和,如下所示:
    Lfull (c,y)=ω∗Lce(c,y)+Liou(c,y)(4)\mathcal{L}_{\text {full }}(c, y)=\omega * \mathcal{L}_{c e}(c, y)+\mathcal{L}_{i o u}(c, y)\tag{4} Lfull(c,y)=ωLce(c,y)+Liou(c,y)(4)
    其中ω\omegaω是边缘感知权重:ω=1+5∗∣(avg⁡−pool⁡(y)−y)∣,Lce\omega=1+5 *\left|\left(\operatorname{avg}_{-} \operatorname{pool}(y)-y\right)\right|, \mathcal{L}_{c e}ω=1+5(avgpool(y)y),LceLce\mathcal{L}_{c e}Lce是01交叉熵损失,Liou\mathcal{L}_{i o u}Liou定义如下:
    Liou=1−ω∗inter +1ω∗union −ω∗inter +1(5)\mathcal{L}_{i o u}=1-\frac{\omega * \text { inter }+1}{\omega * \text { union }-\omega * \text { inter }+1}\tag{5} Liou=1ωunionωinter+1ωinter+1(5)
    其中inter =c∗y=c * y=cy, and union =c+y=c+y=c+y

1.2.2.弱监督模型

  • 弱监督学习管道的最终损失函数定义为:
    Lweak =LPrediction#1 +LPrediction# 2+λLce(e,∂Prediction#1 ),\begin{array}{r} \mathcal{L}_{\text {weak }}=\mathcal{L}_{\text {Prediction\#1 }}+\mathcal{L}_{\text {Prediction\# } 2} \\ +\lambda \mathcal{L}_{c e}(e, \partial \text { Prediction\#1 }), \end{array} Lweak=LPrediction#1+LPrediction#2+λLce(e,Prediction#1),
    其中,λ=1\lambda=1λ=1,且有:
    LPrediction#1 =Lpce+λ1∗Lsm+λ2∗Lgcrf+λ3∗Lss\mathcal{L}_{\text {Prediction\#1 }}=\mathcal{L}_{p c e}+\lambda_{1} * \mathcal{L}_{s m}+\lambda_{2} * \mathcal{L}_{g c r f}+\lambda_{3} * \mathcal{L}_{s s} LPrediction#1=Lpce+λ1Lsm+λ2Lgcrf+λ3Lss
  • 自监督损失被定义为结构相似性指数测度和L1损失的加权和,如下所示:
    Lss=α∗SSIM⁡(ch,c)+(1−α)∗Li⁡(ch,c)(8)\mathcal{L}_{s s}=\alpha * \operatorname{SSIM}\left(c_{h}, c\right)+(1-\alpha) * \operatorname{Li}\left(c_{h}, c\right)\tag{8} Lss=αSSIM(ch,c)+(1α)Li(ch,c)(8)

2.论文实验





参考文献

[1] Mao Y, Zhang J, Wan Z, et al. Transformer transforms salient object detection and camouflaged object detection[J]. arXiv preprint arXiv:2104.10127, 2021.

文献阅读20期:Transformer Transforms Salient Object Detection and Camouflaged Object Detection相关推荐

  1. 文献阅读07期:智网中动态电价对太阳能板普及的影响

    [ 文献阅读·能源 ] Techno-economic analysis of the impact of dynamic electricity prices on solar penetratio ...

  2. 文献阅读10期:ATTENTION, LEARN TO SOLVE ROUTING PROBLEMS!

    [ 文献阅读·路径规划 ] ATTENTION, LEARN TO SOLVE ROUTING PROBLEMS! [1] 推荐理由:这篇应该不用多说了,ATTENTION模型做路径规划,算是一篇Mi ...

  3. 经典文献阅读之--Swin Transformer

    0. 简介 Transfomer最近几年已经霸榜了各个领域,之前我们在<经典文献阅读之–Deformable DETR>这篇博客中对DETR这个系列进行了梳理,但是想着既然写了图像处理领域 ...

  4. 文献阅读09期:基于ADMM方法的柔性负载实时定价

    [ 文献阅读·能源 ] Load shifting of a supplier-based demand response of multi-class subscribers in smart gr ...

  5. 文献阅读06期:基于Logistic效用函数智能电网定价

    [ 文献阅读·能源 ] The real-time pricing optimization model of smart grid based on the utility function of ...

  6. [论文阅读] Transformer Transforms Salient Object Detection and Camouflaged Object Detection

    论文地址:https://arxiv.org/abs/2104.10127 代码:https://github.com/fupiao1998/TrasformerSOD 发表于:Arxiv 2021. ...

  7. 【文献阅读】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    题目:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 时间:2021 会议/期刊:ICCV 2021 研 ...

  8. 谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolu

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  9. 谣言检测文献阅读三—The Future of False Information Detection on Social Media:New Perspectives and Trends

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

最新文章

  1. 排序算法----桶排序(java版)
  2. NASA 开放巨量 VICAR 源码:近 350 款应用程序
  3. 仿小米简约Calculator
  4. shell中的wait
  5. 【开发环境】Windows 安装 PyCharm 开发环境 ( 下载 PyCharm | 安装 PyCharm | 在 PyCharm 中创建 Python 工程 )
  6. 冰刃初步使用图解(Win7 64位)
  7. Java开发中JDBC连接数据库代码和步骤
  8. Aspose.Word 的常见使用(不用模板创建)
  9. pytest自动化6:pytest.mark.parametrize装饰器--测试用例参数化
  10. 黄聪:电子商务关键数字优化(线上部分,上)
  11. 你不知道的事:AWR 基线和 AWR Compare Period Report 功能介绍
  12. 计算机病毒解析与防范结束语,2016年04月30日计算机病毒解析与防范题纲_向必青.doc...
  13. 【基础数学】Jensen不等式
  14. 浏览器缓存之http缓存和service worker
  15. 2019年DevOps最新现状研究报告解读
  16. 计算机科学计数法符号,科学计数法怎么表示
  17. c语言strcpy两字符串长度不同,(C语言)自己写字符串操作函数(一)——strlen/strcpy/strcat/strcmp/st...
  18. html实现画板的基本操作,javascript实现画板功能
  19. 周志华、贾扬清入选!2022中国高被引学者榜单揭晓,计算机界214人上榜
  20. 三维几何基础(3D?)

热门文章

  1. Barycentric coordinate system(重心坐标系)
  2. Python3数据分析与挖掘建模(6)单因子分析:离散分布分析示例
  3. 【日常】浅谈项目经理与研发间的“代沟”
  4. DP接口和HDMI接口哪个传输视频更好用
  5. Leetcode338. 比特位计数
  6. pve6.4升级到7.0
  7. F.unfold运行解析
  8. man 链接跳转_最强系统优化软件‘360Amigo(画质提升软件链接补)
  9. windows10计算机用户密码,怎么关闭win10系统的电脑开机密码?
  10. 中关村软件园机房和天坛机房的对比