SwinNet:Swin Transformer 驱动边缘感知 RGB-D 和 RGB-T 显着目标检测

IEEE Transactions on Circuits and Systems for Video Technology2021


一 动机

卷积神经网络 (CNN) 擅长在某些感受野内提取上下文特征,而Transformer可以对全局远程依赖特征进行建模。Swin Transformer ,吸收了 CNN 的局部优势和 Transformer 的远程依赖优点

二 方法

在以上基础上,作者提出了一种用于 RGB-D 和 RGB-T 显著目标检测的跨模态融合模型 SwinNet

它是由Swin Transformer提取分层特性,使用通道注意力和空间注意力推动以弥合两种模态之间的差距,并由边缘信息引导以锐化显着对象的轮廓。

具体而言,双流Swin Transformer编码器首先提取多模态特征,然后提出空间对齐和通道重新校准模块以优化层内跨模态特征。 为了明确模糊边界,边缘引导解码器在边缘特征的引导下实现了层间跨模态融合。

三 网络框架

总体框架一个有4个模块:(1)双流主干;(2)通道对齐和空间校准模块;(3)边缘感知模块;(4)边缘引导解码器

3.1两流 Swin Transformer 主干

3.2空间对齐和通道重新校准模块

一方面,由于多模态图像对中显着对象的位置应该相同,因此需要首先对齐来自不同模态的特征以显示共同的显着位置。 另一方面,由于 RGB 图像表现出更多的外观和纹理信息,而深度图像表现出更多的空间线索,不同模态的特征在特征通道的重要性上是不同的,多模态特征需要重新校准以 强调各自的突出内容。 因此,提出了空间对齐和通道重新校准模块。 它首先在空间部分对齐两个模态,然后重新校准各自的通道部分,以更加关注每个模态中的显着内容。

首先计算公共空间注意力

然后,将公共空间注意图作为颜色特征和深度特征的权重,通过以下方式实现两种模式的空间对齐:

第三,空间部分 中对齐的特征分别执行通道注意,以生成通道注意图,该图通过以下方式在每种模态中更显著的内容上显示更多权重

最后,将每个通道注意力图与原始特征相乘以实现通道重新校准

在空间对齐和通道重新校准模块之后,增强的特征 实现了位置对齐和通道重新校准,表现出更强的表示能力。

3.3边缘感知模块

高层特征有更多的语义信息,浅层特征有更多的细节,深度图像有更突出的边缘,所以,深度浅层特征用来产生边缘特征。

具体来说,进行 1×1 卷积运算和上采样运算,生成三个大​​小相同的特征,然后将它们连接起来生成边缘特征。

接下来,对获得的边缘特征进行通道注意和残差连接,通过以下方式生成更清晰的边缘信息:

BConv(·)代表3×3卷积、批归一化层和ReLU激活

边缘感知模块输出边缘特征,这些特征将用于指导模型的解码过程并增强细节

3.4边缘引导解码器

空间对齐和通道重新校准边缘特征提取之后,解码器将不同模态的增强层次特征边缘特征相结合,产生边缘引导的显着特征

接下来,根据 U-Net 框架[72]中广泛使用的解码思想,通过以下方式将高级融合特征逐步聚合为浅层融合特征

最后,边缘感知模块的边缘特征与融合特征相结合,生成边缘引导的显着特征 Fs。

SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient object detection相关推荐

  1. 【arXiv2022】GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection

    paper:https://arxiv.org/abs/2203.10785 目录 一 动机 二 方法 三 网络框架 3.1 模态纯化模块(MPM) 3.2 尺度统一模块 (SUM) 3.3 多 Tr ...

  2. 文献阅读20期:Transformer Transforms Salient Object Detection and Camouflaged Object Detection

    [ 文献阅读 ] Transformer Transforms Salient Object Detection and Camouflaged Object Detection [1] 表现SOTA ...

  3. EGNet: Edge Guidance Network for Salient Object Detection 论文及代码解读

    EGNet: Edge Guidance Network for Salient Object Detection 论文及代码解读 注:本文原创作者为Jia-Xing Zhao, Jiang-Jian ...

  4. [论文阅读] Transformer Transforms Salient Object Detection and Camouflaged Object Detection

    论文地址:https://arxiv.org/abs/2104.10127 代码:https://github.com/fupiao1998/TrasformerSOD 发表于:Arxiv 2021. ...

  5. EGNet: Edge Guidance Network for Salient Object Detection

    论文主要解决的问题: 全卷积神经网络(FCNs)在突出的目标检测任务中显示出了其优势.然而,大多数现有的基于fcns的方法仍然存在粗糙的对象边界.与基于区域的方法相比,像素级显著目标检测方法具有优势. ...

  6. [论文阅读] Unifying Global-Local Representations in Salient Object Detection with Transformer

    论文地址:https://arxiv.org/abs/2108.02759 代码:https://github.com/OliverRensu/GLSTR 发表于:Arxiv 2021.08 Abst ...

  7. 《预训练周刊》第29期:Swin Transformer V2:扩大容量和分辨率、SimMIM:用于遮蔽图像建模的简单框架...

    No.29 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了10篇预训练相关的论文,涉及图像处理.图像屏蔽编码.推荐系统.语言模型解释.多模态表征.多语言建模.推 ...

  8. 霸榜各大CV任务榜单,Swin Transformer横空出世!

    1. ImageNet-1K的图像分类 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 一元@炼丹笔记 ...

  9. 论文阅读 - Video Swin Transformer

    文章目录 1 概述 2 模型介绍 2.1 整体架构 2.1.1 backbone 2.1.2 head 2.2 模块详述 2.2.1 Patch Partition 2.2.2 3D Patch Me ...

最新文章

  1. 爆气球这道题目,展开了新的思路
  2. 计算机原理 英文版,计算机原理介绍英文版.doc
  3. php 处理html,PHP解析HTML代码
  4. 安装SQL SERVER 2000时提示:以前的某个程序安装已在安装计算机上创建挂起的文件操作。...
  5. rabbitmq 延迟队列_Delayed Message 插件实现 RabbitMQ 延迟队列
  6. 启动linux_使用 UEFI 双启动 Windows 和 Linux | Linux 中国
  7. python知识笔记_[Python笔记]第一篇:基础知识
  8. redis aof 备份和恢复_深入理解Redis持久化
  9. 全国计算机一级考试宝典,计算机一级考试宝典
  10. zookeeper基本安装文档
  11. 调查了23款加速器,只剩这几款可以白嫖了!
  12. wps带阴影的边框怎么设置_wps文字加阴影边框怎么设置
  13. 是什么导致了脸上的痤疮呢?
  14. 用matlab做胶片滤镜,photoshop图像滤镜——浮雕算法(含matlab与C代码).pdf
  15. 360极速浏览器、360浏览器如何清除缓存、清除历史记录、清除cookies
  16. iOS(iPhone,iPad))开发(Obje…
  17. matlab 双y轴画图
  18. 学籍管理系统制作教程第一天
  19. 米兰大学计算机科学,米兰大学
  20. mac 修改idea 占用内容_Mac上如何调整PhpStorm和IntelliJ IDEA的占用内存大小

热门文章

  1. VIVADO时序约束之Input Delay(set_input_delay)
  2. iOS-推送自定义提示音
  3. 光电耦合器型号(FOD3120,TLP350,TLP250)介绍应用实例精讲
  4. ICPC Latin American Regional – 2017 B题(模拟+思维)
  5. jieba分词自定义dict字典
  6. 笔记本usb转vga外连显示器问题解决记录
  7. 一加手机怎么root权限_一加五,怎么获取ROOT权限
  8. arduino智能风扇
  9. FQ队列对quantum的处理
  10. java 动物声音 模拟器