先贴一个算法整体框架图:


Abstract

问题背景:Transformer架构得益于其有效的注意力机制已经在目标跟踪领域展示了巨大的优势。

提出问题:现有的Transformer追踪器都采用了在拉展的图像特征上进行的逐像素注意力策略,不可避免地忽略了目标的完整性。

本文做法:提出一个带有多尺度循环移位窗口注意力的Transformer架构 CSWinTT,将注意力机制从像素级别提升至窗口级别。

本文优势交叉窗口多尺度注意力(cross-window multi-scale attention)有助于集成不同尺度的注意力并为跟踪目标生成最好的细粒度匹配。进一步,循环移位策略(the cyclic shifting strategy)通过带有位置信息的窗口采样提升跟踪精度,同时通过移除冗余的计算提升跟踪效率。

实验结果:在VOT2020, UAV123, LaSOT, TrackingNet, GOT-10k数据集上的实验结果验证了本文算法的性能。

1. Introduction

跟踪背景:视觉目标跟踪VOT是计算机视觉领域中的基础问题之一,其在视频监控、自动驾驶汽车、 人机交互等领域均有着广泛地应用,其旨在估计每个视频帧中目标的位置,常由包含目标的边界框表示。

提出问题:大部分流行的跟踪器采用Siamese网络结构,通过计算模板和搜索区域的相似性来指导跟踪任务。Siamese网络中采用的互相关操作用于度量相似性,但由于其为单阶段线性计算过程易于丢失语义信息。通过使用注意力机制学习全局上下文可缓解该问题。最近,因为 Transformer 具有强大的交叉注意机制来进行patches之间的推理,其在图像识别,目标检测,语义分割等任务都实现了SOTA。特别地,transformer trackers通过引入注意力机制在混合目标特征上展示了巨大的优势。然而,这些transformer trackers仅在模板和搜索区域间flattened特征上以像素级别求取注意力,每个像素(a flatteded feature/Query)以无序的方法匹配所有像素(another flattened feature/Key)。逐像素的注意力毁坏了目标的完整性,并损失了像素间相对位置的信息。

2. Related Work

Visual object trakcing

现存的目标跟踪算法可被粗略地分为2类:(1)相关滤波CF方法,探索卷积理论并在傅里叶域通过在目标附近循环移位patches来训练一个滤波器用于区分背景和目标;(2)深度学习方法,常用一个卷积骨干网络提取特征并用过分类head定位目标。

近期,跟踪算法常用Siamese网络架构,其包含2个分支:一个用于模板一个用于搜索区域,他们的相似性用互相关操作来衡量。然而,该策略无法有效提取模板和搜索区域间的语义相似性。

Visual transformer

Transformer的背景:Vaswani等人首次提出Transformer架构用于处理NLP中的长时依赖。Transformer中的基本结构是注意力模块,其将一个序列作为输入并衡量序列中不同部分的相关性。Transformer不仅包含单个输入的自注意力也计算不同输入间的互注意力。ViT先将transformer引入图像识别领域,自此,transformer广泛地应用在图像分类,目标检测,语义分割,目标跟踪等领域。

本文和Swin Transformer差异:Swin Transformer提出了一个带有移位窗口的层级结构,并在COCO目标检测和ADE20K语义分割数据集上实现了SOTA。本文和Swin Transformer的三大差异:

Swin Transformer 本文
(1)注意力应用的地方不同 划分图像为各个窗口,然后计算每个窗口内部的像素注意力。 在特征图上做窗口划分,计算每个窗口间的注意力,这里将每个窗口看作一个整体。
(2)多尺度策略不同 在每个层用同样的窗口尺寸,并在更深的层合并窗口以形成更大的窗口。 以不同的窗口尺寸作为heads用于多尺度匹配。
(3)窗口移位的应用不同

在整个特征图上移位,以交换信息并提供不同窗口的连接性。

每个窗口只移位一次。

以不可交换的方式在每个窗口中应用独立的循环移位。

每个窗口根据其尺寸移位多次。

基于Transformer的跟踪算法:TrDiMP, TransT, STARK

3. Method

CSWinTT分为3大部分,其整体流程图如下图所示:

接下俩就上图中的细节进行一一解释。

3.1 Multi-Scale Cyclic Shifting Window Attention

multi-scale window partition:

多尺度窗口划分的流程如下图所示:

multi-head attention:

常见多头注意力机制公式,这里不具体介绍。

cyclic shifting strategy: 见下图

3.2 Efficient Computation

Spatially regularized attention mask:见下图

Computational optimization:

动机:循环移位操作极大地增加了计算代价,为了提升计算效率,提出了3种优化策略:

  1. 去除query的循环移位;
  2. 减半重复的移位周期;
  3. 采用矩阵平移的编程优化

3.3 Tracking with Window Transformer

具体操作:

多头注意力的head个数 8
对应的窗口大小对应的窗口大小 [1,2,4,8,1,2,4,8]
模板个数 实际采用了2个模板。一个固定为初始帧的模板,另一个由STARK的score head确定的不断更新的模板。
训练损失 5*l1+2*giou

4. Experiments

4.1 Implementation Details

训练数据集 LaSOT, GOT-10k, TrackingNet
数据增强 brightness jitter, horizontal flip等
图像大小 模板:128*128; 搜索区域:384*384
参数初始化 ResNet50在ImageNet上预训练,其他参数用Xavier初始化
训练参数 AdamW优化器,初始lr=1e-5 for backbone, lr=1e-4 for 其他参数,600 epochs,每个epoches用了4*10^4张图像,mini-batch size为64
硬件 2个Nvidia Tesla T4 GPUs
在线跟踪速度 12 FPS on a single GPU

4.2 State-of-the-art Comparison

对比算法包括:UAV123, LaSOT, TrackingNet, GOT-10k, VOT2020

4.3 Ablation Study

Effects of different components in our method.

Different window sizes for our transformer.

Computation optimization and speed analysis.

4.4 Qualitative Analysis

[VOT14](2022CVPR)CSWinTT: Transformer Tracking with Cyclic Shifting Window Attention相关推荐

  1. Transformer Tracking

    Transformer Tracking (一 原文阅读) 来源:CVPR2021 https://arxiv.org/abs/2103.15436 Code:https://github.com/c ...

  2. CVPR2021跟踪算法TransT的配置(Transformer Tracking)

    1.论文下载地址 TransT: Transformer Tracking.[paper] 2.代码下载地址 https://github.com/chenxin-dlut/TransT 3.建立虚拟 ...

  3. [VOT16](2021CVPR)SwinTrack: A Simple and Strong Baseline for Transformer Tracking

    先贴一个整体流程图: Abstract 跟踪背景:Transformer近期在提升视觉跟踪算法中展示了明显的潜力.然而,现存的基于transformer的跟踪器大部分来说使用Transformer来混 ...

  4. 显著性目标检测之Shifting More Attention to Video Salient Object Detection

    Shifting More Attention to Video Salient Object Detection 文章目录 Shifting More Attention to Video Sali ...

  5. Shifting More Attention to Video Salient Object Detection (CVPR 2019)

    Shifting More Attention to Video Salient Object Detection 现实生活中缺少一个完善的高质量标注的视频显著性目标检测(video salient ...

  6. SwinTrack: A Simple and Strong Baseline for Transformer Tracking(NIPS2022)

    SwinTrack 摘要 介绍 相关工作 方法 实验 摘要 近期,Transformer在视觉跟踪方面进行了深入探索,并展示了显著的潜力.然而,现有的基于Transformer的跟踪器主要将Trans ...

  7. Transformer不比CNN强!Local Attention和动态Depth-wise卷积的前世今生

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨Qi Han@知乎(已授权) 来源丨https://zhuan ...

  8. ICLR 2022 | Transformer不比CNN强!Local Attention和动态Depth-wise卷积

    ©作者 | Qer 单位 | 南开大学 研究方向 | 计算机视觉 Transformer 的文章近两年来可谓是井喷式爆发,大量工作来设计各种任务上的 transformer 模型,然而,attenti ...

  9. GAU : Transformer Quality in Linear Time(new attention+)

    Transformer Quality in Linear Time 本文提出一种新型高效(速度,内存,效果)的注意力方法,依然具有N^2的复杂度(N:同一个 attention 中词向量的个数).对 ...

最新文章

  1. 优化tableView性能(针对滑动时出现卡的现象)
  2. Java高新技术笔记:反射、多线程、泛型、枚举、javaBean、代理
  3. 【阿里妈妈数据科学系列】第五篇:实验指标设定方法与指标体系构建
  4. python进行数据查询_如何进行python数据库查询?(实例解析)
  5. 工作212:不能改变父组件值
  6. CodeIgniter辅助函数
  7. 查找CSDN误删除博客方法
  8. 电脑表格日期怎么修改原有日期_一些让你惊呆的电脑办公小技能
  9. win8系统装c语言编程软件哪个好,win8系统安装c语言方法
  10. 解决YUM下Loaded plugins: fastestmirror Determining fastest mirrors 的错误问题
  11. 使用ArcMap将txt数据转换成shp数据
  12. 银行卡号的编码规则及校验
  13. 全新卡盟系统PHP版 集成易支付_PHP全新授权系统支持盗版入库卡密授权
  14. aide, libgdx写一个爱心小游戏
  15. 达梦8基础对象操作管理
  16. vue 抽离公共方法
  17. 朱清时——物理学步入禅境:缘起性空-(技术工作者上升到哲学思维)
  18. VCS+Verdi 安装及破解过程(Ubuntu)【1】
  19. The LeVoice Far-field Speech Recognition System for VOiCES from a Distance Challenge 2019
  20. 装配一台计算机有哪些安全注意事项,挤出机注意事项

热门文章

  1. uni-app +vue+微信小程序 发布线上
  2. 计算机类sci期刊影响因子排名,【科研】全球最新SCI期刊影响因子排名:第一名187.040!...
  3. nginx学习笔记七(nginx HTTP框架的执行流程)
  4. maya linux 安装教程视频,教你怎样在 Archlinux 安装Maya7.01
  5. CSR蓝牙开发调试经验
  6. 小学计算机绘图体会,辅导小学生电脑绘画的几点做法
  7. 什么是同城商超配送系统
  8. 嵌入式编程 while(1)的妙用!
  9. VC++通过查看ReactOS开源代码,解决完整路径dll加载失败问题(附源码)
  10. 操作系统硬件介绍-处理器(CPU)