先贴一个算法整体框架图：

Abstract

问题背景：Transformer架构得益于其有效的注意力机制已经在目标跟踪领域展示了巨大的优势。

提出问题：现有的Transformer追踪器都采用了在拉展的图像特征上进行的逐像素注意力策略，不可避免地忽略了目标的完整性。

本文做法：提出一个带有多尺度循环移位窗口注意力的Transformer架构 CSWinTT，将注意力机制从像素级别提升至窗口级别。

本文优势：交叉窗口多尺度注意力(cross-window multi-scale attention)有助于集成不同尺度的注意力并为跟踪目标生成最好的细粒度匹配。进一步，循环移位策略(the cyclic shifting strategy)通过带有位置信息的窗口采样提升跟踪精度，同时通过移除冗余的计算提升跟踪效率。

实验结果：在VOT2020, UAV123, LaSOT, TrackingNet, GOT-10k数据集上的实验结果验证了本文算法的性能。

1. Introduction

跟踪背景：视觉目标跟踪VOT是计算机视觉领域中的基础问题之一，其在视频监控、自动驾驶汽车、人机交互等领域均有着广泛地应用，其旨在估计每个视频帧中目标的位置，常由包含目标的边界框表示。

提出问题：大部分流行的跟踪器采用Siamese网络结构，通过计算模板和搜索区域的相似性来指导跟踪任务。Siamese网络中采用的互相关操作用于度量相似性，但由于其为单阶段线性计算过程易于丢失语义信息。通过使用注意力机制学习全局上下文可缓解该问题。最近，因为 Transformer 具有强大的交叉注意机制来进行patches之间的推理，其在图像识别，目标检测，语义分割等任务都实现了SOTA。特别地，transformer trackers通过引入注意力机制在混合目标特征上展示了巨大的优势。然而，这些transformer trackers仅在模板和搜索区域间flattened特征上以像素级别求取注意力，每个像素(a flatteded feature/Query)以无序的方法匹配所有像素(another flattened feature/Key)。逐像素的注意力毁坏了目标的完整性，并损失了像素间相对位置的信息。

2. Related Work

Visual object trakcing：

现存的目标跟踪算法可被粗略地分为2类：（1）相关滤波CF方法，探索卷积理论并在傅里叶域通过在目标附近循环移位patches来训练一个滤波器用于区分背景和目标；（2）深度学习方法，常用一个卷积骨干网络提取特征并用过分类head定位目标。

近期，跟踪算法常用Siamese网络架构，其包含2个分支：一个用于模板一个用于搜索区域，他们的相似性用互相关操作来衡量。然而，该策略无法有效提取模板和搜索区域间的语义相似性。

Visual transformer：

Transformer的背景：Vaswani等人首次提出Transformer架构用于处理NLP中的长时依赖。Transformer中的基本结构是注意力模块，其将一个序列作为输入并衡量序列中不同部分的相关性。Transformer不仅包含单个输入的自注意力也计算不同输入间的互注意力。ViT先将transformer引入图像识别领域，自此，transformer广泛地应用在图像分类，目标检测，语义分割，目标跟踪等领域。

本文和Swin Transformer差异：Swin Transformer提出了一个带有移位窗口的层级结构，并在COCO目标检测和ADE20K语义分割数据集上实现了SOTA。本文和Swin Transformer的三大差异：

	Swin Transformer	本文
（1）注意力应用的地方不同	划分图像为各个窗口，然后计算每个窗口内部的像素注意力。	在特征图上做窗口划分，计算每个窗口间的注意力，这里将每个窗口看作一个整体。
（2）多尺度策略不同	在每个层用同样的窗口尺寸，并在更深的层合并窗口以形成更大的窗口。	以不同的窗口尺寸作为heads用于多尺度匹配。
（3）窗口移位的应用不同	在整个特征图上移位，以交换信息并提供不同窗口的连接性。每个窗口只移位一次。	以不可交换的方式在每个窗口中应用独立的循环移位。每个窗口根据其尺寸移位多次。

基于Transformer的跟踪算法：TrDiMP, TransT, STARK

3. Method

CSWinTT分为3大部分，其整体流程图如下图所示：

接下俩就上图中的细节进行一一解释。

3.1 Multi-Scale Cyclic Shifting Window Attention

multi-scale window partition:

多尺度窗口划分的流程如下图所示：

multi-head attention:

常见多头注意力机制公式，这里不具体介绍。

cyclic shifting strategy: 见下图

3.2 Efficient Computation

Spatially regularized attention mask:见下图

Computational optimization:

动机：循环移位操作极大地增加了计算代价，为了提升计算效率，提出了3种优化策略：

去除query的循环移位；
减半重复的移位周期；
采用矩阵平移的编程优化

3.3 Tracking with Window Transformer

具体操作：

多头注意力的head个数	8
对应的窗口大小对应的窗口大小	[1,2,4,8,1,2,4,8]
模板个数	实际采用了2个模板。一个固定为初始帧的模板，另一个由STARK的score head确定的不断更新的模板。
训练损失	5l1+2giou

4. Experiments

4.1 Implementation Details

训练数据集	LaSOT, GOT-10k, TrackingNet
数据增强	brightness jitter, horizontal flip等
图像大小	模板：128128; 搜索区域：384384
参数初始化	ResNet50在ImageNet上预训练，其他参数用Xavier初始化
训练参数	AdamW优化器，初始lr=1e-5 for backbone, lr=1e-4 for 其他参数，600 epochs，每个epoches用了4*10^4张图像，mini-batch size为64
硬件	2个Nvidia Tesla T4 GPUs
在线跟踪速度	12 FPS on a single GPU

4.2 State-of-the-art Comparison

对比算法包括：UAV123， LaSOT, TrackingNet, GOT-10k, VOT2020

4.3 Ablation Study

Effects of different components in our method.

Different window sizes for our transformer.

Computation optimization and speed analysis.

4.4 Qualitative Analysis

[VOT14](2022CVPR)CSWinTT: Transformer Tracking with Cyclic Shifting Window Attention相关推荐

Transformer Tracking
Transformer Tracking (一原文阅读) 来源:CVPR2021 https://arxiv.org/abs/2103.15436 Code:https://github.com/c ...
CVPR2021跟踪算法TransT的配置（Transformer Tracking）
1.论文下载地址 TransT: Transformer Tracking.[paper] 2.代码下载地址 https://github.com/chenxin-dlut/TransT 3.建立虚拟 ...
[VOT16](2021CVPR)SwinTrack: A Simple and Strong Baseline for Transformer Tracking
先贴一个整体流程图: Abstract 跟踪背景:Transformer近期在提升视觉跟踪算法中展示了明显的潜力.然而,现存的基于transformer的跟踪器大部分来说使用Transformer来混 ...
显著性目标检测之Shifting More Attention to Video Salient Object Detection
Shifting More Attention to Video Salient Object Detection 文章目录 Shifting More Attention to Video Sali ...
Shifting More Attention to Video Salient Object Detection （CVPR 2019）
Shifting More Attention to Video Salient Object Detection 现实生活中缺少一个完善的高质量标注的视频显著性目标检测(video salient ...
SwinTrack: A Simple and Strong Baseline for Transformer Tracking（NIPS2022）
SwinTrack 摘要介绍相关工作方法实验摘要近期,Transformer在视觉跟踪方面进行了深入探索,并展示了显著的潜力.然而,现有的基于Transformer的跟踪器主要将Trans ...
Transformer不比CNN强！Local Attention和动态Depth-wise卷积的前世今生
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达作者丨Qi Han@知乎(已授权) 来源丨https://zhuan ...
ICLR 2022 | Transformer不比CNN强！Local Attention和动态Depth-wise卷积
©作者 | Qer 单位 | 南开大学研究方向 | 计算机视觉 Transformer 的文章近两年来可谓是井喷式爆发,大量工作来设计各种任务上的 transformer 模型,然而,attenti ...
GAU : Transformer Quality in Linear Time(new attention+)
Transformer Quality in Linear Time 本文提出一种新型高效(速度,内存,效果)的注意力方法,依然具有N^2的复杂度(N:同一个 attention 中词向量的个数).对 ...

[VOT14](2022CVPR)CSWinTT: Transformer Tracking with Cyclic Shifting Window Attention