Abstract

现存问题：现有的跟踪框架还远远没有利用好连续帧间的时域上下文关系。

本文做法：提出TCTrack框架来充分探索空中跟踪的时域上下文。其中，时域上下文关系分为2个阶段融入跟踪器中：特征提取阶段和相似图的细化阶段。具体地，1）特征提取阶段：提出了一个在线时序自适应卷积用时序信息来增强空间特征，这一过程根据之前帧来动态校准卷积权重实现。2）相似图的细化阶段：提出一个自适应时序Transformer，它先以高效记忆的方式有效编码时域知识，然后这个时域知识被解码用于精准地调整相似图。

效果：在4个空中追踪数据集上展示出了强劲的竞争性能，并在real-world UAV上用NVIDIA Jetson AGX Xavier实现了27FPS的速度。

1. Introduction

无人机的跟踪背景介绍：由于无人机的优越动力，基于跟踪的应用正在迅速发展，如移动目标分析，地理调查，视觉定位等。然而，空中跟踪面临着2大难点：1）空中不可避免地会引入一些特别的挑战，如移动模糊，相机移动，遮挡等；2）空中平台的有限功率限制了计算资源，阻碍了最先进方法的部署。因此，一个理想的空中追踪器应该是鲁棒且高效的。

DCF和孪生网络方法的简介：大部分跟踪器都采取了标准的追踪检测框架并独立地为每帧进行检测。在这些追踪器中，判别相关滤波（DCF）方法由于其高效性和源于傅里叶域的低资源需求已经广泛地应用于空中平台。然而，这些跟踪器在快速移动，严重形变场景下仍然面临着巨大的挑战。近期，基于孪生网络的方法大量涌现，其展现了精准和鲁棒的跟踪结果，其效率也被提高用于空中平台的实时跟踪实施部署。

发现科学问题：然而，以上这些方法都忽略了时域信息，即连续帧之间的强相关性，所有这些方法很难用于感知目标的移动信息。因此，这些跟踪器很可能在目标严重形变（快速移动和遮挡）时跟踪失败。所以近期很多研究致力于利用视觉跟踪中的时域信息。对DCF来说，响应图沿时间维度的变化受到惩罚，它通过先前的响应图引导当前响应图。对基于孪生网络的方法，时域信息通过动态模板引入，其通过级联/加权和/图网络/transformer/记忆网络等技术在当前帧中嵌入历史目标外观信息。尽管他们在引入时域信息已经有了一定的成功，但大部分方法都仅探索了一个阶段，即目标特征的改进。

本文工作：

本文实验：和51个跟踪器在4个空中追踪数据集上比较。TCTrack在PC上的检测速度是125.6fps，在AGX上27FPS。

2. Related Work

2.1 Tracking by detection

MOSSE filter提出后，许多学者致力于研究跟踪算法，但其特征表达能力差，难以在复杂空中环境下维持跟踪鲁棒性。

孪生网络的方法实现了SOTA。

但这些方法都忽略了追踪场景中的时域上下文信息，限制了性能的提升。

2.2 Temporal-based tracking methods

动态模板：transformer集成，模板记忆更新，图网络，加权和，显式模板更新等。

这些方法以单层次的方式引入时域信息，在跟踪任务上性能提升有限。而本文从两个层次引入时域信息。

2.3 Temporal modelling in videos

自监督方法通过求解各种前置任务（如稠密未来预测，拼图解谜，伪运动分类等）学习时域信息；

监督视频理解探索不同帧间的各种链接，如3D卷积，时域卷积，时域飘移等。

3. Temporal Contexts for Aerial Tracking

下图展示了TCTrack的整体框架图，分为三部分：特征提取(3.1节中介绍)+相似性特征图改善(3.2节中介绍)+分类和回归分支。

3.1 Feature extraction with online TAdaConv

3.2 Similarity Refinement with AT-Trans

3.2.1 Transformer Encoder

3.2.2 Transformer Decoder

3.2.3 Transformer编解码的消融实验

在AT-Trans改善后，相似性特征图明显更关注于目标所在区域。

4. Experiments

4个空中数据集：UAV123, UAVTrack112_L, UAV123@10fps, DTB70
51个对比算法，分为2类：轻量级的(29个)和深度的（超过20个）。

4.1 Implementation Details

训练细节	设置
Backbone	AlexNet
初始化方式	ImageNet预训练的AlexNet和TAdaConv，AT-Trans随机初始化
训练集	VID, LaSOT, GOT-10k
训练参数	100epochs, 2个TITAN RTX GPUs，前10个epoch，Backbone参数冻结，lr以指数下降从0.005-0.0005，SGD优化器，momentum=0.9, batch size=124对
图像大小	模板：127x127；搜索区域：287x287
其他	TAdaConv替代AlexNet的最后2个卷积层

下图展示了不同Backbone推理时间和参数量的对比。

4.2 Comparison with Light-Weight Trackers

数据集	介绍	对比结果
UAV123	124个序列，超过112K帧	比HiFt, SiamRPN++在AUC上胜出3%和4.3%
DTB70	70个剧烈运动场景	排名第1，提升了5%的AUC
UAV123@10fps	运动和变化更加突然和剧烈	超过了第二好的算法
UAVTrack112_L	当前最大的长时空中跟踪数据集，超过60k帧	precision (0.786) and success rate (0.582)

具体的实验结果图如下：

4.3 Ablation Study

4.4 Comparison with Deep Trackers

5. Real-world Tests

[VOT10](2022CVPR)TCTrack: Temporal Contexts for Aerial Tracking相关推荐

目标跟踪算法综述：Correlation Filter for UAV-Based Aerial Tracking: A Review and Experimental Evaluation
标题:相关过滤无人机空中跟踪技术综述与实验评估作者:Changhong Fu, Geng Lu 链接:Correlation Filter for UAV-Based Aerial Tracking ...
HiFT: Hierarchical Feature Transformer for Aerial Tracking分层特征Transformer的无人机跟踪
Abstract 大多数现有的基于孪生的跟踪方法基于相似度的方法,执行目标对象的分类和回归.然而,它们要么使用来自最后一个卷积层的单个特征图,这会降低复杂场景中的定位精度,要么单独使用多个特征图进行决 ...
多目标跟踪综述、论文、数据集大汇总 Awesome Multiple object Tracking
Awesome Multiple object Tracking(持续更新) 综述论文 2022 2021 2020 2019 2018 2017 2016 数据集综述 Multiple Obje ...
CVPR 2022 论文列表（持续更新）
本文包括论文链接及代码关注公众号:AI基地,及时获取最新资讯,学习资料 GitHub链接:GitHub - gbstack/cvpr-2022-papers: CVPR 2022 papers wi ...
CVPR 2022 论文列表
CVPR2022 Papers (Papers/Codes/Demos) https://github.com/gbstack/cvpr-2022-papers 分类目录: 1. 检测 2. 分割(S ...
CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...
超分论文笔记2020CVPR视频超分：Zooming Slow-Mo- VSR with Temporal Group Attention-TDAN
Space-Time Video Super-Resolution (STVSR) 问题定义: 从一个低像素低帧率恢复出高帧率高分辨率的视频. 1.Zooming Slow-Mo: Fast and ...
ICCV 2021 最新200篇ICCV2021论文分方向汇总
ICCV 2021 结果出炉!最新200篇ICCV2021论文分方向汇总(更新中) - 知乎不久前,计算机视觉三大顶会之一ICCV2021接收结果已经公布,本次ICCV共计 6236 篇有效提交论文 ...
计算机视觉论文-2021-08-02
本专栏是计算机视觉方向论文收集积累,时间:2021年8月2日,来源:paper digest 欢迎关注原创公众号 [计算机视觉联盟],回复 [西瓜书手推笔记] 可获取我的机器学习纯手推笔记! 直达笔记 ...

[VOT10](2022CVPR)TCTrack: Temporal Contexts for Aerial Tracking