STMTrack: Template-free Visual Tracking with Space-time Memory Networks（STMTrack: 基于时空记忆网络的无模板视觉跟踪）

摘要

目前离线训练的暹罗跟踪器的性能提高越来越困难，因为从第一帧裁剪下来的模板的固定信息已经几乎被完全挖掘，但是它们抵抗目标外观变化的能力很差。现有的具有模板更新机制的跟踪器依赖于耗时的数值优化和复杂的手工设计策略来实现竞争性能，阻碍了它们的实时跟踪和实际应用。本文提出了一种基于时空记忆网络的新型跟踪框架，该框架能够充分利用目标的历史信息，更好地适应跟踪过程中的外观变化。提出了一种新的存储机制，该机制存储目标的历史信息，引导跟踪器关注当前帧中信息量最大的区域。此外，记忆网络的像素级相似度计算使我们的跟踪器能够生成更准确的目标边界框。广泛的实验和比较许多有竞争力的跟踪器在挑战大规模基准，OTB-2015，TrackingNet，GOT-10k，LaSOT，UAV123，和 VOT2018，表明，没有花哨，我们的跟踪器优于所有先进的实时方法，同时运行在37 FPS。代码可在 https:// github.com/fzh0917/stmtrack 下载。

1.引言

2.相关工作

2.1 Siamese跟踪器

2.2模板更新

2.3内存网络

3.提出方法

在本节中，我们将详细描述所提出的跟踪框架。首先，我们将在第3.1节中介绍框架的概述。然后，我们将对整个框架的各个模块从3.2节到3.4节逐一进行说明。最后，我们将在3.5节介绍该框架的在线跟踪过程。

3.1 结构

如图2所示，该框架可分为三个部分: 特征提取网络、时空记忆网络和头部网络。特征提取网络由记忆分支(浅绿色)和查询分支(浅蓝色)组成。内存分支将内存帧和相应的前景-背景标签映射(将在下一节中解释)作为输入，而查询分支的输入只有一个查询帧。在这项工作中，存储帧是多个历史帧，查询帧是跟踪序列中的当前帧。特征提取后，时空记忆网络从所有记忆帧的特征中提取与目标相关的信息，生成合成特征映射，从背景中对目标进行分类，预测查询帧的目标边界框。

3.2 特征提取网络

本文分别描述了内存分支和查询分支的特征提取过程。

内存特征提取。记忆分支的输入是 T 记忆帧 m (每帧为 mi)和 T 前景-背景标签映射 c (每个标签映射为 ci) ，其中 c 是为了确保记忆主干 $\varphi ^{m}$ 学习真实目标特征的一致性，而不是干扰和混乱的背景信息。具体来说，对于每个存储帧mi我们在相应的地面真值边界框内用1标记每个像素，在其他地方用0标记。然后采用 $\varphi ^{m}$ 的第一卷积层 (表示为 $\varphi _{0}^{m}$ )和额外的卷积层 g 分别将 m 和 c 映射到相同的嵌入空间。然后，我们添加 $\varphi _0^{m}(m)$ 和 g (c)元素，然后将和输入到 $\varphi ^{m}$ 的后面几层，生成 T 内存特征映射(表示为 $f^{m}$ ，每个内存特征映射是 $f_{i}^{m}$ )。然后通过一个非线性卷积层(表示为 hm)将 fm 的特征维数降低到512:

其中 f∈RC × H × W， $\varphi _{\gamma }^{m}$ 表示 $\varphi ^{m}$ 除第一层外的所有层，而 $\bigoplus$ 是元素相加。

查询特征提取。与内存分支不同，查询分支以查询帧 q 作为输入并产生一个特征映射 $\varphi ^{q}(q)$ 。类似于记忆分支, $\varphi ^{q}(q)$ 的特征维数也通过一个非线性卷积层(表示为 hq)降低到512:

其中 fq∈为 RC × H × W。

注意，两个主干 $\varphi ^{m}$ 和 $\varphi ^{q}$ 共享相同的网络体系结构，但参数不同。关于是否共享一个骨干的烧蚀研究可见于第4.3节。

3.3 时空记忆网络

如图3所示，我们首先计算 fm 的每个像素和 fq 的每个像素之间的相似性，得到一个相似矩阵 w∈RTHW × HW。受到[51]的启发，我们希望相似度计算能够应用高斯函数。因此，我们用一个softmax函数来标准化 w，以一个元素 wij 为例，我们可以正式表示为:

其中 i 是 $f^{m}\epsilon R^{THW\times C}$ 上每个像素的索引，j是 $f^{q}\epsilon R^{C\times HW}$ 是上每个像素的索引，二进制算子 $\bigodot$ 表示向量点乘。下面是防止 exp 函数数值溢出的比例因子。在[45]之后，我们将 s 设置为 $\sqrt{C}$ ，其中 C 是 fm 的特征维数。

然后，将 w 作为一个软权重映射，将 fm 乘以 w，由于 fm 存储与目标相关的所有历史记忆信息，因此根据查询帧本身的需要，自适应地检索 fm 中存储的目标信息。显然，读出信息是一个与 fq 大小相同的特征映射。因此，我们将读出信息和查询特征映射 fq 沿着通道维连接起来，生成最终的综合特征映射 y。形式上，对于 y 的第 i 个元素，时空内存读操作可以表示为:

其中(fm) T∈RC × THW 是 fm 的转置，concat (· ; ·)函数表示级联运算。

乍一看，内存读操作的工作机制类似于非局部自我注意[51]。在视觉跟踪中部署非局部自我注意力[51]的一个代表性例子是 AlphaRefine [57] ，VOT-RT2020实时跟踪挑战的获胜者[19] ,使用非局部块来增强由像素相关性生成的响应图，因为更远距离的依赖关系可以产生更精确的目标边界决策信息。与此不同的是，我们提出的空时记忆阅读器的设计目的是通过相似矩阵作为软权重从多个记忆帧中提取目标信息，而不是计算特征映射中每个像素对的非局部自注意。

特别地，与视频对象分割中的 STMVOS [34]和 GraghMemVOS [37]不同，我们的方法不将由 $\varphi ^{m}$ 和 $\varphi ^{q}$ 提取的特征划分为键和值，而是直接使用 fm 和 fq 来定位目标。其动机是，当目标在查询框架中遭受部分遮挡时，fm 本身恰好提供了足够的目标信息来找到暴露的目标部分。这种差异使得空时记忆网络更适合于单目标跟踪任务。

3.4 头网络

灵感来自于单级无锚探测器比单级锚基探测器性能更好，参数更少的现象[27]在目标检测中,我们设计了一个包含分类分支的无锚头网络从背景中进行目标分类以及一个无锚回归分支，直接估计目标边界盒。

具体来说，首先，我们使用一个轻量级分类卷积网络对 y 进行编码 $w^{cls}$ 集成 fq 和从 fm 检索到的信息，以适应分类任务。然后，采用1 × 1核的线性卷积层来降低输出的维数！产生最终的分类x响应图 Rcls∈R1 × H × W。

此外，我们观察到目标边界附近的正样本倾向于预测低质量的目标边界盒。因此，在Cls之后生成中心性响应图 Rctr∈R1 × H × W，如图2右部所示。在推理过程中，Rcls 乘以 Rctr 来抑制远离目标中心的像素的分类置信度分数。

在回归分支中，我们将 y 传递给另一个轻量级回归卷积网络！然后将输出特征的维数降低到4，生成用于目标边界盒估计的回归响应图 Rreg 2 R4 × H × W。

我们建议读者参考[56]以获得关于 Rcls、 Rctr 和 Rreg 的编码和培训目标的更多细节。

3.5 推理阶段

我们的时空记忆网络是灵活的，因此在推理过程中使用的记忆帧的数量(即记忆大小)与训练过程中的记忆帧的数量无关(见第4.3节，不同数量的记忆帧在两个阶段对性能的影响)。在这项工作中，对于当前帧 Ft，我们从所有的历史帧(即帧 F1到帧 Ft-1)中选择 N 个存储帧作为存储帧，以获得丰富的外观信息和较强的泛化能力。从现有文献[46,37]、经验和直觉来看，第一个框架和前一个框架的目标信息对目前框架中的目标定位起着重要作用。具体地说，来自第一帧的目标提供最可靠的信息，而来自前一帧的被跟踪目标具有与当前帧中的目标最相似的外观。因此，对于当前帧 Ft，存储帧保存第一帧 F1，前一帧 Ft-1和其他 N-2帧 Fτ1; Fτ2; ... ; Fτ (N-2)采样遵循以下方法: 将所有历史帧分割成 N-2段，并从每个段中选择一个代表性帧，以便在目标域适应，不适应和时间成本之间达到最佳平衡。形式上，抽样方法可描述为:

这里 $i\epsilon{1,2,...,N-2}$ , $\bigtriangleup _{i}\epsilon [0,1)$ 是第 i 段代表帧的偏移量。对于第一个 N 帧，我们将所有历史帧(即 F1; F2; ... ; FN-1)设置为内存帧。在我们的实验中，N 被设置为6，并且我们简单地将 $\bigtriangleup _{i}=\frac{1}{2}$ 1≤ i ≤ N-2。

对于整个跟踪过程中的每一帧，在获得 Rcls、 Rctr 和 Rreg 之后，后处理与[56]相同。

4.实验

我们的跟踪器是使用 PyTorch 框架在 Python 中实现的，该框架在 NVIDIA Tesla V100 GPU 上以37FPS 运行。我们根据基准来评估我们的跟踪器: OTB2015[53] ，TrackingNet [36] ，GOT-10k [17] ，LaSOT [13] ，UAV123[35]和 VOT2018[20]。

4.1 训练数据集

4.2 实施细节

4.3 消融实验

4.4 实验比较

5.结论

提出了一种新的基于时空记忆网络的跟踪框架。该框架摒弃了传统的基于模板的跟踪机制，使用多个内存帧和前后台标签映射来定位查询帧中的目标。在空时记忆网络中，通过查询帧自适应地检索存储在多个记忆帧中的目标信息，使跟踪器对目标变化具有较强的自适应能力。广泛的实验表明，没有花哨，提出的跟踪器实现了更好的性能比目前的最先进的实时方法，而运行在37 FPS。实验还表明了该方法的通用性、可扩展性和适用性。

STMTrack: Template-free Visual Tracking with Space-time Memory Networks（STMTrack: 基于时空记忆网络的无模板视觉跟踪）相关推荐

Visual Haze Removal by a Unified GenerativeAdversarial Network(基于生成式对抗网络的图像去雾IEEE2019）
摘要:本文提出了一种生成式对抗网络来去除视觉雾霾,称为HRGAN.HRGAN由生成网络和鉴别网络组成.一个联合估计传输图.大气光和无雾图像的统一网络(称为UNTA)被提议作为HRGAN的生成器网络.H ...
Siamese目标跟踪：STMTrack: Template-free Visual Tracking with Space-time Memory Networks(CVPR2021)
论文 STMTrack: Template-free Visual Tracking with Space-time Memory Networks 代码 Github/STMTrack 参考文章 S ...
CVPR2021跟踪算法STMTrack的配置（Template-free Visual Tracking with Space-time Memory Networks）
1.论文下载地址 STMTrack: Template-free Visual Tracking with Space-time Memory Networks CVPR (2021). [paper ...
Deep Meta Learning for Real-Time Target-Aware Visual Tracking 论文阅读
这篇文章是韩国的一个组做的,一直没中, 直到19年中了ICCV,据说是第一篇将元学习引入目标跟踪的文章,用的架构是siamese网络的架构,但是在模型在线更新的时候使用了meta-learning的思 ...
Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking
Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking 前言一.Abstract 二.Con ...
单目标追踪——【Transformer】Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking
目录文章侧重网络结构具体的Encoder和Decoder的结构模型的推理过程 Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢. 我计划对CVPR2021的3篇将Transfor ...
论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
earning Multi-Domain Convolutional Neural Networks for Visual Tracking
论文笔记<Learning Multi-Domain Convolutional Neural Networks for Visual Tracking> 0. 摘要基于CNN的一个跟踪 ...
目标跟踪算法五：MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
目标跟踪算法五:MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking 原文:https://zh ...

STMTrack: Template-free Visual Tracking with Space-time Memory Networks（STMTrack: 基于时空记忆网络的无模板视觉跟踪）

STMTrack: Template-free Visual Tracking with Space-time Memory Networks（STMTrack: 基于时空记忆网络的无模板视觉跟踪）相关推荐

最新文章

热门文章