文章目录

论文阅读总结
Translation
- Abstract
- 1 Introduction
- 2 Related work
- 3 Updating the object template
- - 3.1 Standard update
  - 3.2 Learning to update
  - 3.3 Tracking framework with UpdateNet
  - 3.4 Training UpdateNet
- 4 Experiment
- - 4.1 Training dataset
  - 4.2 Evaluation datasets and protocols
  - 4.3 Implementation details
  - 4.4 Ablation study
  - 4.5 Analysis on representation update
  - 4.6 Generality and tracking speed
  - 4.7 Fine-tuning the linear update rate
  - 4.8 Comparison with other updating strategies
  - 4.9 LaSOT dataset
  - 4.10 TrackingNet dataset
- 5 Conclusions

论文阅读总结

Summary
为了解决孪生网络的模板更新问题，论文提出了一个称为UpdateNet的更新组件，它可以非常方便的嵌入孪生追踪器中，实现对模板的自适应更新。UpdateNet以初始帧模板、先前的累积模板和当前帧模板为网络的输入，通过跳跃连接将初始帧模板连到UpdateNet的输出以实现残差学习，最终输出对下一帧模板的预测。
总结起来，论文的主要contributions有：
- 提出了自适应模板更新网络UpdateNet，能够融合初始帧模板、先前的累积模板和当前帧模板，实现对下一帧最优模板的预测。
- 在四个标准追踪基准上的实验表明，UpdateNet是通用的，可以嵌入所有的孪生追踪器中，并且能够有效地进行模板更新，提升追踪性能。
- 论文对线性更新速率进行了分析，提供了一种分析模板变化的方法；并且，论文对模板更新进行了可视化分析，研究了UpdateNet起作用的原因。
Research Objective
自适应地对孪生追踪方法使用的模板进行更新，即学习这一如何进行模板更新。
Problem Statement
一般的孪生追踪方法使用初始帧计算目标模板，在后续帧中进行追踪。在这个过程中，初始帧模板或者保持不变，或者使用简单的线性更新。但是视频中目标的外观变化很大时，初始帧模板保持固定或者仅使用线性更新不足以满足模板更新的需要。主要有以下问题：
- 线性更新率在视频间是恒定的，这不能满足视频间的变化；
- 线性更新率在通道给也是恒定的，这不能满足在部分遮挡等情况的更新需求
- 线性更新不能再访问初始帧模板，而初始帧模板是后续处理中唯一准确的信息。
- 线性更新过于简单，不能满足视频目标外观的复杂变化。
Method(s)
为了解决上述模板更新问题，论文提出了一个称为UpdateNet的更新组件，它可以非常方便的嵌入孪生追踪器中，实现对模板的自适应更新。UpdateNet以初始帧模板、先前的累积模板和当前帧模板为网络的输入，通过跳跃连接将初始帧模板连到UpdateNet的输出以实现残差学习，最终输出对下一帧模板的预测。
Evaluation
实验部分比较有借鉴意义的是论文中对模板更新的分析，包括对模板和响应图的可视化（需要重点研究一下这些可视化分析的方法）、对模板更新速率的统计分析。
Conclusion
论文提出的UpdateNet是通用的，能够集成到所有的孪生追踪器。在四个标准基准上的实验表明，相对于标准线性更新，这一方法可以显著地提升性能。
Notes
- 论文链接、项目地址
- Universitat Autonoma de Barcelona, Spain：西班牙巴塞罗那自治大学，它是一所综合性大学，西班牙最优秀的公立大学之一。
- ETH Zurich, Switzerland：瑞士苏黎世联邦理工学院，享誉全球的世界顶尖研究型大学，享有“欧陆第一名校”的美誉，2020年QS世界大学综合排名列世界第6，超过剑桥大学。
- Inceptioni Insititute of Artificial Intelligence（IIAI）, UAE：阿拉伯联合酋长国，起源人工智能研究院，拥有世界领先的强大硬件计算资源。
- Linkoping University, Sweden：林雪平大学，是瑞典乃至北欧理工类专业最好的大学之一。

Translation

Abstract

（一般孪生追踪方法，比如SiamFC、SiamRPN等，它们使用第一帧计算目标模板，然后在当前帧中提取外观模板来解决视觉追踪问题。通常的模板更新策略是由人来精心设计的，比如线性组合等，它们限制了通过学习更新可能获得的潜在增益。本文提出了一种新的模板更新网络UpdateNet，它的输入是初始模板、先前的累积模板和当前帧模板，输出是估计的下一帧的最佳模板。）
孪生方法通过从当前帧中提取外观模板来解决视频追踪问题，这个模板用于在下一帧中定位目标。通常，此模板与前一帧中累积的模板进行线性组合，导致信息随时间呈指数衰减。尽管这种更新方法可以改善追踪结果，但它的简单性限制了通过学习更新可能获得的潜在增益。因此，我们建议用一种学习更新的方法来代替人工设计的更新函数。我们使用一个称为UpdateNet的卷积神经网络，给出初始模板、累积的模板和当前帧的模板，该网络的目的是估计下一帧的最佳模板。UpdateNet非常紧凑简洁，可以轻松集成到现有的孪生追踪器中。我们通过将UpdateNet应用于两个Siamese追踪器：SiamFC和DaSiamRPN来展示该方法的一般性。在VOT2016，VOT2018，LaSOT和TrackingNet数据集上进行的大量实验表明，我们的UpdateNet有效地预测了新的目标模板，优于标准的线性更新。在大规模TrackingNet数据集上，我们的UpdateNet改进了DaSiamRPN的结果，对于success score，绝对值提高了3.9％。代码和模型可从https://github.com/zhanglichao/updatenet获得。

1 Introduction

（当视频中目标外观变化很大时，使用固定的模板可能会导致追踪器过早失效，而对模板的简单线性更新通常不足以应付不断变化的更新需要。针对这一问题，论文提出了UpdateNet，它以初始帧模板、先前帧累积模板和当前帧模板为输入，估计下一帧最佳模板，从而实现模板的有效更新。）
（视觉目标追踪非常基本，并且非常重要。由于频繁的外观变化、遮挡、干扰以及运动模糊和光照变化等，视觉目标追踪非常有挑战。）通用视觉目标追踪是在给定视频目标的初始位置的情况下，预测目标对象在视频每一帧中的位置的任务。追踪是计算机视觉中的基本问题之一，涉及广泛的应用，包括视频理解[34]，监视[12]和机器人技术[29]。由于频繁的外观变化，各种类型的遮挡，干扰物的存在以及诸如运动模糊或照明变化之类的环境因素，视觉目标追踪是一项极富挑战性的任务。
（本文基于的方法是孪生追踪方法构架，因为它们在提供出色的计算效率的同时保证了具有竞争力的准确性。） ;当前，有两种流行的追踪范例：孪生追踪方法[1，27，41，50]和tracking-by-detection的方法[3，7，11，19，32，47，48]。在这项工作中，我们考虑使用孪生追踪器，因为它们在提供出色的计算效率的同时提供了具有竞争力的准确性。这些追器的基本原理是将目标外观模板与测试帧中搜索区域的相应特征表示进行匹配。目标模板和搜索区域的特征是通过在大型数据集上离线训练的深度神经网络计算得到的。这种训练策略已显示出可以为追踪任务提供出色的视觉特征描述[1，50]。
（视频中目标的外观变化很大时，使用固定的模板可能会导致追踪器过早失效。并且目标模板的更新要求是由运动、模糊或背景混乱等外部因素决定的，而对模板的简单地线性更新通常不足以应付不断变化的更新需要。并且线性更新策略无法进行局部更新，这对部分遮挡等情况影响非常严重。过分依赖初始模板可能会遭受严重的漂移问题而无法从追踪失效中恢复。）在原始的孪生追踪器[1]中，目标模板在第一帧中进行初始化，然后在视频的其余部分保持固定。但是，目标的外观变化通常很大，并且无法更新模板可能会导致追踪器过早失效。在这种情况下，使模型适应当前目标的外观非常重要。 为了解决这个问题，最近的孪生追踪器[27、41、50]使用具有固定学习率的移动平均值[36]作为了简单的线性更新策略。这一策略假定视频中所有帧以及不同视频中的外观变化率恒定。实际上，目标模板的更新要求因追踪条件的不同而大不相同，这取决于外部因素（例如运动，模糊或背景混乱）的复杂组合。因此，简单的线性更新通常不足以应付不断变化的更新需求，也不足以概括所有可能遇到的情况。此外，这种简单的线性更新在所有空间维度上也是相同的，这不允许局部区域的更新。这在部分遮挡等情况下尤其严重，在这种部分遮挡的情况下，仅模板的特定部分需要更新。最后，过度依赖初始模板可能会遭受严重的漂移问题以及无法从追踪失效中恢复过来。
（本文提出UpdateNet，它以初始真值模板、所有先前帧的累积模板和当前帧中预测目标位置的特征模板为输入，通过训练学习如何更新模板，估计下一帧的最优模板。它的特点是简洁紧凑，可以与任何孪生追踪器结合使用；并且能够自适应模板更新的细微差别，能处理多种复杂场景。）在本文中，我们提出学习目标模板更新本身。我们学习的更新策略利用目标和图像信息，因此可以适应每种特定情况的变化。在我们的方法中，更新的模板是根据以下为输入的一个函数计算的：（i）初始真值模板；（ii）所有先前帧的累积模板；以及（iii）当前帧中预测目标位置的特征模板。因此，新的累积模板包含目标当前外观的有效历史摘要，因为它会使用最新信息不断更新，同时由于初始目标外观发出的强烈信号而变得健壮。更具体地，上述模板更新函数由一个卷积神经网络UpdateNet来实现。这是一个简洁紧凑型模型，可以与任何孪生追踪器结合使用，以增强其在线更新功能，同时保持其高效率。此外，这一更新策略能够学习有效的模板更新的细微差别和并且具有适应性，足以应付大量的追踪应用情景。
（在SiamFC和SiamRPN上应用UpdateNet，实验表明，UpdateNet能有效地学习如何在在线追踪过程中更新目标模板。）我们通过将UpdateNet与两个最新的Siamese跟踪器（SiamFC [1]和DaSiamRPN [50]）相结合来进行评估。通过在常用的追踪benchmark（例如VOT2018 [22]）上进行的广泛实验，我们演示了UpdateNet如何提供先进的更新功能，进而提高追踪性能（参见Figure 1）。我们还提供了在最新的LaSOT数据集[13]中的结果，因为它包含大量的长期序列，因此更具挑战性。总体而言，我们提出了一个有效的模型来学习如何在在线追踪过程中有效地更新目标模板，并将其应用于不同的现有孪生追踪器。

2 Related work

两类追踪框架：tracking-by-detection based、template matching based。论文主要分析了孪生追踪器在模板更新方面的局限性，并提出了解决方案。
Tracking Frameworks. 大多数现有的跟踪方法要么基于检测的追踪，要么采用模板匹配策略。tracking-by-detection based 目标追踪器将目标定位的任务建模为分类问题，其中通过使用来自目标和背景的图像块的在线学习判别式分类器来获得决策边界。（我理解的就是通过对图像块进行分类获得目标边界）在tracking-by-detection based 方法中，基于判别相关滤波器的追踪器[19、48、11、7]最近在几个tracking benchmarks[42、43、24、22]上显示了出色的性能。这些追踪器从目标外观的模板块中学习相关过滤器，以区分目标外观和背景外观。
另一个主要的追框架是基于模板匹配，通常使用孪生网络[1、40、41、18、27、50]，该网络通过空间互相关实现相似度网络。Bertinetto等人 [1]提出了一种基于two-stream架构的孪生追踪器。一个流根据包含待追踪目标的示例图像提取目标模板的特征。另一只流接收包含目标的大搜索区域图像作为输入。两个输出进行互相关运算以生成搜索区域的响应图。许多追踪器已经扩展了SiamFC架构[40、16、41、27、50、49]进行追踪。基于Siamese的追踪器由于在计算速度和追踪性能之间提供了良好的折衷，因此受到欢迎。但是，由于没有在线学习，这些方法大多数都难以对目标进行有效分类，尤其是在存在干扰因素的情况下。在这项工作中，我们分析了孪生追踪器在模板更新方面的局限性，并提出了解决方案。
视频中目标对象可能会因为变形、快速运动或遮挡而出现外观变化，因此模板不更新和简单的线性更新不足以满足目标外观变化的需求。
Updating the object template. 大多数追踪器要么使用简单的线性插值来更新每帧中的模板[3、19、9、11、20、5]，要么根本不更新初始模板[1、41、27、50]。在大多数追踪情况下，这样的更新机制是不够的，因为目标对象可能会因变形、快速运动或遮挡而出现外观变化。而且，固定的更新模式还会导致目标模板更加集中于最近的帧[10]，而忘记了目标的历史外观。为了解决这个问题，Danelljan等人[10，11]建议在计算当前相关滤波器时，用包括历史帧的子集作为训练样本，这比传统的线性逐帧更新具有更好的结果。但是，将多个样本存储在内存中会导致计算和内存使用量增加，进而严重降低追踪速度。ECO追踪器[7]试图通过将训练样本的分布建模为高斯混合模型来缓解此问题，其中每个分量代表一个特定的外观。这大大减少了所需的存储空间，并且使用了保守的更新策略（仅每五帧更新一次），提高了追踪效率。即使有更多先前的样本，相关滤波器仍通过平均其对应样本的滤波器来进行更新（仍为线性插值更新）。
最近，Yang等人[45]通过在网络追踪过程中将先前的模板存储在内存中，使用长短期内存（LSTM）来估计当前模板，这在计算上是昂贵的，并且是一个相当复杂的系统。Choi等人[6]也使用模板存储器，但使用强化学习来选择其中一个存储的模板。这个方法无法从多个帧中累积信息。[33]的meta-tracker通过预训练的方法扩展了第一帧中目标模型的初始化，但仍需要在在线追踪中进行线性更新。姚等人[46]建议使用SGD离线学习CF追踪器的更新系数。然而相关滤波器的解决方案仍然是人工设计的，并且这些系数是固定的，在追踪过程中不会更新。
为了适应物体的变化，Guo等人[15]提出通过傅立叶域中的正则化线性回归来计算相对于初始模板的变换矩阵。由于在估计变换时仅考虑初始模板，因此该方法忽略了在追踪过程中观察到的历史目标变化，这可能对更平滑地适配示例模板很重要。而且，他们将变换矩阵作为傅立叶域上的闭式解来计算，这会受到与边界效应有关的问题的困扰[21]。相反，我们的工作使用了功能强大但易于训练的模型，不仅利用第一帧，而且还利用观察到的训练数据，利用所有先前的帧所累积的模板，来更新目标模板。此外，我们的UpdateNet经过训练之后，可以根据观察到的训练追踪数据学习如何有效地更新对象模板。

3 Updating the object template

这部分比较有借鉴意义的是论文中对训练样本构造部分的分析：但是，对于当前帧模板TiT_iTi，使用真实的位置（即在当前帧中预测的位置非常准确）在实际中很少发生。因此，需要使用不精确的定位来提取第iii帧训练样本，这样的训练数据样本与推断过程中所期望的样本分布非常类似，训练可能也会更有效。
在本节中，我们将介绍我们的方法，以了解如何在在线追踪过程中更新目标模板。我们从重新审视标准线性更新机制入手，并确定其弊端。然后，我们介绍我们克服弊端的形式化方法，并详细描述我们的模型和训练过程。本文的重点是孪生追踪器。但是请注意，我们的方法不仅限于孪生追踪器，相同的形式化也可以应用于其他类型的追踪器，例如 DCF [19，11，7]。

3.1 Standard update

几种最新的追踪方法[4、3、19、40、41、27、50]使用简单的平均策略来更新给定新数据样本的目标外观模型。这种策略可追溯到早期的跟踪方法[36]，尽管存在局限性但由于其可接受的结果，长期以来一直是标准的在线更新方法。模板将作为运行平均值进行更新，权重随时间呈指数衰减。选择指数权重将产生以下用于更新模板的递归公式：
T~i=(1−γ)T~i−1+γTi\widetilde{T}_{i}=(1-\gamma) \widetilde{T}_{i-1}+\gamma T_{i}Ti=(1−γ)Ti−1+γTi其中，iii是帧的索引下标，TiT_{i}Ti是使用当前帧计算的新模板样本，T~i−1\widetilde{T}_{i-1}Ti−1是累积帧的模板（就是i−1i-1i−1帧的模板，这个模板是通过迭代来的，所以是累积的）。通常，假设目标的外观在连续的帧中平滑且一致地变化，则将更新率γ\gammaγ通常设置为固定的小值（例如γ\gammaγ= 0.01）。在DCF追踪器中（例如[3，19]），TTT对应于相关滤波器。相反，在孪生追踪器中，TTT是由全卷积特征提取器从特定帧提取的目标外观模板。尽管原始的SiamFC追踪器[1]不执行任何模型更新，但较新的Siamese追踪器[1、41、27、50]已采用上述公式来更新其模板（这在对应论文里是在哪儿呢？）。模板平均为集成新信息提供了一种简单的方法，但是它有几个严重的缺点：

它对每个视频都采用恒定的更新速率，没有考虑由于多种因素（例如摄像机运动）可能导致更新的不同需求。即使在同一视频内，目标模板上所需的更新也可能在不同时间动态变化。
更新在模板的所有空间维度（包括通道维度）上也是恒定的。这样不能只更新模板的一部分，例如目标被部分遮挡时。
追踪器不能从漂移问题中恢复，部分原因是由于它无法访问外观模板T0T_{0}T0，而外观模板T0T_{0}T0无疑是唯一与目标无关的模板。
更新函数仅限于先前外观模板的非常简单的线性组合。这严重限制了更新机制的灵活性，这在目标经历复杂外观变化时很重要。考虑更复杂的组合函数有望改善结果。

3.2 Learning to update

我们通过提出学习自适应更新策略的模型来解决上面列出的缺点。由于本文的重点是孪生追踪器，因此TTT在此表示目标外观模板。为了解决简单的模板平均的局限性，我们建议学习通用函数ϕ\phiϕ，该函数根据如下公式更新模板T~i=ϕ(T0GT,T~i−1,Ti)\widetilde{T}_{i}=\phi\left(T_{0}^{G T}, \widetilde{T}_{i-1}, T_{i}\right) Ti=ϕ(T0GT,Ti−1,Ti)学到的函数ϕ\phiϕ依据初始真值模板T0GTT_{0}^{G T}T0GT、之前的累积模板T~i−1\widetilde{T}_{i-1}Ti−1和从当前帧目标预测位置提取的模板TiT_{i}Ti进行计算。本质上，该函数通过融合由当前帧TiT_{i}Ti给出的新信息来更新先前累积的模板T~i−1\widetilde{T}_{i-1}Ti−1。因此，基于当前模板和累积模板之间的差异，可以使ϕ\phiϕ能够适合当前帧的特定更新需求。此外，它还在每帧中考虑初始模板T0GTT_{0}^{G T}T0GT，它提供了高度可靠的信息并提高了抵抗模型漂移的鲁棒性。函数ϕ\phiϕ被实现为一个卷积神经网络，它具有强大的表达能力和从大量数据中学习的能力。我们将此神经网络称为UpdateNet，在接下来的部分对其进行详细描述。

3.3 Tracking framework with UpdateNet

我们在这里介绍UpdateNet的结构，并描述如何将其应用于在线追踪。Figure 2(left)概述了使用孪生追踪器的UpdateNet的自适应目标更新策略。我们使用与SiamFC跟踪器[1]中相同的特征提取器，利用固定的全卷积网络从图像区域提取深层特征。我们从初始帧中目标真实位置提取T0GTT_{0}^{G T}T0GT（在Figure 2中编号为0）。为了获得当前帧的TiT_{i}Ti，我们使用从所有先前帧生成的累积模板T~i−1\widetilde{T}_{i-1}Ti−1来预测第iii帧中目标的位置（紫色虚线），（这就是前一帧的追踪结果）并从该区域中提取特征（蓝色实线）。请注意，T~i−1\widetilde{T}_{i-1}Ti−1对应于前一帧中UpdateNet的输出，为了简洁起见，此处未显示。我们连接提取的特征T0GTT_{0}^{G T}T0GT、TiT_{i}Ti和累积特征T~i−1\widetilde{T}_{i-1}Ti−1，形成UpdateNet的输入。输入接下来经过一系列的卷积层（sec.4.3）处理，输出预测的新的累积模板T~i\widetilde{T}_{i}Ti。对于第一帧，我们设置TiT_{i}Ti和T~i−1\widetilde{T}_{i-1}Ti−1为T0GTT_{0}^{G T}T0GT，因为第一帧之前没有任何帧了。UpdateNet唯一使用的真实信息是初始帧中给定的目标位置，所有其他输入均基于预测位置。因此，T0GTT_{0}^{G T}T0GT是UpdateNet用来指导更新的最可靠信号。因此，我们采用了残差学习策略[17]，其中UpdateNet学习如何为当前帧修改真值模板T0GTT_{0}^{G T}T0GT。这通过从T0GTT_{0}^{G T}T0GT增加一个到UpdateNet的输出的跳跃连接来实现。这种方法仍然考虑了要更新的目标的历史外观集，但是将这种更新放在最准确的样本上。我们还尝试过添加来自其他输入的跳过连接，和完全不使用残差学习的方法（请参阅第4节）。

3.4 Training UpdateNet

我们训练我们的UpdateNet来预测下一帧的目标模板，例如，预测的模板TiT_{i}Ti应当和从下一帧真值位置提取的模板Ti+1GTT_{i+1}^{G T}Ti+1GT相匹配（Figure 2，右图）。这种选择背景的直觉是Ti+1GTT_{i+1}^{G T}Ti+1GT是在下一帧中搜索目标时使用的最佳模板。为了实现这一点，我们通过最小化更新模板与下一帧的真实模板之间的欧几里德距离来训练UpdateNet，定义为：
L2=∥ϕ(T0GT,T~i−1,Ti)−Ti+1GT∥2\mathcal{L}_{2}=\left\|\phi\left(T_{0}^{G T}, \widetilde{T}_{i-1}, T_{i}\right)-T_{i+1}^{G T}\right\|_{2} L2=∥∥∥ϕ(T0GT,Ti−1,Ti)−Ti+1GT∥∥∥2在本节的其余部分中，我们将描述用于生成训练数据的过程，并介绍UpdateNet的多阶段训练方法。
Training samples. 为了训练UpdateNet，最小化上述损失函数，我们需要配对输入三元组(T0GT,T~i−1,Ti)\left(T_{0}^{G T}, \widetilde{T}_{i-1}, T_{i}\right)(T0GT,Ti−1,Ti)和反映在线应用追踪器的更新需求的输出Ti+1GTT_{i+1}^{G T}Ti+1GT。初始帧目标模板T0GTT_{0}^{G T}T0GT和目标帧模板Ti+1GTT_{i+1}^{G T}Ti+1GT能够从对应帧中真值位置轻松的获得。但是，对于当前帧模板TiT_{i}Ti，使用真值位置表示在实践中很少遇到的情况，即，当前帧中的预测位置非常准确。这种不切实际的假设 biases the update towards expecting very little change with respect to TiT_{i}Ti ，（这句话还有待琢磨，大概意思是如果使用准确的真值位置生成样本来进行训练，包含的假设是预测的位置非常准确，这样会期待学习到相对于TiT_{i}Ti非常少的变化。而在推断时，生成的位置是不准确的，这样一来，数据分布就是不同的了。）因此UpdateNet无法学习有用的更新功能。因此，我们需要通过在第iii帧中使用不完美的定位来提取TiT_iTi样本用于训练。我们可以使用累积的模板T~i−1\widetilde{T}_{i-1}Ti−1来模拟这种情况，理想情况下可以呈现在线追踪过程中发生的定位错误。
Multi-stage training. 从理论上讲，我们可以使用UpdateNet输出的累积模板T~i−1\widetilde{T}_{i-1}Ti−1。但是，这将导致重复训练，从而使训练繁琐且效率低下。为了避免这种情况，我们将训练过程分为几个连续的阶段，以迭代地完善UpdateNet。在第一阶段，我们使用标准线性更新在训练数据集上运行原始追踪器，形式化为下式：
T~i0=(1−γ)T~i−10+γTi0\widetilde{T}_{i}^0=(1-\gamma) \widetilde{T}_{i-1}^0+\gamma T_{i}^0 Ti0=(1−γ)Ti−10+γTi0它会为每个帧生成累积的模板和实际预测的位置。我们将更新率γ\gammaγ设置为追踪器的推荐值。尽管没有那么复杂的线性更新策略，它对应于UpdateNet在追踪推断期间可能输入的近似值。在每一个后续的训练阶段k∈{1,...,K}k \in \{1,...,K\}k∈{1,...,K}，我们使用在前一阶段训练的UpdateNet模型来获取累积的模板和目标位置预测，形式化为：
T~ik=ϕk(T0GT,T~i−1k−1,Tik−1)\widetilde{T}_{i}^k=\phi^k\left(T_{0}^{G T}, \widetilde{T}_{i-1}^{k-1}, T_{i}^{k-1}\right) Tik=ϕk(T0GT,Ti−1k−1,Tik−1)这样的训练数据样本与UpdateNet的输出结果非常相似，在推断时，它们与预期的数据分布非常相似。我们在实验部分（第4节）中研究了阶段数KKK的合适值。

4 Experiment

实验部分比较有借鉴意义的是论文中对模板更新的分析，包括对模板和响应图的可视化（需要重点研究一下这些可视化分析的方法）、对模板更新速率的统计分析。

4.1 Training dataset

我们使用最近的大型单一目标追踪数据集（LaSOT）[13]来训练我们的UpdateNet。LaSOT共有70个类别，1400个序列，总计3.52M帧。每个类别正好包含20个序列，使数据集在各个类之间保持平衡。它还提供了更长的序列，其中包含超过1000帧（平均2512帧），以满足当前的长时序追踪的趋势。我们使用了官方的训练和测试集分组，以保持类别分配的均衡。实际上，我们仅使用训练数据的一个子集，该子集包含来自20个随机选择类别的20个训练序列，总共45578帧。从实验上我们发现，这足以学习有效的更新策略，并且增加数据只会在增加训练时间的同时仅带来很小的性能提升。

4.2 Evaluation datasets and protocols

我们根据标准追踪基准评估我们的结果：VOT2018 / 16 [23]，LaSOT [13]和TrackingNet [31]。
VOT2018/16[23]. VOT2018数据集包含60个公开测试序列，共21356帧。它用作VOT挑战的最新版本。VOT协议确定，当待评估的追踪器失效时，即与真值的IoU低于给定阈值时，将在失效发生五帧后将其重新初始化以行到正确的位置。用于对追踪器进行排名的主要评估方法是预期平均重叠（EAO），它是准确性（A）和鲁棒性（R）的组合。我们还使用VOT2016 [24]进行比较，它与VOT2018 [22]相比有10个不同的序列。我们使用提供的工具包[22]计算所有结果。
LaSOT[13]. LaSOT是一个更大，更具挑战性的数据集，包括长期视频序列，紧跟最近使用这一数据集的工作，我们报告了基于协议II的结果，例如在LaSOT测试集上。测试子集共有280个序列，共690K帧。LaSOT数据集[13]遵循OTB [42]的OPE标准。它由通过中心位置误差测量的precision plot和通过预测边界框与真值之间的IoU测量的success plot组成。除了精度图和成功图之外，LaSOT还使用归一化精度图来应对以下情况：在不同的帧和视频中，目标大小和图像分辨率存在较大差异，这严重影响了精度指标。我们使用成功图和归一化精度图来评估我们的追踪器。我们使用他们的代码[13]绘制所有图。
TrackingNet. 这是一个由真实视频组成的大规模追踪数据集。它总共有30643个视频，分为30132个训练视频和511个测试视频，平均为4709帧。它使用精度，标准化精度和成功率作为评估指标。

4.3 Implementation details

我们使用SiamFC [1]和DaSiamRPN [50]作为我们的基本跟踪器，而主干Siamese网络采用了经过修改的AlexNet。除了更新部分外，我们不执行任何更改。SiamFC的原始实现未执行任何目标模板更新。我们从CFNet [40]借用它的线性更新率，对于训练阶段1中生成的模板，γ= 0.0102。我们使用的是DaSiamRPN的原始版本，该版本未采用任何更新策略。我们在第4.7节中分析了线性更新率对追踪性能的影响。为了训练UpdateNet，我们设置了一组模板，T0GT,T~i−1,Ti,Ti+1GTT_{0}^{G T}, \widetilde{T}_{i-1}, T_{i},T_{i+1}^{G T}T0GT,Ti−1,Ti,Ti+1GT，作为输入。它们从同一视频中按顺序采样。值得注意的是，T~i−1\widetilde{T}_{i-1}Ti−1和TiT_{i}Ti是通过真实的跟踪过程生成的，而T0GTT_{0}^{G T}T0GT和Ti+1GTT_{i+1}^{G T}Ti+1GT是真实的模板。我们将所有训练目标模板存储在磁盘上，它们是由线性/无更新（阶段k = 1）或以前版本的UpdateNet（k> 1）提取的。令模板大小为H×W×CH\times W\times CH×W×C。UpdateNet是两层卷积神经网络：一个1×1×3⋅C×961×1×3·C×961×1×3⋅C×96卷积层，然后是ReLU和第二个尺寸为1×1×96×C1×1×96×C1×1×96×C的卷积层。对于SiamFC，H=W=6H = W = 6H=W=6且C=256C = 256C=256，而DaSiamRPN C=512C = 512C=512。在第一阶段，权重从头开始初始化，学习率在每个时期从10−610^{-6}10−6到10−710^{-7}10−7呈对数递减。在下一阶段，权重由上一阶段的最佳模型初始化，并且学习率在每个时期从10−710^{-7}10−7到10−810^{-8}10−8呈对数递减。我们使用大小为64的mini-batches训练了50个epochs的模型。我们使用动量为0.9，重量衰减为0.0005的随机梯度下降（SGD）。

4.4 Ablation study

我们通过消融我们方法中的不同组件来开始评估，以分析它们对最终性能的贡献。表1显示了在EAO 度量下使用VOT2018 [22]数据集的结果。在表的中间，它显示了在UpdateNet的第一阶段更新目标模板时，相对于T0GTT_{0}^{G T}T0GT进行残差训练会带来好处，因为学习的更新策略基于可靠的目标样本。（在模板的使用过程中，只有第一帧模板是最准确的，提供的信息也是最可靠的）此外，我们的多阶段训练进一步提高了UpdateNet的性能，相对于没有更新的原始SiamFC，总体提高了7.4％。在本文的其余部分，我们使用经过3个阶段训练的UpdateNet，并通过T0GTT_{0}^{G T}T0GT进行跳过连接。

4.5 Analysis on representation update

本节试图提供有关UpdateNet实现的性能提升的解释。孪生网络被训练用来将图像投影到相关性最大的特征空间中。更新策略对学习到的特征进行操作，这可能会干扰它们的关联能力，并可能使追踪性能恶化。为了研究更新策略对特征的干扰，我们在Figure 3中可视化了SiamFC的线性更新和UpdateNet的累积模板。我们还包括标注的边界框中提取的groundtruth模板。对于每个模板，我们显示了真实模板中四个最动态通道的特征图，它们以2×2网格排列。出于比较的原因，在跟踪过程中使用对象真实位置而不是预测位置来生成累积的模板。此外，在每个累积的模板旁边，我们还展示了将模板与搜索区域进行相关运算时生成的响应图。我们观察到一些有趣的性质，这些性质支持了在实践中观察到的性能提升。首先，与线性更新中的模板相比，使用UpdateNet积累的模板更类似于真值（请参见例如第38帧右下角的突出显示）。其次，对于UpdateNet，响应图在目标位置上更加清晰，这表明我们的策略所学习特征的所需相关属性没有负面影响。最后，线性更新的累积模板以非常慢的速度变化，并且明显不足以跟上视频中目标的外观变化。
为了进一步研究观察到的特性，我们提取对连续帧模板之间的变化率进行量化。对于每个i∈{1,...,N}i\in \{1,...,N\}i∈{1,...,N}，我们计算模板中的平均差分值为δi=1∣E∣∑E∣Ti−Ti−1∣\delta_{i}=\frac{1}{|E|} \sum_{E}\left|T_{i}-T_{i-1}\right|δi=∣E∣1∑E∣Ti−Ti−1∣，其中NNN是视频中的总帧数，遍历特征图中的每个元素求和（例如 E=6×6×256E=6\times 6 \times 256E=6×6×256）。我们在Figure 4中展示了结果。最下面的一行包含VOT2018 [22]中所有60个视频的平均变化率δ\deltaδ。显然，线性更新策略无法提供真值模板特征修改所需的更新率。另一方面，UpdateNet提供了一种更具适应性的策略，其幅度在更接近于真实模板的变化率。上排和中排还显示了Figure 3中两个单独序列的变化率，即“book”和“soccer1”。我们可以看到UpdateNet在高变化时期也和真实模板非常相似，这在极端情况下具有很高的相关性。这样可以预测更好的响应图，如Figure 3所示。

4.6 Generality and tracking speed

在本节中，我们通过将UpdateNet应用于其他孪生跟踪器来评估其更新特性，如Figure 5所示。它以追踪速度和EAO的形式展示了在VOT2018上的结果。我们以帧率（FPS）衡量追踪速度，并在其轴上使用对数刻度。我们观察到我们在孪生追踪器上有所改进，例如在SiamFC [1]和DaSiamRPN [50]上通过添加非常小的时间开销来实现性能的改进。最后，Figure 6显示了性能最高的追踪器。我们与包括DRT [37]，DeepSTRCF [28]，LSART [38]，R MCPF [48]，SRCT [25]，CSRDCF [30]，LADCF [44]，MFT [22]，UPDT [2]，ATOM [8]以及[22]的追踪器进行了比较。在这些追踪器中，我们的方法可实现出色的性能，同时保持很高的效率。此外，我们的追踪器相对于基本追踪器DaSiamRPN [50]而言，性能相对提高了2.8％。

4.7 Fine-tuning the linear update rate

上一节中的线性更新使用作者推荐的SiamFC更新速率[40]（γ=0.0102\gamma= 0.0102γ=0.0102）和原始跟踪器的DaSiamRPN更新速率[50]（γ=0\gamma= 0γ=0）。现在我们研究微调测试集上的更新速率时，线性更新策略是否可以带来更高的性能。我们测试从[0，0.2]间隔均匀采样的几个更新率。Figure 7显示了DaSiamRPN（浅绿色）和SiamFC（深绿色）的线性更新性能。顶部的红色虚线和中间的粉红色虚线分别是我们在DaSiamRPN和SiamFC上应用的UpdateNet的性能。我们可以看到SiamFC的峰值性确实在了0.01到0.05之间。对于DaSiamRPN，没有更新的原始跟踪器性能最好，这证明了对于离线训练的更复杂的孪生追踪器，在线线性更新甚至可能会损害性能。这表明，即使微调的线性更新也无法进一步改善其结果。此外，我们的UpdateNet优于所有的更新速率值，而无需任何手动微调。尽管某些视频需要更高的更新率，但我们可以看到性能随着更新率的提高而持续快速下降，这证明所有视频均不适合采用固定更新率和常规更新率。

4.8 Comparison with other updating strategies

最近的一些方法[15，45]为孪生追踪器提出了替代更新策略。Table 2给出了VOT2016上与DSiam [15]和MemTrack [45]的比较，因为[45]仅报告了该VOT版本的结果（有关VOT2018上的DSiam结果，请参见Figure 5）。我们的UpdateNet可以实现更有效的更新和更高的追踪性能，同时也适用于不同的孪生体系结构。尽管DaSiamRPN的性能已经非常出色，但UpdateNet却带来了4.2％的改进，达到了最先进的水平。此外，就鲁棒性而言，我们的方法可带来5.6％的绝对收益，鲁棒性是孪生追踪器的常见弱点。

4.9 LaSOT dataset

我们在最近的LaSOT数据集上测试我们的模型[13]。由于长期序列在LaSOT中很常见，因此追踪器的更新部分至关重要，因为可能会出现更多的突然变化，并且目标外观可能会与输入目标模板进一步分离。我们在图8中展示了排名前10位的追踪器，包括MDNet [32]，VITAL [35]，StructSiam [49]，DSiam [15]，SINT [39]，STRCF [28]，ECO [7]，SiamFC [1]和DaSiamRPN [50] 。结果按照官方协议进行展示。我们可以看到UpdateNet如何增强DaSiamRPN的更新能力，并在所有度量上显着提高性能。因此，我们具有学习更新策略的追踪器将超过该数据集上所有最新的追踪器。在准确的目标定位方面，这进一步证明了自适应更新策略的优势。

4.10 TrackingNet dataset

我们使用TrackingNet [31]的三个评估指标对UpdateNet-DaSiamRPN进行了评估（Table 3）。与DaSiamRPN相比，我们的UpdateNet + DaSiamRPN在精度，归一化精度和成功度方面获得了3.4％，1.9％和3.9％的绝对增益。UpdateNet可以在所有三个指标上显着提高性能。这显示了学习模型更新在多个数据集上和不同度量下极大地帮助孪生跟踪器提高性能。

5 Conclusions

孪生追踪器通常使用简单的线性更新规则来更新其外观模板。我们发现此线性更新的几个缺点，并提出将更新步骤作为优化问题来学习。我们使用了一个称为UpdateNet的神经网络，该神经网络学习如何在给定第一帧的外观模板、当前帧和先前的累积模板的情况下更新当前累积的模板。提出的UpdateNet是通用的，可以集成到所有孪生追踪器中。四个基准数据集（VOT2016，VOT2018，LaSOT和TrackingNet）的可比较结果表明，相对于标准线性更新（或完全没有更新），我们所提出的更新方法确实可以显着提高追踪器的性能。

Learning the Model Update for Siamese Trackers 论文学习相关推荐

A Blockchain-Based Machine Learning Framework for Edge Services in IIoT 论文学习
A Blockchain-Based Machine Learning Framework for Edge Services in IIoT IEEE TRANSACTIONS ON INDUSTR ...
Scan2CAD: Learning CAD Model Alignment in RGB-D Scans学习总结
Scan2CAD: Learning CAD Model Alignment in RGB-D Scans的学习总结概述:团队研究人员研究的内容是通过训练后的新颖3D卷积神经网络去接受一个半虚拟半真 ...
【DiMP】Learning Discriminative Model Prediction for Tracking论文阅读
Learning Discriminative Model Prediction for Tracking 论文地址写在前面又是MD大神的一个作品,发现MD大神也把Siamese的框架用起来了,而 ...
[论文学习]TDN: An Integrated Representation Learning Model of Knowledge Graphs
[论文学习以及翻译]TDN: An Integrated Representation Learning Model of Knowledge Graphs 文章主要内容摘要前言相关工作基于T ...
[论文笔记] Learning Gestures From WiFi: A Siamese Recurrent Convolutional Architecture
原文链接:Learning Gestures From WiFi: A Siamese Recurrent Convolutional Architecture | IEEE Journals &am ...
【论文笔记】Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
论文论文题目:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personaliz ...
模型预测控制与强化学习-论文阅读（一）Integration of reinforcement learning and model predictive
模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...
High Performance Visual Tracking with Siamese Region Proposal Network 论文学习
文章目录论文阅读总结 Translation Abstract 1 Introduction 2 Related Works 2.1 Trackers based on Siamese networ ...
Distractor-aware Siamese Networks for Visual Object Tracking 论文学习
Distractor aware of Siamese Networks for visual object tracking 论文学习论文阅读总结 Translation Abstract 1 I ...
READ-2203 FLDetector: Defending Federated Learning Against Model Poisoning Attacks via Detecting Mal
READ-2203 FLDetector: Defending Federated Learning Against Model Poisoning Attacks via Detecting Mal ...

Learning the Model Update for Siamese Trackers 论文学习