摘要

最近，Siamese 网络因其平衡的准确性和速度而在视觉跟踪界引起了极大的关注。然而，大多数连体跟踪方法中使用的特征只能区分前景和非语义背景。语义背景总是被认为是干扰因素，这阻碍了连体跟踪器的鲁棒性。在本文中，我们专注于学习分心感知的连体网络，以实现准确和长期的跟踪。为此，首先分析了传统连体跟踪器中使用的特征。我们观察到训练数据的不平衡分布使学习到的特征的判别性降低。在离线训练阶段，引入了一种有效的采样策略来控制这种分布，并使模型专注于语义干扰项。在推理过程中，设计了一种新颖的干扰器感知模块来执行增量学习，可以有效地将一般嵌入迁移到当前视频域。此外，我们通过引入一个简单而有效的本地到全局搜索区域策略来扩展所提出的长期跟踪方法。在基准上进行的大量实验表明，我们的方法明显优于现有技术，在 VOT2016 数据集中产生 9.6% 的相对增益，在 UAV20L 数据集中产生 35.9% 的相对增益。建议的跟踪器可以在短期基准上以 160 FPS 的速度运行，在长期基准上以 110 FPS 的速度运行。

1 简介

视觉对象跟踪是在不断变化的视频序列中自动定位指定目标，是视觉分析、自动驾驶和姿态估计等许多计算机视觉主题中的基本问题。跟踪的一个核心问题是如何在具有遮挡、视野外、变形、背景杂乱和其他变化的挑战性场景中准确有效地检测和定位对象[38]。
最近，遵循相似性比较策略跟踪的连体网络因其良好的性能而在视觉跟踪社区中引起了极大的关注[31、8、2、36、33、7、37、16]。 SINT [31]、GOTURN [8]、SiamFC [2] 和 RASNet [36] 学习先验深度暹罗相似函数，并以运行时固定方式使用它。 CFNet [33] 和 DSiam [7] 可以分别通过运行平均模板和快速转换学习模块在线更新跟踪模型。 SiamRPN [16] 在 Siamese 网络之后引入了区域提议网络，从而将跟踪制定为一次性局部检测任务。
尽管这些跟踪方法获得了平衡的准确性和速度，但有 3 个问题需要解决：首先，大多数连体跟踪方法中使用的特征只能区分前景和非语义背景。语义背景总是被认为是干扰因素，当背景杂乱时，性能无法得到保证。其次，大多数连体跟踪器无法更新模型 [31, 8, 2, 36,16]。尽管它们的简单性和固定模型性质导致了高速，但这些方法失去了在线更新外观模型的能力，这对于解决跟踪场景中的剧烈外观变化通常至关重要。第三，最近的连体跟踪器采用局部搜索策略，无法处理完全遮挡和视野外的挑战。
在本文中，我们探索学习分心感知的连体区域建议网络 (DaSiamRPN)，以实现准确和长期的跟踪。 SiamFC 使用加权损失函数来消除正负示例的类别不平衡。然而，它效率低下，因为训练过程仍然由易于分类的背景示例主导。在本文中，我们确定训练数据中非语义背景和语义干扰物的不平衡是表示学习的主要障碍。如图 1 所示，SiamFC 上的响应图无法区分人，即使是穿白裙的运动员也能与目标人获得很高的相似度。高质量的训练数据对于端到端学习跟踪器的成功至关重要。我们得出结论，表示网络的质量在很大程度上取决于训练数据的分布。除了从现有的大规模检测数据集中引入正对，我们在训练过程中明确地生成了不同的语义负对。为了进一步鼓励歧视，
开发了用于视觉跟踪的有效数据增强策略定制。
离线训练后，表示网络可以很好地泛化到大多数类别的对象，这使得跟踪一般目标成为可能。在推理过程中，经典的连体跟踪器仅使用最近邻搜索来匹配正模板，当目标时可能表现不佳经历显着的外观变化和背景杂乱。特别是，在上下文中存在相似的外观对象（干扰物）使得跟踪任务更加艰巨。为了解决这个问题，周围的上下文和时间信息可以提供关于目标的额外线索，并有助于最大限度地提高辨别能力。在本文中，设计了一种新颖的干扰器感知模块，该模块可以有效地将一般嵌入转移到当前视频域，并在推理过程中逐步捕捉目标外观变化。
此外，最近的跟踪器是针对短期场景量身定制的，其中目标对象始终存在。这些作品只关注几十秒的短片，不能很好地代表从业者的需求。除了短期跟踪中的挑战性情况外，严重的视野外和完全遮挡给长期跟踪带来了额外的挑战。由于传统的连体跟踪器缺乏判别特征并采用局部搜索区域，它们无法应对这些挑战。受益于 DaSiamRPN 中学习到的干扰感知功能，我们通过引入一种简单而有效的局部到全局搜索区域策略来扩展所提出的长期跟踪方法。这显着提高了我们的跟踪器在视野外和完全遮挡挑战中的性能。
我们验证了所提出的 DaSiamRPN 框架在广泛的短期和长期跟踪基准上的有效性：VOT2016 [14]、VOT2017 [12]、OTB2015 [38]、UAV20L 和 UAV123 [22]。在短期 VOT2016 数据集上，与排名靠前的方法 ECO [3] 相比，DaSiamRPN 在预期平均重叠方面实现了 9.6% 的相对增益。在长期 UAV20L 数据集上，DaSi amRPN 在曲线下面积中获得 61.7%，比当前表现最好的跟踪器高出 35.9%。除了良好的性能外，我们的跟踪器还可以以远远超过实时速度的速度执行：短期数据集上的 160 FPS 和长期数据集上的 110 FPS。所有这些一致的改进表明，所提出的方法在视觉跟踪方面建立了新的最新技术。

1.1 贡献

本文的贡献可以概括为以下三个方面：
1、详细分析了常规连体跟踪器中使用的特征。我们发现训练数据中非语义背景和语义干扰物的不平衡是学习的主要障碍。
2，我们提出了一种新颖的 Distractor-aware Siamese Region Proposal Networks (DaSiamRPN) 框架来学习离线训练中的 Distractor-aware 特征，并在在线跟踪的推理过程中明确抑制干扰。
3，我们通过引入简单而有效的本地到全局搜索区域策略扩展了 DaSiamRPN 以执行长期跟踪，这显着提高了我们的跟踪器在视野外和完全遮挡挑战中的性能。在短期和长期视觉跟踪基准的综合实验中，所提出的 DaSiamRPN 框架在远远超过实时速度的同时获得了最先进的准确性。

2 相关工作

基于孪生网络的跟踪。连体跟踪器遵循相似性比较策略的跟踪。开创性的工作是 SINT [31]，它简单地搜索与起始帧中给出的样本最相似的候选者，使用运行时间固定但学习先验的深连体相似度函数。作为后续工作，Bertinetto 等.al [2] 提出了一个全卷积连体网络 (SiamFC) 来估计两帧之间的区域特征相似性。 RASNet [36] 通过使用残差注意网络学习注意机制来推进这种相似性度量。与 SiamFC 和 RASNet 不同，在 GOTURN 跟踪器 [8] 中，连续帧之间的运动是使用深度回归网络预测的。这三个跟踪器能够在 GPU 上分别以 86 FPS、83FPS 和 100 FPS 的速度执行，因为没有在线执行微调。 CFNet [33] 将相关滤波器解释为连体跟踪框架中的可微层，从而实现端到端的表示学习。但与 SiamFC 相比，性能提升有限。 FlowTrack [40]利用连体架构中的运动信息来提高特征表示和跟踪精度。值得注意的是，CFNet 和 FlowTrack 可以高效地在线更新跟踪模型。最近，SiamRPN [16] 通过在 Siamese 网络之后引入区域提议网络，将跟踪制定为一次性局部检测任务，该网络是端到端的。最后用大规模图像对离线训练。
跟踪功能。视觉特征在包括视觉跟踪在内的计算机视觉任务中发挥着重要作用。 Possegger 等人 [26] 提出了一个干扰器感知模型术语来抑制视觉上分散注意力的区域，而在其框架中使用的他的图特征的颜色不如深度特征稳健。 DLT [35] 是使用多层自动编码器网络的开创性深度学习跟踪器。该特征以无监督方式在 80M 小图像数据集 [32] 的一部分上进行了预训练。王等人。 [34] 在视频存储库上学习一个两层神经网络，其中对特征学习施加了时间上的慢速约束。 DeepTrack [17] 从二进制样本中学习两层 CNN 分类器，不需要预训练程序。 UCT [39]将特征学习和跟踪过程制定为一个统一的框架，使学习到的特征与跟踪过程紧密耦合。
长期跟踪。传统的长期跟踪框架可以分为两类：早期的方法将跟踪视为与几何模型匹配的局部关键点描述符 [25,24,21]，最近的方法通过结合带有检测器的短期跟踪器。后一类的开创性工作是 TLD [10]，它提出了一个无记忆的流群作为短期跟踪器和一个并行运行的基于模板的检测器。马等人。 [20]提出将KCF跟踪器和随机蕨类分类器结合起来作为检测器，用于校正跟踪器。同样，MUSTer [9] 是一个长期跟踪框架，它结合了 KCF 跟踪器和基于 SIFT 的检测器，该检测器也用于检测遮挡。 Fan and Ling [6] 将 DSST 跟踪器 [4] 与 CNN 检测器 [31] 相结合，以验证并可能纠正短期跟踪器的提议。

图 1：连体网络跟踪器响应热图的可视化。 (a) 显示搜索图像。 (b-e) 显示由 SiamFC、SiamRPN、SiamRPN+（用干扰物训练）和 DaSiamRPN 生成的热图。

3 干扰感知孪生网络

3.1 传统孪生网络的特点和缺点

在详细讨论我们提出的框架之前，我们首先重新审视传统基于连体网络的跟踪的特征 [2, 16]。 Siamese 追踪器使用度量学习作为其核心。目标是学习一个嵌入空间，该空间可以最大化不同对象之间的类间惯性并最小化同一对象的类内惯性。导致连体追踪器受欢迎和成功的关键因素是其平衡的准确性和速度。
图 1 显示了 SiamFC 和 SiamRPN 的响应图。可以看出，对于目标，背景差异较大的也获得了高分，甚至一些无关的物体也获得了高分。在 SiamFC 中获得的表示通常服务于训练数据中类别的判别学习。在 SiamFC 和 SiamRPN 中，成对的训练数据来自同一视频的不同帧，对于每个搜索区域，非语义背景占据大部分，而语义实体和干扰物占据较少。这种不平衡的分布使训练模型难以学习实例级表示，但倾向于学习前景和背景之间的差异。
在推理过程中，最近邻用于搜索搜索区域中最相似的对象，而省略了第一帧中标注的背景信息。如图 1e 所示，可以有效地利用跟踪序列中的背景信息来提高判别能力。
为了消除这些问题，我们建议在离线训练过程中主动生成更多的语义对，并在在线跟踪中明确抑制干扰项。

3.2 干扰感知训练

高质量的训练数据对于视觉跟踪中端到端表示学习的成功至关重要。我们引入了一系列策略来提高学习特征的泛化能力并消除训练数据的不平衡分布。

图 2：（a）通过增强静止图像从检测数据集生成的正对。 (b) 来自同一类别的否定对。 (c ) 来自不同类别的否定对。

不同类别的正对可以提升泛化能力。原始 SiamFC 在 ILSVRC 视频检测数据集上进行训练，该数据集仅包含约 4,000 个逐帧注释的视频 [28]。最近，SiamRPN [16] 探索使用稀疏标记的 Youtube-BB [27] 视频，其中包含超过 200,000 个视频，每 30 帧注释一次。在这两种方法中，目标训练数据对来自不同帧同一个视频。然而，这些视频检测数据集仅包含很少的类别（VID [28] 为 20，Youtube-BB [27] 为 30），这不足以训练 Siamese 跟踪的高质量和泛化特征。此外，SiamRPN 中的边界框回归分支在遇到新类别时可能会得到较差的预测。由于标记视频耗时且昂贵，因此在本文中，我们通过引入大规模的 ImageNet Detection [28] 和 COCO Detection [18] 数据集，极大地扩展了正例对的类别。如图 2 所示(a)，通过增强技术（平移、调整大小、灰度等），来自检测数据集的静止图像可用于生成用于训练的图像对。正对的多样性能够提高跟踪器的判别能力和回归精度。
语义否定对可以提高判别能力。我们将 SiamFC [2] 和 SiamRPN [16] 中判别性较低的表示归功于两级不平衡的训练数据分布。第一个不平衡是罕见的语义负对。由于背景在 SiamFC 和 SiamRPN 的训练数据中占据了大部分，大多数负样本是非语义的（不是真实的对象，只是背景），它们可以很容易地分类。也就是说，SiamFC 和 SiamRPN 学习前景和背景之间的差异，语义对象之间的损失被大量的容易负数所淹没。另一个不平衡来自类内干扰器，它们通常在跟踪过程中作为硬负样本执行。在本文中，语义负对被添加到训练过程中。构建的负对由相同类别和不同类别中的标记目标组成。来自不同类别的负对可以帮助跟踪器避免在视野外和完全遮挡等挑战中漂移到任意对象，而来自相同类别的负对使跟踪器专注于细粒度表示。反例如图 2(b) 和图 2© 所示。

图 3：我们提出的 Distractor-aware Siamese Region Proposal Networks (DaSiamRPN) 的图示。 DaSiamRPN充分利用了目标和背景信息，可以抑制跟踪过程中干扰物的影响。

为视觉跟踪定制有效的数据增强。为了释放 Siamese 网络的全部潜力，我们为训练定制了几种数据增强策略。除了常见的平移、尺度变化和光照变化外，我们观察到运动模式可以很容易地由网络中的浅层建模。我们在数据增强中明确引入了运动模糊。

3.3 干扰感知增量学习

上一小节的训练策略可以显着提高离线训练过程的判别力。然而，仍然很难区分具有相似属性的两个对象，如图 3a 所示。 SiamFC 和 SiamRPN 使用余弦窗口来抑制干扰。这样，当物体运动混乱时，性能无法保证。大多数现有的基于连体网络的方法在遇到快速运动或背景杂波时性能较差。总之，潜在的缺陷主要是由于一般表示域和特定目标域的错位。在本节中，我们提出了一个干扰器感知模块，以有效地将一般表示转移到视频域。
Siamese 跟踪器学习相似性度量 f(z, x) 以将示例图像 z 与嵌入空间 φ 中的候选图像 x 进行比较：

其中 ⋆ 表示两个特征图之间的互相关，b · ✶ 表示在每个位置都相等的偏差。样本中最相似的对象将被选为目标。
为了充分利用标签信息，我们将目标上下文中的硬负样本（干扰器）整合到相似度度量中。在DaSiamRPN中，采用Non Maximum Suppression（NMS）来选择每一帧中的潜在干扰di，然后我们收集一个干扰集D := {∀di ∈ D, f(z, di) > h ∩ di 6 = zt}，其中 h 是预定义的阈值，zt 是第 t 帧中选择的目标，该集合的个数 |D| = n。具体来说，我们首先在每帧中得到 17 * 17 * 5 个建议，然后我们使用 NMS 来减少冗余候选。得分最高的提案将被选为目标 zt。对于其余的，分数大于阈值的提案被选为干扰项。
之后，我们引入了一种新的干扰器感知目标函数来重新排列与样本具有前 k 个相似性的提案 P。最终选择的对象表示为 q：

权重因子α控制干扰项学习的影响，权重因子αi用于控制每个干扰项di的影响。值得注意的是，通过直接计算，计算复杂度和内存使用量增加了 n 倍。由于等式 (1) 中的互相关运算是线性算子，我们利用此属性来加速干扰物感知目标：

与 SiamRPN 相比，它使跟踪器以可比的速度运行。该关联定律还启发我们以学习率 βt 增量学习目标模板和干扰模板：

这种干扰器感知跟踪器可以将现有的相似性度量（一般）调整为新域（特定）的相似性度量。权重因子 αi 可以看作是稀疏正则化的对偶变量，样本和干扰项可以看作是相关滤波器中的正样本和负样本。实际上，我们的框架中建模了一个在线分类器。因此，所采用的分类器有望比仅使用一般相似性度量的分类器表现更好。

3.4 DaSiamRPN 用于长期跟踪

在本节中，将 DaSiamRPN 框架扩展到长期跟踪。除了短期跟踪中的挑战性情况外，严重的视野外和完全遮挡在长期跟踪中引入了额外的挑战，如图 4 所示 . 短期跟踪（SiamRPN）中的搜索区域在重新出现时无法覆盖目标，从而无法跟踪后续帧。我们提出了一种在短期跟踪阶段和故障案例之间简单而有效的切换方法。在失败的情况下，迭代的局部到全局搜索策略被设计为重新检测目标。

图 4：视频 person7 在视野外挑战中的跟踪结果。第一行：跟踪 SiamRPN 和 DaSiamRPN 的快照。第二行：检测分数和根据两种方法的重叠。重叠被定义为跟踪结果和地面实况之间的交叉联合（IOU）。红色：基本事实。绿色：跟踪框。蓝色：搜索区域框。

为了执行切换，我们需要识别失败跟踪的开始和结束。由于干扰物感知训练和推理能够实现高质量的检测分数，因此可以用来指示跟踪结果的质量。图 4 显示了 SiamRPN 和 DaSiamRPN 中的检测分数和跟踪重叠。 SiamRPN 的检测分数并不具有指示性，即使在视野外和完全遮挡的情况下也可能仍然很高。也就是说，SiamRPN 倾向于在这些挑战中找到任意对象性，从而导致跟踪漂移。在 DaSiamRPN 中，检测分数成功地指示了跟踪阶段的状态。
在失败的情况下，我们通过局部到全局的策略逐渐增加搜索区域。具体来说，当指示跟踪失败时，搜索区域的大小以恒定步长迭代增长。如图 4 所示，局部到全局搜索区域覆盖目标以恢复正常跟踪。值得注意的是，我们的跟踪器采用边界框回归来检测目标，因此可以丢弃耗时的图像金字塔策略。在实验中，提出的 DaSiamRPN 可以在长期跟踪基准上以 110 FPS 的速度执行。

4 实验

实验在广泛的具有挑战性的跟踪数据集上进行，包括 VOT2015 [13]、VOT2016 [14] 和 VOT2017 [12]，每个有 60 个视频，UAV20L [22] 有 20 个长期视频，UAV123 [22] 有 123 个视频和 OTB2015 [38] 有 100 个视频。所有跟踪结果均由官方实现提供，以确保公平比较。

图 5：VOT2016 (a) 和 VOT2017 (b) 的预期平均重叠图。

4.1 实验细节

如 SiamRPN [16] 中所述，使用使用 ImageNet [28] 预训练的修改后的 AlexNet [15]。前三个卷积层的参数是固定的，只有后两个卷积层是微调的。总共执行了 50 个 epoch，学习率在日志空间中从 10−2 降低到
10-4。我们通过选择间隔小于 100 的帧并执行第 3.2 节中描述的裁剪过程，从 VID [28] 和 Youtube-BB [27] 中提取图像对。在 ImageNet Detection [28] 和 COCO Detection [18] 数据集中，通过增强静止图像生成图像对用于训练。为了处理基准中的灰度视频，25% 的对在训练期间转换为灰度。平移是在 12 个像素内随机进行的，随机调整大小的范围从 0.85 到 1.15 不等。
在推理阶段，式（2）中的干扰因子 ^α 设置为 0.5，αi 对每个干扰器设置为 1，等式（4）中的增量学习因子 βt 设置为 P t−1 i=0( η1 -η )i，其中 η = 0.01。在长期跟踪中，我们发现local-to-global的一步迭代就足够了。具体来说，短期阶段和已定义故障情况下的搜索区域大小分别设置为 255 和 767。进入和离开失败案例的阈值设置为 0.8 和 0.95。我们的实验是在配备 Intel i7、48G RAM、NVIDIA TITAN X 的 PC 上使用 PyTorch 实现的。所提出的跟踪器可以在短期基准测试中以 160 FPS 的速度运行，在长期基准测试中以 110 FPS 的速度执行。

4.2 VOT 数据集的最新比较

在本节中，使用了最新版本的视觉对象跟踪工具包 (vot2017-challenge)。该工具包采用基于重置的方法。每当检测到故障（与基本事实零重叠）时，跟踪器在故障后五帧重新初始化。性能是根据准确性 (A)、稳健性 ® 和预期平均重叠 (EAO) 来衡量的。此外，VOT2017还引入了实时实验。我们报告了所有这些指标，并与 VOT2015、VOT2016 和 VOT2017 上的一些最新最先进的跟踪器进行了比较。
在 VOT2016 上评估的 EAO 曲线如图 5a 所示，并比较了 70 个其他最先进的跟踪器。我们的基线跟踪器 SiamRPN 在 VOT2016 上的 EAO 为 0.3441，这已经超过了大多数最先进的技术。然而，与排名靠前的跟踪器 ECO（0.375）相比仍有差距，它改进了多级特征图上的连续卷积算子。最值得注意的是，提出的 DaSiamRPN 获得了 0.411 的 EAO，优于 state- 9.6% 的最先进技术。此外，我们的跟踪器以 160FPS 的最新速度运行，比 C-COT 快 500 倍，比 ECO 快 20 倍。
对于 VOT2017 的评估，图 5b 报告了我们与其他 51 个最先进的跟踪器在 EAO 分数方面的结果。 DaSiamRPN 以 0.326 的 EAO 得分排名第一。在前 5 个跟踪器中，CFWCR、CFCF、ECO 和 Gnet 应用连续卷积算子作为基线方法。表现最好的 LSART [30] 将目标分解为补丁，并将补丁相似性的加权组合应用于核化岭回归。虽然我们的方法在概念上更简单、功能强大且易于遵循。
图 5b 还揭示了用红点表示的实时实验中的 EAO 值。我们的跟踪器显然是表现最好的，实时 EAO 为 0.326，比最新的最先进的实时跟踪器 CSRDCF++ 高出 53.8%。
表 1 显示了 VOT2015、VOT2016 和 VOT2017 的准确度 (A) 和鲁棒性 ® 以及预期平均重叠 (EAO)。基准方法 SiamRPN 每秒可以处理惊人的 200 帧，同时仍然获得与最先进技术相当的性能。我们发现 SiamRPN 的性能提升主要归功于其准确的多锚回归机制。我们提出了干扰器感知模块来提高鲁棒性，这可以使我们的跟踪器更加和谐。因此，我们的方法在三个基准上的 EAO 分别为 0.446、0.411 和 0.326，大大优于所有现有的跟踪器。我们相信，持续的改进表明我们的方法通过训练过程和在线推理都做出了真正的贡献。

4.3 UAV无人机数据集的最新比较

无人机 [22] 视频是从低空无人机捕获的。数据集包含一个长期评估子集 UAV20L 和一个短期评估子集 UAV123。评估基于两个指标：精度图和成功图。
UAV20L 上的结果 UAV20L 是一个长期跟踪基准，包含 20 个序列，平均序列长度为 2934 帧。除了短期跟踪中的挑战性情况外，严重的视野外和完全遮挡也带来了额外的挑战。在本实验中，将所提出的方法与 [22] 中的最新跟踪器进行了比较。此外，ECO [3]（最先进的短期跟踪器）、PTAV [6]（最先进的长期跟踪器）、SiamRPN [16]（基线）、SiamFC 添加了 [2] 和 CFNet [33]（代表性的连体跟踪器）进行比较。

表 1：公共短期基准的性能比较。 OP：阈值为 0.5 时的平均重叠精度； DP：平均距离精度20像素； EAO：预期平均重叠和平均速度 (FPS)。红色粗体字体和蓝色斜体字体分别表示最佳和次佳性能。

图 6：无人机 [22] 数据集上的成功和精度图。第一个和第二个子图是 UAV20L 的结果，第三个和最后一个子图是 UAV123 的结果。

包括成功图和精度图在内的结果如图 6 所示。它清楚地说明了我们的算法（由 DaSiamRPN 表示）在两种测量中都显着优于最先进的跟踪器。在成功图中，我们的方法获得了 0.617 的 AUC 分数，显着优于最先进的短期跟踪器 SiamRPN [16] 和 ECO [3]。改善幅度分别为 35.9% 和 41.8%。与有资格执行长期跟踪的 PTAV [6]、MUSTer [9] 和 TLD [10] 相比，所提出的 DaSiamRPN 的性能相对优于这些跟踪器 45.8%、87.5% 和 213.2%。在精度图中，我们的方法获得了 0.838 的分数，比最先进的长期跟踪器 (PTAV [6]) 和短期跟踪器 (SiamRPN [16]) 高出 34.3% 和 35.8 ％，分别。 DaSiamRPN 在这个长期跟踪数据集中的出色表现可归因于分心感知功能和局部到全局搜索策略。

图 7：UAV20L 上带有属性的成功图。最好在彩色显示器上观看。

对于详细的性能分析，我们还报告了 UAV20L 中各种挑战属性的结果，即完全遮挡、视野外、背景杂波和部分遮挡。图 7 表明我们的跟踪器有效地处理了这些具有挑战性的情况，而其他跟踪器获得了较低的分数。特别是，在完全遮挡和背景杂波属性方面，所提出的 DaSiamRPN 比 SiamRPN [16] 的性能高出 153.1% 和 393.2%。
UAV123 UAV123 数据集上的结果包括 123 个序列，平均序列长度为 915 帧。除了 [22] 中最近的跟踪器之外，还添加了 ECO [3]、PTAV [6]、SiamRPN [16]、SiamFC [2]、CFNet [33] 进行比较。图 6 说明了比较跟踪器的精度和成功图。提出的 DaSiamRPN 方法在成功和精确度得分方面优于所有其他跟踪器。具体来说，我们的方法取得了 0.586 的成功分数，大大优于 SiamRPN (0.527) 和 ECO (0.525) 方法。

4.4 OTB 数据集的最新比较

我们使用许多快速和最先进的跟踪器评估所提出的算法，包括 SiamFC [2]、CFNet [33]、Staple [1]、CSRDCF [19]、BACF [11]、ECO-HC [3]、 CREST [29]、MDNet [23]、CCOT [5]、ECO [3] 和基线跟踪器 SiamRPN [16]。所有跟踪器都使用第一帧中的真实对象状态进行初始化。表 1 报告了平均重叠精度 (OP) 和平均距离精度 (DP)。
在实时跟踪器中，SiamFC 和 CFNet 是最新的基于 Siamese 网络的跟踪器，而准确度仍然远远落后于最先进的 BACF 和具有 HOG 功能的 ECO-HC。所提出的 DaSiamRPN 跟踪器在准确性和速度上都大大优于所有这些跟踪器。
对于 OTB 上最先进的比较，在视觉跟踪数据集上训练的 MDNet 以 1 FPS 的速度与其他跟踪器相比表现最好。 C COT 和 ECO 实现了最先进的性能，但它们的跟踪速度对于实时应用来说还不够快。基线跟踪器 SiamRPN 的 OP 得分为 81.9%，比 CCOT 的准确率略低。 SiamRPN 的瓶颈在于其较差的鲁棒性能。由于训练和推理中的干扰感知机制都侧重于提高鲁棒性，因此提出的 DaSiamRPN 跟踪器在 DP 上实现了 3.0% 的改进，在 OTB2015 上的最佳 OP 得分为 86.5%。

表 2：我们的算法在 VOT2016 [14] 和 UAV20L [22] 上的消融分析

4.5 消融分析

为了验证我们算法中每个组件的贡献，我们实现并评估了我们方法的四种变体。分析结果包括 VOT2016 [14] 上的 EAO 和 UAV20L [22] 上的 AUC。
如表 2 所示，SiamRPN 是我们的基线算法。在 VOT2016 中，当在训练中添加检测数据时，EAO 标准从 0.344 增加到 0.368。同样，当在训练和推理中采用负对和干扰器感知学习时，性能均提高了近 2%。在 UAV20L 中，检测数据、训练中的负对和推理中的干扰器感知的性能提高了 1%- 2%。当采用长期跟踪模块时，AUC 标准从 49.8% 增加到 61.7%。

5 结论

在本文中，我们提出了一个可感知干扰物的连体框架，用于准确和长期的跟踪。在离线训练期间，提出了一种干扰感知特征学习方案，可以显着提高网络的判别能力。在推理过程中，设计了一种新颖的干扰器感知模块，有效地将一般嵌入转移到当前视频域。此外，我们通过引入一种简单而有效的本地到全局搜索策略来扩展所提出的长期跟踪方法。所提出的跟踪器在短期和长期视觉跟踪基准的综合实验中获得了最先进的准确性，而整体系统速度仍远非实时。

Distractor-aware Siamese Networks for Visual Object Tracking全文翻译相关推荐

Learning Dynamic Siamese Network for Visual Object Tracking全文翻译
摘要如何有效地学习目标外观的时间变化,排除杂乱背景的干扰,同时保持实时响应,是视觉目标跟踪的一个重要问题.最近,Siamese 网络显示出基于匹配的跟踪器在实现平衡精度和超越实时速度方面的巨大潜 ...
Distractor-aware Siamese Networks for Visual Object Tracking 论文学习
Distractor aware of Siamese Networks for visual object tracking 论文学习论文阅读总结 Translation Abstract 1 I ...
ECCV 2018 DaSiamRPN:《Distractor-aware Siamese Networks for Visual Object Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做DaSiamRPN.本文首先分析了已有的孪生网络方法中的特征和缺点,如下图所示: 如上图所示,是几种孪生模型对ROI提取出的特征图.论文中提到,造成这种现象的原因 ...
Fully-Convolutional Siamese Networks for Object Tracking全文翻译
Fully-Convolutional Siamese Networks for Object Tracking 摘要任意对象跟踪的问题传统上通过仅在线学习对象外观的模型来解决,使用视频本身作为 ...
ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做DSiam.作者提出一个Dynamic Siamese Network,可以使用一个transformation learning model来在线学习目标的外观 ...
Learning Dynamic Memory Networks for Object Tracking全文翻译
摘要视觉跟踪的模板匹配方法由于其性能相当和速度快而受到欢迎.但是,它们缺乏有效的方法来适应目标对象外观的变化,使得它们的跟踪精度还远未达到-艺术.在本文中,我们提出了一种动态记忆网络,以使模板在 ...
文献学习(part44)--Aberrance suppresse dspatio-temporal correlation filters for visual object tracking
学习笔记,仅供参考,有错必纠关键词:视觉对象跟踪:相关滤波器:时空信息:彻底的改变 Aberrance suppresse dspatio-temporal correlation filters ...
VOT（Visual Object Tracking）评价指标综述
2022.04.05更新更正了第1节第t帧上的accuracy 公式的错误 2018.09.30更新: 在VOT2015部分补充R score的定义上一篇博文简单介绍了vot-toolkit的使 ...
PULT：Progressive Unsupervised Learning for Visual Object Tracking（用于视觉目标跟踪的渐进式无监督学习）
Progressive Unsupervised Learning for Visual Object Tracking(用于视觉目标跟踪的渐进式无监督学习 ) 因为是无监督学习,所以需要对样本数据充 ...

Distractor-aware Siamese Networks for Visual Object Tracking全文翻译

摘要