论文地址：https://arxiv.org/abs/1810.11981

Code：GOT-10k: Generic Object Tracking Benchmark

摘要

1.引言

2.相关工作

3.GOT-10K的构建

4.实验

5.结论

摘要

我们在这里介绍一个大型的跟踪数据库，它提供了对野外常见移动对象的空前广泛的覆盖，称为GOT-10K。具体地说，GOT-10k构建在WordNet结构[1]的主干上，它填充了超过560类移动对象和87种运动模式中的大多数，比最近的类似规模的同类产品[19]，[20]，[23]，[26]都要宽。通过发布大型的高多样性数据库，我们的目标是为不分类别、通用的短期跟踪器的开发提供一个统一的训练和评估平台。GOT-10k的特点和本文的主要贡献如下：(1)GOT-10k提供了10000多个视频片段和150多万个人工标注的包围盒，实现了深度跟踪器的统一训练和稳定评估。(2)GOT-10k是迄今为止第一个使用WordNet语义层次来指导类群体的视频轨迹数据集，它保证了对各种运动对象的全面和相对公正的覆盖。(3)GOT-10k首次引入了跟踪器评估的One-shot协议，其中训练类和测试类是零重叠的。该协议避免了评价结果对熟悉对象的偏向，促进了跟踪器开发的泛化。(4)GOT-10k提供了额外的标签，如运动类别和对象可见比，方便了运动感知和遮挡感知跟踪器的开发。(5)在GOT-10k上对39种典型的跟踪算法及其变种进行了广泛的跟踪实验，并对实验结果进行了分析。(6)最后，我们为跟踪社区开发了一个综合平台，提供了功能齐全的评估工具包、在线评估服务器和响应式排行榜。GOT-10k测试数据的注释是私有的，以避免调整参数。有关数据库、工具包、评估服务器和基线结果的信息，请访问http://got-10k.aitestunion.com.

1.引言

通用目标跟踪是指在视频中顺序定位移动对象的任务，无需访问关于对象（例如，对象类）及其周围环境的先验知识 [8]、[12]、[21] 。该任务非常具有挑战性，不仅因为其定义中的类别不可知性质，而且还因为跟踪期间不可预测的外观变化，例如遮挡，物体变形和背景分散。在现实生活中，通用物体跟踪在监视[36]，增强现实[42]，生物学[43]和机器人[41]等不同领域有着广泛的应用[44]。此外，通用对象跟踪在跟踪过程中需要很少的监督。通过探索这一点，最近的进展[31]，[64]进一步显示了其在未标记视频中积极挖掘训练样本的潜力，为更自动的学习系统铺平了道路。

根据定义，通用目标跟踪器具有两个重要特性：(1)它适用于广泛的对象类；(2)它与类无关，这意味着该算法也适用于看不见的对象类。然而这些特性在最近的大规模跟踪基准[19]、[20]中没有得到充分探索。表1从规模、多样性、实验设置和其他方面比较了当前的公共跟踪数据集。我们主要将我们的工作与最近的两个大规模数据集：LaSOT[20]和TrackingNet[19]进行比较，因为其他数据集都是小规模的，没有可用的训练集。虽然这两个数据集都提供了统一的大型训练和测试数据，但它们的手动定义的对象类(分别为21个和70个类)可能不足以代表不同的真实世界移动对象。此外，在这两个数据集中，训练对象类和测试对象类完全重叠且分布紧密，导致评估结果偏向于熟悉的对象类，在这些对象类上的性能很难推广到大范围的不可见对象。

这项工作提出了一个大型的统一跟踪基准，它通过(1)使用WordNet[1]作为骨干来引导对象类的全面和公正的群体，以及(2)遵循一次性协议来避免评估结果的偏差，从而解决了上述问题。我们将这项工作的贡献总结为以下几点。

(1)我们构建了一个名为GOT-10k的大型数据库，用于短期通用对象跟踪，该数据库收集10000多个视频片段，并手动注释超过150万个高精度边界框。该数据库可以对深度追踪器进行统一培训和公平比较。GOT-10k的代表性屏幕截图如图1所示。

(2)GOT-10k 填充了来自 WordNet [1] 的 563 个对象类和 87 个运动形式，与类似比例的对应物 [19]、[20]、[23]、[26] 相比，提供了更广泛的真实世界移动对象覆盖范围。WorNet地使用还以数据集创建者不偏不倚的方式提供数据。

(3)我们首次引入了跟踪器评估的单次协议，其中训练集和测试集之间的类是零重叠的。该协议避免了对熟悉对象的评价偏差，促进了跟踪器开发的通用性。

(4)GOT-10k提供了其他标签，例如运动类别，对象可见比率和缺席指示器，有助于开发运动感知和遮挡感知跟踪器。

(5)我们构建了一个包含84个对象类和31个运动类的420个视频的稳定测试集。实验表明，扩大测试数据的规模和多样性显著提高了评估的可靠性。

(6)我们提出了类平衡度量mAO和mSR来评估通用对象跟踪器，这样可以避免评估结果被更大尺度的对象类所支配。

(7)我们将39种最新的最新跟踪方法及其变体在GOT-10k上进行基准测试，并在本文中分析其性能。我们对我们的训练数据重新训练所有深度跟踪器，以确保进行有意义的比较。

(8)我们进行了大量的实验来研究不同方面的训练数据对深度跟踪器性能的影响。

(9)最后，我们建立了一个网站提供完整特征工具，一个在线评估系统以及响应式排行榜，以方便跟踪社区。我们测试数据的注释是保密的，以避免调整参数。数据库、工具包、评估服务器和排行榜可以在 http://got-10k.aitestunion.com 中找到

2.相关工作

我们将在本节中讨论与GOT-10k最相关的一些数据集和基准。

2.1 用于跟踪的评估数据集

自2013年以来，已经提出了多个目标跟踪数据集，并作为跟踪器评估和比较的统一平台。OTB[9]、[12]、ALOV++[21]和VOT[6]、[7]、[8]数据集代表了统一通用目标跟踪的测试数据和性能测量的初步尝试。OTB在它的第一个[9]和第二个[12]版本中分别收集了51个和100个移动对象，而ALOV++[21]提供了一个更大的超过300个视频的池。VOT[4]、[5]、[8]是自2013年以来每年与ICCV和ECCV研讨会一起举办的年度视觉对象跟踪挑战赛。之后还提出了其他几个旨在解决具体问题的数据集。它们包括大规模人员和刚性目标跟踪数据集NUS_PRO[17]、长期空中跟踪数据集UAV123/UAV20L[15]、彩色跟踪数据集TColor-128[16]、长期跟踪数据集OxUvA[13]、热跟踪数据集PTB-TIR[22]和VOT-TIR[5]、RGBD跟踪数据集PTB[18]和高帧率跟踪数据集NFS[14]。这些数据集在推动跟踪方法的发展方面发挥了重要作用。然而，这些数据集规模较小，仅提供测试数据，不适合基于深度学习的跟踪方法的统一训练和评估。

较新的数据集TrackingNet[19]和LaSOT[20]提供的规模与我们的数据集相当。TrackingNet从YouTube-BB[26]中选择了大约3万个视频组成其训练子集，并收集了另外511个具有相似类别分布的视频作为其评估子集；而LaSOT则手动收集并标注了14000个视频。尽管它们的比例很大，但其手动定义的对象类(分别为21和70个对象类)可能不足以代表各种真实世界移动的对象。此外，在两个数据集中，训练集和测试集之间的对象类与紧密分布完全重叠，其中深度跟踪器的评估结果可能偏向这些类，并且它们的性能不能反映这些跟踪器的泛化能力。表1，表2和图2显示了GOT-10k与其他跟踪数据集在规模，多样性，属性注释等方面的比较。GOT-10k大于大多数跟踪数据集，它提供了更广泛的对象类覆盖范围。此外，它是唯一遵循跟踪器评估中的一次性协议的基准，以避免对所见课程的评估偏差。

2.2 用于跟踪的训练数据集

深度学习时代的到来改变了通用对象跟踪的范式：基于深度学习的跟踪器通常从大量带注释的视频中学习一些常识（例如，度量，策略和特征表示），而不是从头开始使用单个带注释的帧进行训练，然后在跟踪过程中将其转移到特定目标。尽管如此，大多数传统的跟踪数据集都是小规模的，它们只提供评估视频，不适合训练深度追踪器。主要用于训练跟踪器的数据集包括ALOV[21]、NUS PRO[17]、ImageNet-VID[23]、YouTube-BB[26]、LaSOT[20]和TrackingNet[19]。ImageNet-VID和YouTube-BB是视频对象检测数据集，它们可能包含噪声片段，例如不完整的对象和镜头变化(图3)，而其他数据集则跟踪始终提供连续长轨迹的数据集。表1在规模和多样性方面将GOT-10k与其他视频数据集进行了比较。GOT-10k提供的注释比例比ALOV和NUS_PRO大得多，与其他大型数据集不相上下。此外，它还提供了更广泛的不同对象类的覆盖范围。

3.GOT-10K的构建

本节总结了我们用于构建GOT-10k的策略和管道的技术细节，阐明了如何确保GOT-10k的质量，覆盖范围和准确性。我们还描述了为构建可靠的测试集而进行的实验。

3.1 收集视频

这项工作的目的是构建一个广泛覆盖真实世界运动对象、运动模式和场景的大型跟踪数据集。为了实现如此全面和公正的覆盖，我们使用WordNet[1]作为选择对象和运动类的主干。
Wordnet是一个英语词汇数据库，它根据词义对单词(名词、动词、形容词和副词)进行分组和组织。例如，WordNet中的名词根据上下义关系(即是的一种/成员)联系在一起，形成树形结构。名词的根结点是实体，它有对象、事物、实体、处所等几个细节。

在GOT-10K中采集的每个视频都附有二维标签：对象类和运动类。我们扩展了五个名词：动物、人、人工制品、自然对象和部分WordNet，以收集移动对象的潜在类的初始池，并扩展运动、动作和运动以收集运动类。通过手动过滤和修剪词子树(例如，移除已灭绝的、静态的和重复的对象类，分组关闭的子类等)，我们获得了大约2500个对象类和100多个运动类的池。虽然我们可以直接将这些单词发送到数据采集器进行视频采集，但池中包含许多不常见的对象类(例如，宽尾、abrocome和popingay)，这使得收集过程的效率较低，甚至可能会忽略一些常见的类。为了提高效率，我们首先将2500个对象分类到121个组(例如，幼虫、犬类、无脊椎动物和灵长类)，以确保每个组都被收集到，然后我们根据去年在YouTube网站上相应的搜索量对每个组中的对象类进行排序。搜索量反映了每个词的热度和上传视频的数量，因此排名可以指导收藏者更好地找到有代表性和合格的视频。

我们聘请了一家有资质的数据公司进行视频采集。表3列出了视频采集和验证的总体流程。综上所述，我们进行了1个采集阶段和5个验证阶段，以确保收集到的每一段视频质量。包含长期静止物体、噪声片段(例如，镜头变化、长期目标缺失、轨迹太短或不完整等)的有缺陷视频。或者在验证阶段过滤掉重复的场景。对于每个收集的数据，前3个阶段的验证在公司进行，然后我们有2个训练有素的审核员对每个视频进行审核，并决定是否接受每个视频。之后，这部作品的作者展示所有经过过滤的视频，并进行最后一次筛选(决定是否接受每段视频)。所有被拒绝的视频将被数据公司收集的新视频取代。验证过程保证了所有接受的视频都经过了作者的可视化检查，质量得到了保证。

最终的池包含563类运动对象和87类运动，总规模约为1万个视频。图1展示了GOT10k视频的一些截图，这些视频标记了不同的对象和运动类别。图4显示了采集阶段使用的121个对象类分组的最终视频编号分布，并以OTB2015数据集为对比。从图中我们可以看到，不同组别的分布是不平衡的。这种不平衡主要是由收集和验证阶段的过滤过程造成的。在数据收集过程中，我们发现一些对象类在YouTube上很少被捕获，合格的视频很少，而另一些对象类被拍摄的频率更高，质量和多样性更好。此外，在验证阶段，许多类别的视频由于场景和动作单一、对象不完整、动作非常缓慢或轨迹碎片化而经常被过滤掉。经过几轮验证，我们的数据集的视频自然呈现出跨类分布的不均衡。

在ImageNet[24]（10∼每班2500张图片），YouTube BB[26]（26k∼每班1.8米标签）和最近的开放图像[27]（10∼每班10k标签）。这也是自然物种和互联网数据分布中的一种普遍现象，正式命名为长尾分布(Long-Tailed Distribution)[39]。长尾分布是普遍存在的现象，在这种不平衡数据下进行学习对于实际应用是一个重要的课题，它已经被研究了多年[37]，[38]，[39]，[40]。我们相信，我们训练数据的类别不平衡带来了有意义的挑战，这鼓励了设计和开发更实用、更具可扩展性的通用对象跟踪器。

作为一个特例，类似于YouTube BB数据集，我们根据数据收集期间的视频总数（约占我们整个数据库的24%）给予人类优惠待遇。主要原因有两个。首先，人物班特别重要，研究界和行业都对跟踪视频中的人非常感兴趣。其次，人们接受丰富的外表变化(例如，多样化的服装、包包和配饰)和运动形式(例如，慢跑、游泳、滑雪、爬行、骑自行车、跳水、攀登、骑马、柔道、冲浪、舞蹈和体操)，它们出现在各种各样的场景中(例如，森林、沙漠、山崖、健身房、派对和舞厅)。因此，它们往往比其他类别的物体表现出更高的多样性，这可能更有利于通用目的追踪器的学习。

3.2 轨迹注释

我们遵循物体检测标准[25]来标记物体的紧密边界框。请注意，这与一些视觉跟踪数据集(如VOT[5]、[8])不同，在VOT[5]、[8]中，最佳对象边界框被定义为旋转的包含最小背景像素的矩形。由于视觉跟踪算法经常用于许多相关领域，如视频对象检测[33]，[34]和分割[35]，多对象跟踪[36]和自我监督学习[31]，[32]，保持兼容的注释标准鼓励开发更实用的跟踪器。

除对象边界框外，GOT-10k还提供可见比率的注释。可见比率是表示可见对象的近似比例的百分比。被图像边界遮挡或截断的像素对应于不可见部分。正如许多跟踪基准[4]，[12]，[17]所指出的那样，遮挡是最容易导致跟踪失败的最具挑战性的因素之一。我们希望可见比率的标签可以促进跟踪社区开发遮挡感知跟踪方法。我们将可视比率分为7个范围，步长为15%。图5(a)-(d)比较了不同跟踪数据集的每帧遮挡标签，图5(e)显示了我们的数据集中标注的可视比率的累积分布。通过可见比率，GOT10k提供了更连续的目标遮挡状态标记（遮挡/截断百分比可以很容易地计算为（1− v）使用可见比率v）。与视频收集类似，我们使用1个注释阶段和4个验证阶段来确保每个注释的质量。表4列出了管道。对于带注释的数据，在数据公司进行前3个阶段的验证，然后作者将对每段视频进行审核，并决定是否接受其注释。所有不合格的注释都被送回公司进行改进。
验证过程确保了所有接受的视频都经过了几轮可视化和检查，质量得到了很大程度的保证。

3.3 数据集拆分

我们将GOT-10k数据集分为统一的训练，验证和测试集，以实现跟踪方法的公平比较。与许多其他机器学习应用[24]，[26]不同，通用对象跟踪数据集的分割并不简单（即通过随机采样一部分数据）。一方面，我们期望评估结果反映不同方法在各种对象和场景中的泛化能力。为此，必须在培训和测试视频之间建立明确的领域差距。另一方面，我们不需要数千个视频来评估跟踪算法。此外，跟踪器的评估非常耗时，因此保持测试集相对紧凑是有利的[3]，[8]。

首先，我们引入了One-Sshot协议，并建立了一个严格的规则，其中在训练和测试视频的目标类是不重叠的，然而，person类被视为例外。与其他类别的物体不同，人们接受丰富的运动模式，如慢跑、游泳、滑雪、爬行、骑自行车、跳水、骑马、柔道和冲浪，仅举几例。每种运动模式代表了挑战的特殊组合，从而形成了一个问题域。我们认为，具有如此多样性的对象类对培训和评估都非常感兴趣，因此我们既包括培训集的人员，也包括测试集中的人员。为了还引入域间隙，我们在分割中确保训练集和测试集之间的人的运动类别不重叠。

为了解决第二个考虑因素，我们进行了一系列实验，以找到可靠而紧凑的测试集。我们将测试集作为一个随机变量，并从大约1000个视频的大池中提取其样本。然后，我们对每个样本进行跟踪实验，并对性能进行评估。我们在每个样本上运行25个跟踪器，并根据它们的AO(平均重叠)分数对它们进行排名。以排序稳定性，即方法排序的标准差作为评价稳定性的指标。结果如图6所示。我们在下面分析了每一个影响因素。

视频数量的影响。我们将测试视频的数量从5个调整到1000个，步长为5。图6a显示，随着视频数量的增加，排名的标准差明显减小，这表明评估的稳定性有所提高。考虑到稳定性和效率的权衡，我们在基准测试中将视频数量设置为420，其中方法等级的平均标准差小于1.0，可以获得公平的评价稳定性。虽然进一步增加视频数量(例如，1000个视频)可以进一步提高我们的排名稳定性，但这种改善是微不足道的(排名标准差的降幅小于0.5)，而且评估成本要高得多。

目标类别的影响。我们将视频编号固定为420，并将采样对象类别从5更改为115，结果如图6b所示。我们观察到随着对象类的增加，方法等级的标准差有明显的下降趋势，验证了测试集多样性对排行榜稳定性的重要性。我们在测试数据中包括84个对象类(它们与我们的训练类不重叠)，在这样的设置下，图6b中的平均标准偏差约为1.1。

运动类别的影响。在视频数量固定为420个的情况下，我们将动作类的数量从5个调整到40个。图6c显示了运动类别对排名稳定性的影响。稳定性通常随着测试集中包含更多运动类别而提高。我们的测试集中包括31个运动类，其中方法等级的标准偏差在图6c中约为1.1。

重复时间的影响。许多跟踪基准要求跟踪器在其数据集上运行多次(例如，在VOT挑战中运行15次[4])，以确保可靠的评估。这大大增加了评估成本。我们在这里定量地评估了重复时间对排名稳定性的影响。我们多次运行跟踪器，并绘制重复次数与方法等级的标准差之间的关系，如图6d所示。视频编号固定为420，重复时间从1增加到30。我们发现，在我们的大型测试集上评估时，增加重复时间对评估稳定性的贡献可以忽略不计(约为0.1)。考虑到许多跟踪器的随机性，我们将重复次数设置为3次，这对于稳定的评估是足够的。

根据上述分析，GOT-10k数据集的最后拆分如图7所示。测试集包含420个视频、84类运动对象和31种运动形式，在这样的设置下可以观察到相当稳定的排名(图6)。除了Person类，训练和测试视频之间的所有目标类都是不重叠的；而对于Person，训练集和测试集之间的运动类不重叠。我们将每个类别的最大视频数量限制在8个(仅占测试集大小的1.9%)，以避免较大规模的类别主导评估结果。验证集是通过从训练子集中随机抽样180个视频来选择的，并且在不同的目标类上具有均匀的概率。对于每个随机跟踪器，我们运行3次实验，并对分数进行平均，以确保评估的可重复性。

4.实验

在这一部分中，我们对GOT-10K进行了大量的实验，并对实验结果进行了分析。我们预计基线性能将提供GOT10k总体难度的一个方面，并为未来的工作提供一个比较点。我们还讨论了现实世界跟踪的挑战以及训练数据对深度跟踪器性能的影响。

4.1 基准模型

我们在这项工作中考虑了最近的基于深度学习和相关过滤器的跟踪器，因为它们在最近的跟踪基准和挑战中很流行[3]，[4]，[12]，[13]。我们还对一些传统的先锋作品进行了完备性评估。在我们的基准测试中评估的基准跟踪器在下面简要描述。

基于深度学习的跟踪器。近年来，深度学习在很大程度上提高了跟踪性能[46]、[57]、[60]、[65]。在这项工作中，我们考虑Siamese跟踪器SiamFC[46]及其变体CFNet[63]、DCFNet[75]、DSiam[72]、SASiam[76]和SiamDW[78]；递归跟踪器MemTracker[80]；基于元学习的跟踪器MetaTracker[61]；注意力跟踪器DAT[79]；以及其他基于卷积神经网络的方法MDNet[60]，GOTURN[54]，CF2[59]，RT-MDNet[77]。为了确保公平和有意义的比较，我们在GOT-10k的训练集上重新训练了这些算法，而不使用额外的训练数据。然而，正如在许多计算机视觉任务[70]中广泛实践的那样，我们允许这些方法在GOT-10k上训练之前使用ImageNet[24]预先训练的权重来进行模型初始化。我们采用这些深度跟踪器的默认选项，其中DSiam、SASiam、SiamDW、MetaTracker、MDNet、GOTURN、CF2和RTMDNet的主干完全或部分从ImageNet预先训练的权重初始化，而所有其他跟踪器都是从头开始训练的。

基于相关过滤器的跟踪器。在我们的评估中，我们考虑了基于相关滤波器的跟踪的先驱工作：CSK[55]、KCF[56]及其变体ColorCSK[62]、SAMF[58]、DSST[48]、Staple[45]、SRDCF[51]、SRDCFdecon[52]、CCOT[53]、BACF[69]、STRCF[81]、DeepSTRCF[81]、ECO[47]和LDES[82]。Mosse[68]被认为是第一个将相关滤波器引入目标跟踪的方法。CSK将非线性核引入相关滤波器。ColorCSK、KCF和Staple通过多通道视觉功能扩展了CSK。SAMF和DSST提出了有效的尺度搜索相关滤波器跟踪方案。为了处理边界效应，SRDCF和SRDCFdecon在学习的滤波器上应用空间正则化，而BACF在较大的偏移样本上使用中心裁剪来消除边界的影响。STRCF将时间正则化引入SRDCF，以处理较大的外观变化。CCOT提出了一种连续卷积算子来集成卷积神经网络的多层特征，而ECO则通过几个方面的改进提高了CCOT的速度和精度。LDES扩展了相关过滤器，使其能够估计比例和旋转变化。

传统的追踪器。除了流行的基于深度学习和相关滤波器的方法外，我们还对一些传统的开创性工作进行了评估。它们包括生成法LK[74]、IVT[66]、L1APG[67]和判别法Meem[49]。虽然这些跟踪器在最近的基准测试中并不是最先进的，但它们的算法设计可能会启发未来的工作，因此我们也将它们包括在我们的基准测试中，以确保其完整性。

对于所有评估的模型，我们在整个实验过程中使用它们的公共代码和默认参数设置。虽然调整验证集上的参数可能会提高它们的性能，但这需要大量的工作。在这一点上，本文的评估结果可以看作是这些算法的一个下界。

4.2 评价方法论

在这项工作中，我们倾向于使用具有明确含义的简单度量来评估跟踪器。我们选择广泛使用的平均重叠度(AO)和成功率(SR)作为我们的指标。AO表示所有基本事实和估计边界框之间重叠的平均值，而SR测量重叠超过阈值(例如，0.5)的成功跟踪帧的百分比。AO最近被证明等同于OTB[9]、[12]、NFS[14]、UAV[15]、TrackingNet[19]和LaSOT[20]数据集中使用的曲线下面积(AUC)度量。此外，用于VOT挑战总体排名的预期平均重叠(EAO)度量近似于较大视频池的AO。SR指标也用于OTB2015[12]和OxUvA[13]数据集中。它清楚地指示了在一定精度下跟踪或丢失了多少帧，这是许多应用程序所关注的。

现有的跟踪基准直接通过对序列分数进行平均来获得最终性能，完全忽略了评估中潜在的类别不平衡(即，序列越多，权重越高)，我们提出了类别平衡度量方法，这与已有的跟踪基准不同的是，它完全忽略了评估中潜在的类别不平衡(即，序列越多，权重越高)。以AO为例，类别平衡度量MAO(平均重叠)的计算公式为：

其中C是类别数量，Sc表示属于第C类的序列的子集，而|Sc|是子集尺度。在公式中，首先(在括号中)计算类别的AO，然后求平均值以获得最终分数，对不同的类别一视同仁。同样的原理也适用于SR，其中mSR是通过将SRs在不同类别中平均。我们使用两个重叠阈值0.5和更严格的0.75来计算mSR。

在我们的基准测试中使用了成功曲线[9]、[12]来可视化跟踪结果。成功曲线的每个点都显示重叠超过阈值的帧的百分比。成功曲线提供了跟踪结果的连续测量，范围从鲁棒性(重叠率较低但跟踪的帧较多)到精度(重叠率较高)[12]，[73]。如第3.3节所述，对于每个随机方法，我们运行3次跟踪实验，并对评估结果进行平均，以获得稳定的评估。

4.3 整体表现

我们使用平均平均重叠(mAO)和平均成功率(mSR)对跟踪器进行总体评估，如第4.2节所述。对于深度跟踪器，我们对他们每个人进行了GOT-10K的再培训，以实现公平的比较(有关详细信息，请参阅4.1节)。所有实验都在一台服务器上运行，该服务器配备56核英特尔(注册商标)至强(注册商标)2.0 GHz CPU和4块GeForce GTX Titan X显卡。表5说明了所有基线模型的评估结果，按mAO得分排序。图8a显示了他们的成功曲线。为了进行比较，我们还在OTB2015上重新评估了基线方法，并在GOT-10k上重新训练了相同的权重，结果如图8b所示。

GOT-10k上排名前五的跟踪器是MemTracker、DeepSTRCF、SASiamP、SASiamR和SiamFCv2。除了基于相关滤波器的方法DeepSTRCF之外，所有其他跟踪器都建立在完全卷积Siamese网络上[46]。MemTracker的性能最好，在MAO、mSR50和mSR75方面分别比排名第二的跟踪器高出1.1%、3.3%和0.3%，而其他4种跟踪器的性能接近。以下5个跟踪器是GOTURN、DSiAM、SiamFCIncep22、DAT和CCOT，其中DSiam和SiamFCIncep22是基于Siamese网络的方法，GOTURN是Siamese边界盒回归跟踪器，DAT是建立在注意力机制之上的，而CCOT是基于相关过滤器的，它使用预先训练的CNN进行特征提取。在仅使用手工制作功能的传统跟踪器中，STRCF、ECOhc、LDES、BACF和Staple获得了前五名的评估分数。虽然没有使用深度功能，但它们的结果可以与MDNet和CFNet等深度跟踪器相媲美，甚至更好。从评测结果可以看出，GOT-10k上的MAO最高得分只有46.0%，这说明在现实世界中无约束视频的跟踪是困难的，仍然没有得到解决。

通过比较GOT-10K和OTB2015的评估结果，我们观察到方法的顺序发生了显著的变化。例如，ECO在OTB2015上的性能最好，但在GOT10k上的性能要差得多。另一方面，GOTURN在OTB2015上的得分很低，而在GOT10k上的表现却超过了大多数跟踪者。此外，通过对一些方法及其改进版本的比较，我们还可以观察到OTB2015和GOT-10k评估结果的差异。例如，ECO在几个方面提高了CCOT，在2015年的OTB2015上表现优于CCOT，但在GOT-10k上，其MAO得分低于CCOT。通过比较DSST与其改进版本fDSST和SRDCF与其改进方法SRDCFdecon，也可以观察到类似的现象。造成这种差异的一个可能原因可能是，一些高性能的跟踪器对小数据集过于适应，或者它们需要一定量的超参数调整才能获得更好的性能，而框架简单的方法在具有挑战性的场景中可能具有更好的泛化能力。

表5中的速度(fps)列显示了不同方法的跟踪速度。在GPU跟踪器中，GOTURN的速度最高，达到每秒70.1帧(Fps)，紧随其后的是SiamFC(32.6fps)和CFNetc1(32.6fps)。GOTURN和SiamFC得益于其极其简单的架构和跟踪流水线，而CFNet在端到端可学习模块中重新设计了高效的相关滤波器，以实现高速跟踪。在CPU平台上，IVT是运行速度最快的跟踪器，速度约为47.3fps，紧随其后的是CSK和ECOhc。相关滤波器的训练和推理效率对CSK和ECOhc的高速性能起着关键作用，而快速增量子空间更新方案则有助于提高IVT的效率。请注意，在GOT-10k上评估的跟踪速度通常低于他们在OTB和VOT上报告的结果。这是因为GOT-10k中视频和对象的分辨率远远高于OTB和VOT数据集(3∼9倍)。虽然这些高分辨率视频由于在更大的图像处理(例如，裁剪、调整大小和填充)上花费了更多的计算成本而降低了几乎所有跟踪器的速度，但那些将搜索区域下采样到固定大小的方法(例如，大多数暹罗跟踪器，如SiamFC、SASiamP和CFNet)受到的影响较小；而那些搜索区域大小与对象的分辨率成比例的方法(例如，一些基于相关滤波器的方法，如CSK、KCF和DSST)在我们的视频上运行的速度要慢得多。

4.4 通过挑战进行评估

虽然总体性能反映了跟踪器的总体质量，但它不能根据不同的属性来区分它们，从而反映出每种方法的优缺点。在本节中，我们将从不同挑战的角度分析跟踪器的性能。

与许多现有基准测试[9]、[12]、[20]中广泛采用的主观标记每个帧或视频的属性不同，我们更喜欢一种更客观和可伸缩的挑战标记方法，以便标记是可重现的，并且不偏向于注释者。与[13]类似，我们为每个视频帧设置了一组连续的难度指标，这些指标可以直接从注释中计算出来，其定义如下：

遮挡/截断。遮挡/截断指示符可以从可见比率v的标记中直接推导出来。我们将遮挡/截断程度定义为(1−v)。

尺度变化。第i帧中目标的尺度变化由max{si/si−T, si−T/si}来测量，其中 $s_{i} = \sqrt{w_{i}h_{i}}$ 表示目标大小，而T是用于评估最后T帧上的尺度变化的时间跨度。我们在评估中设置了T=5。

纵横比变化。物体的变形和旋转可以通过纵横比的变化来表征。我们测量第i帧中纵横比的变化程度，公式为max{ri/ri−T, ri−T/ri}，其中ri=hi/wi，T是固定为T=5的时间跨度。

动作快。我们在第i帧测量相对于其大小的对象运动速度为：

其中pi表示对象中心位置， $s_{i} = \sqrt{w_{i}h_{i}}$ 表示目标大小。

照明变化。每一帧中的照明变化程度可以通过平均颜色ui=||ci−ci−1||的变化来测量，其中ci是帧i处的平均对象颜色(其中rgb通道归一化为[0, 1])。

低分辨率目标。尺寸较小的目标可能会影响跟踪性能，因为可以从中提取不太细粒度的特征。我们通过将目标的大小与数据集中目标大小的中位数进行比较来测量目标的分辨率。形式上，该指示符被定义为si/sMedium，其中 $s_{i} = \sqrt{w_{i}h_{i}}$ ，sMedium是我们的测试数据中所有帧上目标大小的中位数。我们在评估中只考虑具有si≤sMedium的帧。

当获得所有的帧难度指标时，我们将它们的值分成几个离散的区间，并计算每个区间内的帧子集的AO分数。这场演出非常精彩。每个挑战性属性的难度增加如图9所示。从该图中，我们观察到当难度增加时，对于快速运动、纵横比变化、比例变化和照明变化的属性的跟踪性能明显下降。这表明在快速的目标状态(位置、比例和方向)和外观(姿势和照明条件)变化下的跟踪对于当前的跟踪器来说仍然是具有挑战性的。我们还发现，当目标的可见率变低(即低于0.5时)时，跟踪性能迅速下降，这表明当目标的特征被截断或受到外部干扰的影响时，很难进行鲁棒跟踪。对于属性目标分辨率，我们观察到，当目标的分辨率相对较高(即，高于0.3)时，AO分数变化不大；但当其分辨率变得非常低(即，低于0.3)时，AO分数迅速下降。这表明很难跟踪低分辨率或非常小的运动对象。一般来说，对于所有6个具有挑战性的属性，难度的增加会导致几乎所有基线跟踪器的性能显著下降。

在基线跟踪器中，GOTURN在比例变化和纵横比变化子集上的性能有所提高，与其在完整测试集上的排名相比，其排名分别提高了3位和2位。这一改进可以归功于它能够回归到任意大小的边界框。ECO和CCOT在快速运动和低分辨率子集上的表现远远好于其他跟踪器，这与它们的大搜索区域(4.5倍于目标大小)和多分辨率特征(HOG、CNN的浅层和深层输出)的聚合设计是一致的。Siamese跟踪器(例如，MemTracker、SASiamR、SASiamP、SiamFCv2、DSiam和SiamFC)在遮挡/截断子集上执行良好。这可能是因为与基于分类器学习的方法(例如，DeepSTRCF、CCOT、ECO等)相比，模板匹配机制不太容易对遮挡器过度拟合。此外，我们注意到MemTracker性能在所有6个具有挑战性的属性上都非常稳定。这可能是因为它的记忆机制，这种记忆机制是离线学习的，目的是在适应性和过度适应之间找到适当的平衡。

4.5 按对象和运动类别进行评估

在本节中，我们将讨论基线跟踪器针对不同对象和运动类别的性能。一个物体或运动类可以粗略地表示跟踪挑战的自然分布，因此，对类性能的分析可能会引导我们找到当前跟踪器的优势和瓶颈。

目标类别。根据我们的目标类和更高级别的类组之间的对应关系(详见3.1节)，我们将测试集中的84个对象类分为42个组，并评估每个类组上所有基线跟踪器的AO分数。结果如图10(a)所示，在图10(a)中，根据在相应子集上评估的平均AO分数对类进行排序。虽然基线算法的性能在不同的对象类之间差别很大，但我们仍然可以看到不同对象类之间总体难度的差异。一般来说，小的(如球、鸟和幼虫)、薄的(如蛇、鱼和蜥蜴)和快速移动的(如鸟、犬、灵长类和啮齿动物)物体通常比大的或慢的物体(如叉角羚、海牛、马车和军舰)更难跟踪。此外，与相对刚性的对象(例如，各种车辆)相比，具有大变形的对象(例如，蛇、灵长类动物、鳄鱼爬行动物和蜥蜴)通常导致较低的跟踪性能。观察结果与第4.4节中的挑战分析大致一致。我们还注意到Person类只表示中等难度的对象，在42个类组中排名第17位。

运动类别。我们在标记了不同运动类别的测试视频子集上评估基线跟踪器。排序结果如图10(b)所示。从图中我们可以观察到不同动作类的整体难度有显著差异。一般来说，快速和戏剧性的动作(如吹气、打球、击打、速度滑冰和跳跃)通常比温和的动作(如跳水、水肺潜水和转身)更难跟踪。另一个影响因素可能与潜在的背景杂波有关。对于一些较容易的动作类，如潜水、潜水、雪橇、滑冰和滑雪，背景可能通常很简单，颜色和纹理都很单调；而对于一些较难的动作类，如吹、玩、攀登、游泳和手球，周围的环境通常很复杂，可能会有潜在的干扰和背景杂乱，这给跟踪带来了进一步的挑战。

人的运动类别。Person类包含一组丰富的运动形式，每种形式都代表跟踪的各种挑战的组合。它也是许多工业应用的核心问题。因此，我们从人的不同运动类别出发，分别分析了人的跟踪性能。结果如图10(c)所示。一般来说，动作剧烈的运动类别(如速度滑冰、手球、甲板网球和曲棍球)、潜在的背景杂乱(如手球、攀岩和摩托车)和潜在的大变形(如攀岩)通常更难跟踪，算法可能会漂移到干扰或遮挡；而背景可能更干净的运动类(如跳水、雪橇和滑雪)通常更容易跟踪。

4.6 训练数据的影响

在这一部分中，我们分析了训练数据对深度跟踪器性能的影响。我们的评估涵盖了多个方面，包括训练数据的规模、对象多样性、运动多样性和类分布，以及训练集和测试集之间的类重叠。我们还进行了实验来评估深度跟踪器的跨数据集(即在一个数据集上进行训练，而在另一个数据集上进行测试)的性能。除非特别说明，否则消融研究将基于四种不同的深度跟踪器进行：MemTracker、SiamFCv2、GOTURN和MDNet。我们将在下面讨论这些结果。

规模的影响。我们训练这四个跟踪器，视频数量从15个指数增加到9335个，乘数为5。结果如图11a所示。我们惊讶地发现，不同深度跟踪器在数据规模上的依赖程度有很大不同。MemTracker和SiamFCv2的性能随着更多训练数据的使用而显著提升，9335个视频的趋势并不收敛--似乎它们可以从更大的训练集中受益。GOTURN在开始时会获得较高的MAO得分，因为使用的数据越多，性能就会收敛，甚至会随着规模的增大而下降，这可能表明拟合不足。相比之下，MDNet似乎对训练数据的规模不敏感--只有15个训练视频，其性能大致饱和，而进一步扩大数据规模对其评估结果的影响很小。这些方法对数据规模的依赖程度不同，部分原因可能是它们的可训练模型大小不同。MemTracker和SiamFCv2建立在随机初始化的5层AlexNet[71]之上，它们允许所有参数都是可训练的。因此，在较小规模的训练数据上，它们容易过度拟合；而在较大的训练数据上，它们有更大的改进空间。相比之下，MDNet和GOTURN是从ImageNet预先训练的权重初始化的，它们在训练期间固定早期层。因此，这两种方法可以用少量的训练数据提供良好的性能，但它们可能很难从更大的训练数据中进一步受益。

目标多样性的影响。我们将训练视频的数量固定为2000个，随机抽样的对象类的数量从5个指数变化到405个。评估结果如图11b所示。我们观察到MemTracker，SiamFCv2，和GOTURN，因为训练数据中引入了更多的对象类。值得注意的是，MemTracker和SiamFCv2在将对象类的数量从5个增加到405个时，MAO得分急剧增加(接近15%)，而且趋势似乎不会在405个类上收敛，这表明训练数据中对象多样性对两种跟踪器泛化性能的重要性。相比之下，MDNet的性能受训练数据中对象多样性的影响较小。

运动多样性的影响。在训练数据尺度固定为2000的情况下，我们将随机采样的运动类别的数量从4个指数增加到64个。评估结果如图11c所示。从图中我们发现，MemTracker和SiamFCv2的性能随着运动类别的增加而显著提高。SiamFCv2的MAO分数在16个动作类达到峰值，而MemTracker继续提高直到引入64个运动类。相比之下，GOTURN和MDNet的性能与训练数据的运动多样性关系不大。这可能是因为GOTURN和MDNet的早期层是从ImageNet预训练权重初始化的，其在任务[35]、[36]、[70]上表现出良好的泛化能力，因此它们的跟踪性能受数据多样性的影响较小。SiamFCv2和MemTracker是完全从头开始训练的，它们对训练数据的多样性有更高的依赖性。此外，MemTracker从大量的视频数据中学习动态记忆的建模，这可能是MemTracker比其他跟踪器对训练数据中的运动多样性具有更高的依赖性的原因。

关于平衡与不平衡数据的训练。与许多大规模数据集[24]、[26]一样，GOT10k的类别分布是不平衡的。为了评估类不平衡对深度跟踪器性能的影响，我们从GOT-10k中随机抽取100个目标类，并构造了两个训练集：一个是平衡训练集，每个类有20个序列；另一个是保持原有不平衡类分布的不平衡训练集。两个训练集都包含2000个序列。我们在这两个集合上训练了四个深度跟踪器，并根据我们的测试数据评估了它们的性能。结果汇总如表7。从结果中我们意外地发现，类别不平衡对跟踪性能的影响并不显著，其中MemTracker和MDNet的MAO分数在不平衡数据上训练时下降了2%左右，而GOTURN和SiamFCv2的分数上升了1%左右。我们认为这是因为深度跟踪器的泛化能力受到数据多样性的几个方面的影响，如目标和运动类的多样性、场景和挑战性属性的多样性，单独的目标类分布对深度跟踪器性能的影响可能是有限的。

对平衡数据和不平衡数据进行测试。虽然我们将每个类的最大视频数量限制为8个(测试集大小的1.9%)，并使用类平衡度量，但我们测试数据的类分布毕竟略有不平衡。为了评估这种轻微的不平衡如何影响评估稳定性，我们随机抽样了平衡测试集(类分布均匀)和不平衡测试集(类分布接近我们的测试数据)。然后对它们的排序稳定性进行了评价。结果如表8所示。我们观察到，虽然在平衡测试集上评估的等级的标准差比在不平衡测试集上评估的标准差相对较小，但差异是微乎其微的(约0.1)。此外，该方法在两类测试集上的平均排名绝对值相差很小(1：25∼1：3)，表明在MAO和MSR度量下，我们的测试集在评价稳定性上的轻微类不平衡是有限的。

对看过的与没见过的类别进行评估。我们通过实验比较了深度跟踪器在见过和没见过的测试数据上的性能，从而评估了深度跟踪器的泛化能力。具体地说，我们从GOT-10K中随机抽取4000个视频进行训练，240个见过的类别视频和240个没见过的类别视频进行评估。考虑到抽样的随机性，我们重复了三次实验。结果在表6。通过将不可见测试集上的跟踪结果与可见测试集上的跟踪结果进行比较，我们观察到几乎所有跟踪器的性能都有明显的下降(降低了0.1%∼5.9%)。这种退化表明深度跟踪器在不熟悉的物体上的局限性，也验证了我们的一次性协议在促进通用跟踪器发展方面的合理性。

交叉数据集评估。通过实验比较了深度跟踪器在GOT-10k和常用的ImageNet-VID数据集上的训练性能。具体地说，我们在GOT-10k和ImageNetVID上对深度跟踪器进行了重新训练，并在OTB2015和GOT10k上评估了它们的性能。表9总结了结果。在OTB2015数据集上，MemTracker和SiamFCv2在GOT-10k上训练的AO得分与那些在ImageNet-VID上训练的相比获得了大约1%的绝对增益；而GOTURN和MDNet在GOT-10k上训练的OTB2015上的结果更差。另一方面，当在GOT-10k上进行评估时，与Imagenet-VID相比，所有跟踪器在GOT-10k的训练集上的训练都有显著的改善(提高了1.1%∼2.2%)。跨数据集评估结果表明，OTB2015和GOT-10k之间存在潜在的领域差距。OTB2015只包含几个常见的对象类(例如，人、汽车、人脸和自行车)，并且对于大多数目标来说，比例和纵横比的变化都很小。相比之下，GOT-10k填充了超过560类移动对象和各种运动形式。因此，在多样性较低的数据集(即只包含30个对象类的ImageNet-VID)上进行训练可能会限制深度跟踪器对测试数据的泛化能力。

5.结论

在本文中，我们介绍了GOT-10K，这是一个大型、高多样性、单次跟踪的数据库，覆盖了前所未有的真实世界运动目标。GOT-10K收集了563个对象类的10,000多个视频，并手动标注了150万个紧边界框。它也是第一个遵循一次性协议的跟踪数据集，以促进跟踪器开发的泛化。我们首先描述了GOT-10K的结构，展示了在我们的收集和注释阶段如何保证多样性和质量。然后介绍了我们为建立一个高效和相对公正的通用跟踪器评估平台所遵循的原则和我们进行的分析实验。最后，我们在我们的数据集上训练和评估了一些最新的跟踪方法，并分析了它们的结果。我们展示了现实世界中无约束场景下通用目标跟踪面临的主要挑战，并讨论了训练数据对跟踪性能的影响。我们希望GOT-10K能在通用目标跟踪等领域产生新的研究成果。

GOT-10k: A Large High-Diversity Benchmark forGeneric Object Tracking in the Wild（论文翻译）相关推荐

Online Object Tracking Benchmark(OTB)目标跟踪系统评估方式
主要涉及到一些评估方式的讲解: 评估数据集: OTB50和OTB100(OTB50这里指OTB-2013,OTB100这里指OTB-2015) Wu Y, Lim J, Yang M H. Onlin ...
Online Object Tracking : A Benchmark
本文转载于:roamer_nuptgczx的博文,链接:http://blog.csdn.net/roamer_nuptgczx/article/details/51379191 个人感觉这篇文章翻译 ...
Paper之BigGAN：《Large Scale Gan Training For High Fidelity Natural Image Synthesis》翻译与解读
Paper之BigGAN:<Large Scale Gan Training For High Fidelity Natural Image Synthesis>翻译与解读目录效果 1 ...
【论文翻译】nuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles
论文链接:https://arxiv.org/pdf/2106.11810.pdf 标题 nuPlan: A closed-loop ML-based planning benchmark for a ...
MapReduce: Simplified Data Processing on Large Clusters论文翻译（MapReduce-OSDI04）
作者 Jeffrey Dean and Sanjay Ghemawat jeff@google.com, sanjay@google.com Google, Inc 摘要 MapReduce是一个编程 ...
论文翻译：Exploring Large and Complex Environments Fast and Efficiently
对cmu的探索算法的结构论文进行翻译如下: 论文名:Exploring Large and Complex Environments Fast and Efficiently https://www. ...
用于高保真自然图像合成的大规模GAN训练（Large Scale GAN Training For High Fidelity Natural Images）论文 pdf
下载地址:https://u20150046.ctfile.com/fs/20150046-376632643 By Andrew Brock,Jeff Donahue,Karen Simonyan( ...
A Benchmark and Simulator for UAV Tracking（论文翻译）
目录摘要 1.引言相关工作 2.基准--离线评估 2.1 数据集 2.2 评估算法 2.3 评估方法 3.模拟器-在线评估 3.1 设置和限制 3.2 评估的新方法 3.3 评价方法论 4.实验 ...
LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking（论文翻译）
目录摘要 1.引言 1.1 贡献 2.相关工作 2.1 密集基准 2.2 其他基准 3.提出的LaSOT基准 3.1 设计原则 3.2 数据收集 3.3 注释 3.4 属性 3.5 评估方案 4. ...

GOT-10k: A Large High-Diversity Benchmark forGeneric Object Tracking in the Wild（论文翻译）

摘要

1.引言

2.相关工作

3.GOT-10K的构建

4.实验

5.结论

GOT-10k: A Large High-Diversity Benchmark forGeneric Object Tracking in the Wild（论文翻译）相关推荐

最新文章

热门文章