SORT:SIMPLE ONLINE AND REALTIME TRACKING论文翻译

概述：

多目标跟踪中SORT算法的理解

在跟踪之前，对所有目标已经完成检测，实现了特征建模过程。
1. 第一帧进来时，以检测到的目标初始化并创建新的跟踪器，标注id。
2. 后面帧进来时，先到卡尔曼滤波器中得到由前面帧box产生的状态预测和协方差预测。求跟踪器所有目标状态预测与本帧检测的box的IOU，通过匈牙利指派算法得到IOU最大的唯一匹配（数据关联部分），再去掉匹配值小于iou_threshold的匹配对。
3. 用本帧中匹配到的目标检测box去更新卡尔曼跟踪器，计算卡尔曼增益、状态更新和协方差更新，并将状态更新值输出，作为本帧的跟踪box。对于本帧中没有匹配到的目标重新初始化跟踪器。

其中，卡尔曼跟踪器联合了历史跟踪记录，调节历史box与本帧box的残差，更好的匹配跟踪id。
————————————————

SIMPLE ONLINE AND REALTIME TRACKING

ABSTRACT

本文探讨了一种实用的多目标跟踪方法，其主要重点是在在线和实时应用程序中有效地关联对象。为此，检测质量被确定为影响跟踪性能的关键因素，更换检测器可使跟踪性能提高18.9%。
尽管只使用了一些常见技术的基本组合，如卡尔曼滤波器。和匈牙利算法的跟踪组件，这种方法达到了一个精确度，可以媲美最先进的在线跟踪器。
此外，由于我们跟踪方法的简单性，跟踪器更新速度为260赫兹，比其他最先进的跟踪器快20倍。

1. INTRODUCTION

针对多目标跟踪问题，提出了一种精简的跟踪-检测框架。与许多基于批量的跟踪方法[1,2,3]相比，这项工作主要是针对在线跟踪，只有来自前一帧和当前帧的检测提交给跟踪器。此外，大力强调效率，以促进实时跟踪，并促进更多的应用，如行人跟踪自动车辆。

Mot 问题可以看作是一个数据关联问题，其目的是将视频序列中的多帧检测关联起来。为了帮助数据联想过程，追踪器使用各种方法来建模场景中物体的运动[1,4]和外观[5,3]。本文采用的方法是通过对最近建立的一个视觉标准进行观察得出的[6]。首先，成熟的数据关联技术复苏，包括多假设跟踪(mht)[7,3]和联合概率数据关联(jpda)[2] ，它们占据了 mot 基准的许多顶部位置。其次，唯一不使用聚合通道滤波器(acf)[8]检测器的跟踪器也是排名第一的追踪器，表明探测质量可能阻碍了其他追踪器的发展。此外，精度和速度之间的权衡似乎相当明显，因为最准确的跟踪器的速度被认为是太慢的实时应用(见图1)。本文结合顶级在线和批量跟踪器中传统数据关联技术的突出特点，以及顶级跟踪器使用的不同检测方法，探讨了如何使用简单的数据关联技术，以及它的性能。

与Occam的Razor（奥卡姆剃刀理论）保持一致，在跟踪中忽略了检测组件之外的外观特征，只使用边界框位置和大小来进行运动估计和数据关联。此外，短期和长期遮挡的问题也被忽略，因为它们很少发生，而且它们的显式处理给跟踪框架带来了不必要的复杂性。
我们认为，以对象重新识别的形式将复杂性合并到跟踪框架中会增加大量开销——这可能会限制它在实时应用程序中的使用。

这种设计理念与许多被提议的视觉跟踪器形成了对比，视觉跟踪器包含了大量的组件来处理各种边缘情况和检测错误[9,10,11,12]。相反，这项工作侧重于高效和可靠地处理常见的框架到框架关联。（公共帧到帧的关联）。我们的目的不是对检测错误保持健壮性，而是利用视觉对象检测的最新进展直接解决检测问题。通过比较常见的ACF行人检测器[8]和最近基于卷积神经网络(tional neural network, CNN)的检测器[13]可以证明这一点。
另外，采用卡尔曼滤波[14]和匈牙利方法[15]这两种经典而高效的方法分别处理了跟踪问题的运动预测和数据关联分量。这种最小化的跟踪有利于在线跟踪的效率和可靠性，见图1。
在本文中，这种方法仅适用于在各种环境下的行人跟踪，但是由于基于CNN的探测器[13]的灵活性，它自然可以推广到其他对象类。

本文的主要贡献是:

在MOT的背景下，我们利用了基于CNN的检测能力。
提出了一种基于卡尔曼滤波和匈牙利算法的实用跟踪方法，并在最近的MOT基准测试上进行了评估。
代码将开放源代码，以帮助建立一个基线方法的研究试验和采用在碰撞避免应用程序。

本文的结构安排如下: 第二部分简要回顾了多目标跟踪领域的相关文献。第三部分描述了在第四部分证明建议的精益跟踪框架对标准基准序列的有效性之前，建议的精益跟踪框架。最后，第5节总结了学习成果，并讨论了未来的改进。

2. LITERATURE REVIEW

传统的运动估计方法是使用多假设跟踪(mht)[7]或联合概率数据关联(jpda)滤波器[16,2]来解决，这种方法在对象分配存在高度不确定性的情况下，会延迟做出困难的决策。这些方法的组合复杂性是指数跟踪目标的数量，使他们不能在高度动态的环境中实时应用。最近，rezatofighi 等人[2] ，在可视化的基础上重新审视了 jpda 公式[16] ，目的是通过利用 solv-的最新发展，用 jpda 的有效近似解决组合复杂性问题整型程序。类似地，kim 等人[3]使用每个目标的外观模型来删除 mht 图，以实现最先进的性能。然而，这些方法仍然延迟决策，使他们不适合在线跟踪。

许多在线跟踪方法旨在通过在线学习建立单个对象本身[17,18,12]或全局模型[19,11,4,5]的外观模型。除了外观模型之外，运动通常被用来协助对轨迹[1,19,4,11]的关联检测。当只考虑一对一的对应关系模拟为二部图匹配时，可以使用全局最优解，如匈牙利算法[15][10,20]。

Geiger等人的方法使用匈牙利算法[15]在两个阶段的过程中。

首先，通过结合几何线索和外观线索构造亲和矩阵，将相邻帧之间的检测关联起来，形成轨迹;。然后，轨迹相互关联到桥梁断裂轨迹造成的咬合，再次使用几何和外观线索。这两步关联方法限制了这种方法的批量计算。我们的方法受到[20]中跟踪部分的启发，但是我们将关联简化为一个单一的阶段，具有基本的线索，如下一节所述。

3. METHODOLOGY

该方法通过检测、将目标状态传播到未来帧、将当前检测与现有对象关联、管理被跟踪对象的生命周期等关键部分来描述。

3.1. Detection

为了利用基于 cnn 的检测技术的快速发展，我们使用了更快的区域 cnn (frrcnn)检测框架[13]。Frrcnn 是一个由两个阶段组成的端到端框架。第一阶段提取特征，提出第二阶段的区域，然后对所提出的区域中的目标进行分类。这个框架的优点是参数在两个阶段之间共享，创建了一个有效的检测框架。此外，网络架构本身可以交换到任何设计，使不同架构的快速实验，以提高检测性能。

在这里，我们比较了 frrcnn 提供的两个网络架构，即泽勒和费格斯的架构(frrcnn (zf))[21]和更深层次的西蒙尼和齐塞曼的架构(frrcnn (vgg16))[22]。在整个工作过程中，我们应用了带有默认参数的 frrcnn 为 pascal voc 挑战而学习。由于我们只对行人感兴趣，我们忽略所有其他类，只通过人检测结果输出概率大于50% 的跟踪框架。

表1。通过切换检测器组件的跟踪性能的比较。按照[12]中列出的验证序列进行评估。

在实验中，我们发现当比较 frcnn 检测和 acf 检测时，检测质量对跟踪性能有显著的影响。这是演示使用一组验证序列应用到现有的在线跟踪器 mdp [12]和这里提出的跟踪器。表1显示，最佳检测器(frrcnn (vgg16))导致最佳跟踪精度的 mdp 和所提出的方法。

3.2. Estimation Model

在这里,我们描述了对象模型,即表示和传播目标的运动模型的身份进入下一帧。
我们近似迭代帧位移线性恒定速度模型的每个对象是独立于其他对象和摄像机运动。
每个目标的状态模型是:

x = [u, v, s, r, u̇, v̇, ṡ] T ,

其中u和v代表的水平和垂直的目标中心像素位置,虽然规模s代表规模(面积)和r代表长宽比分别为目标的边界框。
注意纵横比被认为是恒定的。当检测与目标相关联时，检测包围盒用于更新目标状态，其中速度分量通过卡尔曼滤波框架得到最优解。如果没有检测与目标相关，则利用线速度模型简单地预测目标的状态，不需要进行校正。
1.关联：当检测到的目标与一个目标相关联时,检测到的边界框是用来更新目标状态，速度的组件是通过卡尔曼滤波框架[14]解决优化。
2.不关联：如果没有检测到目标相关联,它的状态是没有使用预测线性速度模型校正的。
3.3. Data Association

在对已有目标分配检测数据的基础上，通过预测目标在当前帧中的新位置估计目标的包围盒几何形状。然后计算分配代价矩阵，作为每个检测点与现有目标的所有预测包围盒之间的交集过并(iou)距离。用匈牙利算法优化求解。另外，如果对目标重叠的检测小于 ioumin，则强制使用最小欠条来拒绝分配。（此外,当检测目标重叠小于最小IOU,最小IOU拒绝任务的实施。）
我们发现边界框的IOU距离隐式处理短期由过往目标引起的遮挡。具体来说,当目标被一个遮挡对象,只有检测到遮挡物体,因为IOU距离适当的支持检测有相近规模物体。这允许两个遮挡目标由检测来纠正,而被遮挡目标不受影响，因为没有分配。（Occluder即遮挡体,Occludee即被遮挡体）

3.4. Creation and Deletion of Track Identities

当对象进入和离开图像时,需要创建或销毁相应的唯一标识。对于追踪器的制造，我们认为任何重叠少于1000的探测器，都表明存在未被追踪的物体。追踪器是初始化使用的几何包围盒与速度设置为零。由于在这一点上速度是不可观测的，速度分量的协方差被初始化为大的值，反映了这种不确定性。此外，新的跟踪器然后经历一个试用期，目标需要与侦测有关，以积累足够的证据，以防止跟踪假阳性。如果没有检测到丢失的帧，轨道将被终止。这就避免了跟踪器数量的无限增长，以及由于长时间的预测没有得到探测器的修正而导致的定位错误。在所有的实验中，tlost 被设置为1有两个原因。首先，等速度模型是一个很差的真实动态预测，其次，我们主要关注帧到帧的跟踪，其中目标重新识别是超出了这项工作的范围。此外，尽早删除丢失的目标有助于提高效率。如果一个对象重新出现，跟踪将隐式地在一个新的身份下恢复。

{创建跟踪器：我们考虑任何重叠不到IOU最小值的检测框，来表示一个无路径的对象的存在。？？？
跟踪器初始化：跟踪是由使用速度设置为0的几何边界框初始化的。
因为此时速度是没注意到的，协方差的速度部分由大的数值初始化了,反映了这种不确定性。
此外,新的追踪然后经历一个试用期,目标需要与检测结果相关联来积累足够的证据,以防止假阳性的跟踪。

跟踪终止：如果他们有T帧没有被检测到（丢失帧）。
这可以防止在长时间没有来自检测的矫正的情况下，追踪器数量的无限增长和由预测造成的本地化错误。
在所有的实验中 T loss被设置为1时,有两个原因:
1.首先,恒定速度模型是一个实时动态不强的预测,
2.其次我们主要关心如何帧到帧跟踪，对象re-id地超出了这个工作范围。
此外,尽早地删除目标增加了效率。
如果一个对象重复出现,跟踪隐式地以一个新的身份重新开始。}

4. EXPERIMENTS

我们评估了我们的跟踪实现的性能在一个不同的测试序列集，由设置的 mot 基准数据库[6] ，其中包含移动和静态摄像机序列。为了调整初始的 kalmanfilter 协方差、 ioumin 和 tlost 参数，我们使用与文献[12]中报告的相同的训练/验证拆分。使用的侦测架构是 frrcnn (vgg16)[22]。源代码和样本检测从[22]可在线。

4.1.度量因为很难使用单一的评分来评估多目标跟踪性能，所以我们使用了[24]中定义的评估度量，以及标准的 mot 度量[25] :

• mota (↑) : 多目标跟踪精度[25]。

• MOTP(↑): 多目标跟踪精度[25]。

• faf (↓) : 每帧错误警报数。

• mt (↑) : 大部分轨迹的数量。也就是说，目标公司至少有80% 的寿命使用相同的标签。

• ml (↓) : 大多数失去的轨迹。也就是说，目标至少有20% 的生命周期没有被跟踪。

• fp (↓) : 错误检测的数量。漏掉的信件数量。

• id sw (↓) : 一个 id 切换到另一个以前跟踪过的对象的次数[24]。

• frag ↓ : 由于缺少检测而中断的碎片数量。

评估措施与(↑) ，较高的分数表示更好的表现; 而评估措施与(↓) ，较低的分数表示更好的表现。真正的积极被认为有至少50% 的重叠与相应的地面真理包围盒。评估代码从[6]下载。

4.2.性能评估

跟踪性能使用 mot 基准[6]测试服务器进行评估，其中11个序列的地面真实性被保留。表2将建议的方法排序与其他几个基线跟踪器进行比较。为了简便起见，只列出了最相关的跟踪器，它们在精度方面是最先进的在线跟踪器，例如(tdam [18] ，mdp [12]) ，最快的基于批处理的跟踪器(dp nms [23]) ，以及所有近在线方法(nomt [11])。此外，还列出了启发这种方法的方法(tbd [20]、 alextrac [5]和 smot [1])。与其他方法相比，sort 在在线追踪器上获得了最高的 mota 得分，并且可以与最先进的 nomt 方法相媲美，后者要复杂得多，并且在不久的将来会使用帧。此外，排序的目的是集中于帧到帧的关联，失去的目标数量(毫升)是最小的，尽管有类似的错误否定其他追踪器。此外，由于 sort 专注于帧与帧之间的关联来生成 tracklet，因此与其他方法相比，它的丢失目标数量最少。

4.3.运行时间

最高性能解决方案的目标是将性能提高到更高的精度，通常以牺牲运行时性能为代价。虽然在离线处理任务中可能容忍慢运行时，但对于机器人和自主车辆来说，实时性能是必不可少的。图1显示了摩托车基准[6]上的跟踪器数量与其速度和准确度的关系。这表明，获得最高精度的方法也往往是最慢的(图1右下角)。在频谱的另一端，最快的方法往往有较低的准确度(图1左上角)。Sort 结合了两个理想的属性，速度和准确性，没有典型的缺点(图1右上角)。追踪器在16gb 内存的 intel i72.5 ghz 机器的单核上，以260hz 的频率运行。

5.结论

提出了一种基于帧间预测和关联的在线跟踪框架。我们的研究显示，追踪品质高度依赖侦测效能，而透过利用最新的侦测发展，只需采用传统的追踪方法，便可达致最先进的追踪品质。提出的框架在速度和准确性方面都达到了最好的性能，而其他方法通常牺牲一个为另一个。这个框架的简单性使得它非常适合作为一个基线，允许新的方法专注于对象的重新识别来处理长期的遮挡。由于我们的实验突出了检测质量在跟踪中的重要性，未来的工作将研究一个紧密耦合的检测和跟踪框架。