通用单目标跟踪综述《Handcrafted and Deep Trackers: A Review of Recent Object Tracking Approaches》

近年来，视觉目标跟踪成为一个非常活跃的研究领域。每年都会提出越来越多的跟踪算法。跟踪在人机交互、自动驾驶汽车、机器人、监控和安全等各种现实问题中有着广泛的应用。本文将回顾跟踪领域的最新的趋势和进展，并基于特征提取方法评估了不同跟踪算法的鲁棒性。我们将跟踪算法大致分为基于相关滤波的跟踪算法(CFTs)和非基于相关滤波的跟踪算法(Non-CFTs)。根据体系结构和跟踪机制，将每个类别进一步划分为不同的类型。最后，对本文的研究进行了总结，提出了一些见解，并指出了视觉目标跟踪领域的未来发展趋势。

A. 相关滤波器

在目标跟踪中，相关滤波器(CF)被用来提高鲁棒性和效率。最初，训练的需求使得CF不适合在线跟踪。近年来，最小输出平方误差和(MOSSE)滤波器[60]的发展，允许有效的自适应训练，改变了这种情况。
MOSSE滤波器的目标是使期望输出与实际输出在傅立叶域中的平方误差之和最小。MOSSE是平均合成精确滤波器(Average Synthetic precision Filter, ASEF)[61]的改进版，ASEF经过离线训练来检测目标。ASEF计算一组精确滤波器的平均值，每个滤波器都是从同一对象的不同训练图像中计算出来的，以得到输出的最佳滤波器。后来，许多最先进的CFT提出了基于MOSSE。

习惯上，设计CF的推理目的是生成背景值低、场景感兴趣区域值高的响应图。其中一种是带Kernal的循环结构[62]跟踪算法，该算法利用目标外观的循环结构，采用核正则化最小二乘法进行训练。

基于cf的跟踪方案在频域内进行计算，以控制计算成本。这些算法的总体架构遵循基于检测的跟踪方法，如图2所示。相关滤波器由序列的初始帧目标位置的裁剪目标patch图像初始化。

在跟踪过程中，使用上一帧的目标估计位置估计目标在新一帧中位置。为了有效地表示目标的外观，采用合适的特征提取方法从输入的patch中构造特征映射。边界通过应用余弦滤波器平滑。
进行相关运算，而不是累加卷积运算(exhausted convolution operation)。利用自适应学习滤波器和提取的特征之间的按元素(Element-wise)相乘，以及离散傅里叶变换(DFT)来计算响应图(response map)。DFT在频域内使用快速傅立叶变换(FFT)进行运算。再将逆FFT(IFFT)应用于响应图，得到空域的置信度图(confidence map)。通过最大的置信度得分估计出新的目标位置。在预测出结果后，通过提取特征和更新相关滤波器来更新最新预测位置上的目标外观。

设h为相关滤波器，x为当前帧，当前帧可能由提取的特征或原始图像像素组成。CNN卷积滤波器在傅立叶域中的性能与相关滤波器相似。根据卷积定理，频域中通过补零的f(h)和f(x)的之间的逐项乘法计算出响应图的相关计算，相当于在空域中的循环卷积。通常h比x的尺寸小很多，因此在变换到傅里叶域之前，使用了零填充，使得两个变换后的尺寸相同。

简而言之：空域卷积 = 频域相乘

FFT降低了计算成本，对于图像大小为n x n的循环卷积复杂度为O (n^4)，而FFT只需要O (n^2 log n)。

基于相关滤波的跟踪面临的问题，例如目标外观(方向和形状)的训练，因为它可能随时间而改变。另一个挑战是选择有效的特征表示，因为强大的特征可能提高CFTs的性能。CFTs的另一个重要挑战是尺度自适应，因为在跟踪过程中相关滤波器的大小是固定的。一个目标可能会随着时间的推移而改变其规模。此外，如果目标丢失，则无法再次恢复。

CFTs又可以细分为Basic-CFTs、正则化CFTs、基于部件的CFTs、基于孪生网络的CFTs和基于融合特征的CFTs

1) Basic Correlation Filter based Trackers

使用kernefied Correlation Filters(KCF)[63]作为基线跟踪器。跟踪器可以使用不同的特征，如HOG, color names (CN) [64]，深度特征使用Recurrent Neural Networks (RNN) [65]，convolutional Neural Networks (CNN) [21]， Residual Networks[22]。

KCF[63]算法利用高斯核函数区分目标与其周围背景进行跟踪。KCF使用cell size 4的HOG描述符(descriptors)。在跟踪过程中，在新的帧中裁剪一个图像块，计算该块的HOG特征，并通过在傅立叶域中对输入特征乘上自适应滤波器计算响应图。在响应图上应用傅立叶反变换得到空域的置信度图，置信得分最大的位置预测出新的目标位置。然后在当前预测帧种裁剪一个包含对象的新图像块，并重新计算HOG特性来更新CF。

2) Regularized Correlation Filter Trackers

判别相关滤波(DCF)跟踪算法的检测范围是有限的，因为它们要求滤波器大小和patch大小相等。
DCF可能学习到不规则形状目标物体的背景信息。
DCF是由周期假设构成的，它从一组训练样本中学习，因此可能学习负的训练图像块。
DCF响应图接近中心的分值比较精确，然而其他得分受周期假设的影响，从而降低了DCF的性能。

DCFs的另一个限制是它们被限制在一个固定的搜索区域内。DCF跟踪器在目标变形问题上表现不佳，这是由于模型过度拟合，因为从目标训练样本中学习，但缺少负样本。因此，在遮挡的情况下，跟踪器无法重新检测。较大的搜索区域可以解决遮挡问题，但模型会学习背景信息，降低了跟踪器的识别能力。因此，有必要对这些DCF的局限性纳入一种正则化措施，这些跟踪器被分类为正则化相关滤波跟踪器(R-CFTs)

Danelljan等人在DCF学习中引入空间正则化，提出了空间正则化DCF(Spatially Regularized DCF, SRDCF)。在跟踪过程中，正则化分量减弱了背景信息，如图4所示。空间正则化约束了基于空间信息的滤波器系数。通过给位于目标区域之外的系数赋更高的值来抑制背景。

deepSRDCF是使用了深度特征的改进版，SRDCFdecon是引入处理受污染的训练样本方法的改进版。

它降低了受污染的训练样本的权重，并评估了良好质量的样本。SRDCFdecon从以前的帧中提取训练样本，并给正确的训练图像块分配更高的权重。SRDCFdecon对训练样本的外观模型和权重进行联合自适应。

在SRDCF中引入了时间正则化，并引入了时空正则化CF (spatial-time regulalization CF, STRCF)。采用被动主动学习的方法，对单幅图像的SRDCF进行了时间正则化。

近年来，深度运动特征被用于活动识别。运动特征是从由应用于图像的光流直接获得的信息得到的。然后将CNN应用于光流来获得深度运动特征。

深度运动SRDCF (Deep Motion SRDCF , DMSRDCF)，将深度运特征与手工外观特征结合起来，使用SRDCF作为基线跟踪器。运动特征的计算如[93]所述。光流在前一帧的每一帧上计算。光流的x、y分量和幅值构成流图中的三个通道，流图归一化在0 ~ 255之间，输入CNN计算深度运动特征。

Danelljan等人[86]提出了学习多分辨率特征图(multi-resolution feature maps)，他们将其称为用于跟踪的连续卷积运算(Continuous Convolutional Operators for Tracking, CCOT)。其卷积滤波器是在一个连续分辨率的序列中学习的，并生成一系列的响应图。然后将这些多幅响应图进行融合，得到最终的统一响应图来估计目标位置。

高效卷积算子(Efficient Convolution Operators, ECO)[25]跟踪方案是CCOT的改进版。CCOT学习大量的滤波器以从高维特征中获取目标表示，并为每帧更新滤波器，这涉及到对大量样本集的训练。相比之下，ECO构造了一组更小的滤波器集合，以便使用矩阵分解更有效地获取目标表示。CCOT在一个序列连续的样本中学习，这个序列在一段时间后忘记目标外观，从而引起对最近的外观的过度拟合以及导致高计算成本。相比之下，ECO使用高斯混合模型(Gaussian Mixture Model, GMM)表示不同的目标外观。每当在跟踪过程中发现新的外观时，就初始化一个新的GMM组件。如果达到组件的最大限制，当GMM组件最小权重的值小于阈值时，丢弃最小权重的GMM组件。否则，两个最近的GMM组件将合并到一个组件中。