SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking

本译文为了方便自我阅读，有能力请阅读原版：https://arxiv.org/abs/1911.07241

摘要

通过将视觉跟踪任务分解为两个子问题，分别是像素类别的分类和该像素处对象边界框的回归，提出了一种新的全卷积孪生网络，以逐像素的方式解决端到端的视觉跟踪问题。该框架由两个简单的子网组成：一个用于特征提取的孪生子网和一个用于边界框预测的分类回归子网。

SiamCAR采用在线训练和离线跟踪的策略，在训练过程中不使用任何数据增强。

主要贡献有：

提出孪生分类和回归框架用于跟踪，框架结构简单，性能强大。
提出的跟踪器既无锚定又无建议，大大减少了超参数的数目，避免了跟踪器在训练过程中复杂的参数设定。

1. 相关工作

跟踪研究人员致力于从特征提取[16,17]、模板更新[35,12]、分类器设计[40]和边界盒回归[4]等不同方面设计更快更精确的跟踪器。早期的特征提取主要使用颜色特征、纹理特征或其他手工制作的特征。由于深度学习的快速发展，基于卷积神经网络（CNN）的特征被广泛采用。虽然通过模板更新可以提高跟踪器的适应性，但在线跟踪的效率较低。此外，模板更新还存在跟踪漂移问题。相关滤波方法[2,6,16,22,41,25]的引入在效率和精度上显著提高了跟踪性能。目前的研究表明，使用CNNs在线训练和离线跟踪方法的孪生网络在准确率和效率之间达到了最佳的平衡。
作为一个开创性的工作，SiamFC [1]设计一个全卷积孪生网络去训练一个跟踪器。在它成功的鼓励下，许多研究人员跟随这个工作并提出了一些更新模型[9,35,14,13,21,20]。CFNet[35]在SiamFC框架中引入了相关滤波层，并进行在线跟踪以提高精度。DSiam[13]通过两次在线变换来修改孪生支路，提出学习一个动态孪生网络，该网络在速度可接受的情况下获得更好的跟踪精度。SA-Siam[14]建立了一个具有语义分支和外观分支的双重孪生网络。这两个分支分别训练以保持特征的异质性，但在测试时合并以提高跟踪精度。为了解决尺度变化问题，这些孪生网络采用多尺度搜索，增加了搜索时间。
受目标检测区域建议网络的启发[31]，SiamRPN[21]跟踪器使用孪生网络的输出执行区域建议提取。SiamRPN通过对区域建议的分类分支和回归分支的联合学习，避免了提取多尺度特征地图的耗时步骤。然而，它很难处理与目标物体外观相似的干扰物。基于SiamRPN，DaSiamRPN[42]在训练阶段增加了硬阴性训练数据。通过数据增强，提高了跟踪器的辨识度，从而获得了更为鲁棒的跟踪结果。该跟踪器进一步扩展到长期视觉跟踪。尽管上述方法在许多方面对原SiamFC[1]进行了修改，但性能的停滞主要是因为它们使用的主干网（AlexNet）很弱。SiamRPN++[20]用ResNet[15]替换AlexNet。同时在训练过程中随机移动训练对象在搜索区域的位置，以消除中心偏差。这样的修改提高了跟踪精度。
在这些基于RPN的跟踪器中采用了锚定来进行区域建议。此外，锚盒可以利用深度特征图，避免重复计算，大大加快了跟踪过程。最先进的跟踪器，如SPM[36]和SiamRPN[21]以非常高的帧速率跟踪。虽然SiamRPN++[20]采用了一种非常深层次的神经网络，但它仍然以相当高的实时速度工作。最先进的无锚跟踪器（如ECO[3]）的精度和速度仍然比这些基于锚点的跟踪器[36，20]差得多，例如GOT-10K[18]。然而，锚点式跟踪器的性能对锚具的超参数非常敏感，需要对锚具的超参数进行微调以达到理想的性能。此外，由于锚箱的尺寸和长宽比是固定的，即使参数是可调的，这些跟踪器仍然难以处理形状变形和姿态变化较大的物体。在这篇文章中，我们证明我们提出的SiamCAR可以显著地缓解这些问题。同时，我们证明了一个结构简单得多的跟踪器可以获得比现有技术更好的性能。

SiamCAR示意图：左侧是一个具有深度互相关层（用⋆表示）的暹罗子网，用于多通道响应图提取。右侧为包围盒预测的分类和回归子网，用于从多通道响应图中解码目标的位置和比例信息。注意，SiamCAR可以实现为一个完全卷积的网络，它是简单、整洁和易于解释的。

2. 提出的方法

2.1 特征提取

本文利用全卷积网络构造孪生子网进行视觉特征提取，子网由两个分支组成：一个是以跟踪模板块Z为输入的目标分支，另一个是以搜索区域X为输入的搜索分支。这两个分支共享同一个CNN架构作为它们的主干模型，输出两个特征映射ψ(Z)和ψ(X)，为了嵌入这两个分支的信息，可以通过对以ψ(Z)为核的ψ(X)进行互相关来获得响应图R。由于需要在后续的预测子网中对响应图R进行解码以获得目标的位置和尺度信息，因此我们希望R能保留丰富的信息。然而，互相关层只能生成一个单通道的压缩响应图，缺少有用的特征和重要的跟踪信息，如[20]所示，不同的特征通道通常会获取不同的语义信息。受[20]的启发，我们还使用深度相关层来生成多个语义相似性映射：

其中⋆表示逐通道相关运算。生成的响应图R具有与ψ（X）相同的通道数，并且包含大量用于分类和回归的信息。
低层特征如边缘、角点、颜色和形状等代表较好视觉属性的特征对于定位来说是必不可少的，而高级特征则更能代表对于区分至关重要的语义属性。许多方法利用融合低层和高层特征来提高跟踪精度[27,20]。在这里，我们还考虑聚集多层深度特征进行跟踪。我们使用修改后的ResNet-50作为我们的主干网。为了获得更好的识别和识别推理，我们结合了从主干最后三个残差块中提取的特征，分别表示为F3(x)、F4(x)、F5(x)。具体来说，我们执行信道串联：

在搜索图ψ（X）和模板图ψ（Z）之间进行深度互相关以获得多通道响应图。然后将响应图与1×1核进行卷积，以将其维数减少到256个通道。通过降维，可以大大减少参数数目，加快后续计算。最终的降维响应图R*作为分类回归子网的输入。

2.2 边界框预测

响应图R中的每个位置（i，j）都可以映射回输入搜索区域（x，y）。基于RPN的跟踪器以搜索区域上的对应位置为多尺度锚盒的中心，并以这些锚盒为参考，对目标边界盒进行回归。与它们不同，我们的网络直接对每个位置的目标候选框进行分类和回归。相关训练可通过端到端的全卷积运算完成，避免了复杂的参数调整，减少了人为干预。
       跟踪任务被分解为两个子任务：一个分类分支预测每个位置的类别，一个回归分支用于计算该位置的目标边界框，对于使用孪生子网提取的响应图R，分类分支输出分类特征图Acls，其中的每个点(i : j : )都包含一个2D向量，表示输入搜索区域中相应位置的前景和背景得分，回归分支输出回归特征映射Areg，其中每个点(i : j : )包含一个4D向量t(i, j)=(l,t,r,b)，它表示在输入搜索区域中从相应位置到边界框的四个边的距离。
       由于目标和背景在输入搜索区域中所占的比例不是很大，所以样本不平衡不是一个问题。因此，我们简单地采用交叉熵损失进行分类，而IOU损失用于回归。设(x0,y0)和(x1,y1)表示真实边界框的左上角和右下角，设(x,y)表示点(i, j)的对应位置，则在Areg处的回归目标 t(i, j)的计算公式如下：

利用 t(i, j)可以计算出真实候选框和预测候选框之间的IOU，然后我们使用以下公式计算回归损失。

如果坐标(i, j)相对应的位置(x, y)在真实候选框内，则t(i, j)为1，否则为0.
       可以观察到，远离目标中心的位置往往会产生低质量的预测边界框，从而降低了跟踪系统的性能。在[34]之后，我们添加了一个与分类分支平行的中心分支，以去除异常值。如图2，这个分支输出一个中心特征图Acen，其中每个点的值给出相应位置的中心得分，Acen中的分数C(i, j)定义如下：

其中C(i, j)与在搜索区域中相应位置(x, y)和对象中心的距离形成对比。如果(x, y)是背景中的一个位置，则C(i, j)的值设为0，中心损失为：

其中Lcls表示分类的交叉熵损失。常数λ1和λ2加权中心损失和回归损失。在训练期间，我们根据经验为所有实验设置λ1=1和λ2=3。

2.3 跟踪部分

跟踪的目的是预测当前帧中目标的边界框。对于一个位置（i，j），该方法产生一个6D向量Tij=（cls，cen，l，t，r，b），其中cls代表分类的前景得分，cen代表中心得分，l+r和t+b代表当前帧中目标的预测宽度和高度。在跟踪过程中，边界框的大小和纵横比通常会在连续帧之间看到微小的变化。为了监督使用这种时空一致性的预测，我们采用了[21]中引入的尺度变化惩罚pij来重新排序分类分数cls，它允许更新的6D向量PTij=（cls_ij×p_ij，cen，l，t，r，b）。那么跟踪阶段可以表述为：

其中H为余弦窗，λd为平衡权重。输出q是以目标像素为最高得分的查询位置。

跟踪过程：子图A显示了一对输入，而B显示了模型的相应输出，其中我们显示我们的模型对对象的不同属性给出了很好的预测。C显示对应于top-k点的预测边界框。D通过在C中平均这些框来显示最终预测的边界框。
由于我们的模型采用单像素预测的方式来解决目标跟踪问题，所以每个位置都是相对于一个预测的边界框。在实际跟踪过程中，如果只使用q的一个边界框作为目标框，相邻帧之间会产生抖动。我们观察到位于q附近的像素更有可能是目标像素。因此，我们根据cls_ij×p_ij的值从q的n个邻域中选择top-k点。最终预测是所选k个回归框的加权平均值。根据经验，我们发现设置n=8和k=3可以提供稳定的跟踪结果.

3. 实验

3.1 实现细节

提出的SiamCAR在pythorch中用pythorch实现，并在4个rtx2080ti卡上进行了训练。为了公平比较，模板补丁和搜索区域的输入大小设置为与[20]相同，分别为127像素和255像素。我们的暹罗子网的主干采用了[20]中的改良ResNet-50。网络在ImageNet上进行了预训练[32]。然后利用预先设定的权值作为初始值对模型进行训练。
培训详情。在训练过程中，批量大小设为96，采用随机梯度下降法（SGD），初始学习率为0.001。对于前10个时期，在训练分类和回归子网时，暹罗子网的参数被冻结。在过去的10个时期，ResNet-50的最后3个区块被解冻用于训练。整个训练阶段大约需要42小时。我们利用COCO[24]、ImageNet DET、ImageNet VID[32]和YouTube BB[30]的数据训练SiamCAR，用于UA V和OTB的实验[37]。需要注意的是，对于GOT-10K[18]和LaSOT[10]的实验，我们的SiamCAR只使用官方网站提供的指定训练集进行训练，以便进行公平比较。
测试细节。测试阶段使用离线跟踪策略。只采用序列第一帧中的对象作为模板块。因此，暹罗子网的目标分支可以预先计算并在整个跟踪期间固定。将当前帧中的搜索区域作为搜索分支的输入。在图3中，我们展示了整个跟踪过程。利用分类回归子网的输出，通过方程（9）来查询位置q。为了在相邻帧之间实现更稳定、更平滑的预测，计算q的前3个邻域对应的回归盒的加权平均值作为最终的跟踪结果。对于不同数据集的评估，我们使用那里提供的官方测量值，它们可能彼此不同。

3.2 GOT-10K结果

GOT-10K[18]是最近发布的一个大规模和高多样性的用于野外一般目标跟踪的基准测试。它包含了10000多段真实运动物体的视频片段。所有方法使用数据集提供的相同训练和测试数据的协议确保了深度跟踪器的公平比较。训练数据集和测试数据集中的类是零重叠的。上传跟踪结果后，官方网站自动进行分析。所提供的评估指标包括成功图、平均重叠（AO）和成功率（SR）。AO表示所有估计边界框和地面真实框之间的平均重叠。SR0.5表示重叠超过0.5的成功跟踪帧的速率，而SR0.75表示重叠超过0.75的帧。
我们在GOT-10K上评估了SiamCAR，并将其与最先进的跟踪器进行了比较，包括SiamRPN++[20]、SiamRPN[21]、SiamFC[1]、ECO[3]、CFNET[35]和其他基线或最先进的方法。所有结果由GOT-10K官方网站提供，图1显示SiamCAR在GOT-10K上的表现优于所有跟踪器，表1列出了不同指标的量化结果。显然，我们的跟踪器在所有指标方面表现最好。与SiamRPN++相比，SiamCAR对AO、SR0.5和SR0.75的得分分别提高了5.2%、5.4%和9.0%。
在表1中，我们还显示了以帧每秒（FPS）为单位的跟踪帧速率。报告的速度在一台配备RTX2080ti的机器上进行评估，其他由GOT-10K官方结果提供。如图所示，我们的SiamCAR比大多数被评估的跟踪器快得多，实时速度为52.27 FPS。

3.3 LaSOT结果

       LaSOT是最近发布的单目标跟踪基准。该数据集包含超过352万个手动标注的帧和1400个视频。它包含70个类，每个类包含20个跟踪序列。如此大规模的数据集给跟踪算法带来了很大的挑战。LaSOT的官方网站提供了35种算法作为基线。标准化精度图、精度图和一次通过评价成功图作为评价指标。
       我们将我们的SiamCAR与排名前19位的跟踪工具进行了比较，包括SiamRPN++[20]、MDNet[28]、DSiam[13]、ECO[3]和其他基线。SiamRPN++[20]的结果由作者的网站提供，其他结果由LaSOT的官方网站提供。如图5所示，我们的SiamCAR达到了最佳性能。与SiamRPN++相比，我们的SiamCAR在这三个指标上的得分分别提高了3.1%、1.9%和1.1%。值得注意的是，与基线方法相比，我们的SiamCAR分别提高了14%、13.7%和11%以上。
       在如此大的数据集上的主要结果表明，我们提出的网络对可视对象具有良好的泛化能力。

3.4 OTB50结果

OTB-50包含50个具有挑战性的视频，并有很大的变化。测试序列被手动标记为9个属性来表示具有挑战性的方面，包括光照变化、比例变化、遮挡、变形、运动模糊、快速运动、面内旋转、面外旋转、视野外、背景杂波和低分辨率。我们将我们的网络和9种最先进的方法进行了比较，包括SiamRPN++[20]、SiamRPN[21]、SiamFC[1]和ECO[3]。我们评估每个跟踪器的成功图和精度图。如图6所示，建议的SiamCAR在这两个指标中排名第一。特别是，我们的SiamCAR在低分辨率、平面外旋转和背景杂波的影响下显著提高了跟踪精度。结果表明，siamacar能够更好地处理具有挑战性的干扰源和较大的姿态变化，这得益于我们的分类回归子网对语义信息进行隐式解码。

3.5 UAV123结果

uav123数据集包含123个视频序列和超过110K帧。所有序列都用竖直的边界框进行了完整的注释。数据集中的对象可以看到快速运动、大尺度和光照变化以及遮挡，这使得使用该数据集进行跟踪具有挑战性。
我们将SiamCAR与9种最先进的方法进行了比较，包括SiamRPN++[20]、SiamRPN[21]、SiamFC[1]和ECO[3]。这里使用了OPE的成功图和精确图来评估整体性能

3.6 主干架构评估

为了验证所提出架构的有效性，我们比较了不同的主干架构来进行目标追踪。表2显示了使用ResNet-50、ResNet-34和AlexNet作为主干的跟踪性能。我们报告了在uav123上通过替换主干网的精度和每秒帧数（FPS）的结果。可以看出，所提出的SiamCAR可以在不同的主干上获得可比的结果。值得注意的是，Alexnet可以实现170 FPS的速度。显然，所提出的框架可以受益于更深层次的网络。用ResNet50代替AlexNet，精度提高了6.5%左右，跟踪速度降低到52fps，仍保持实时速度。评估还表明，通过改变主干网，可以很容易地使所提出的SiamCAR适应不同的实际任务，同时在准确性和效率之间进行权衡。

4. 总结

在本文中，我们提出了一个暹罗分类和回归框架，即SiamCAR，它能够对一个用于视觉跟踪的深层暹罗网络进行端到端的训练。我们证明了使用所提出的简洁的全卷积框架可以以每像素的方式解决跟踪任务。拟议的框架在其架构方面非常简单，但在GOT-10K和其他具有挑战性的基准测试中实现了最先进的结果。在LaSOT等大规模数据集上也取得了最好的性能，验证了该框架的泛化能力。由于我们的SiamCAR是简单而整洁的，接下来可以进行一些修改以实现进一步的改进。