Ocean/Ocean+: 实时目标跟踪分割算法《Object-aware Anchor-free Tracking》翻译

在过去的几年中，基于anchor的Siamese算法成为了单目标跟踪的主流。但是其本身在训练时设置了较为严苛的正负样本阈值(IoU>0.6)。这种设置固有的问题是：算法在训练时无法“看见”重合度较小的anchor，如果在测试时候分类分支将这样的anchor选为目标区域，那回归网络预测结果将非常差。

本次分享，我们邀请到了中科院模式识别实验室的张志鹏博士。为解决上述问题，他们在论文中提出了基于anchor-free的回归网络，和基于特征对齐的object-aware分类网络。anchor-free回归网络能在较大空间范围内回归出目标区域，同时，其回归得到的目标框给分类网络提供指导使其学习更关注于物体整体的特征。两者相辅相成提高了跟踪的准确度。
1、除了在ECCV的文章外，主讲人还将简单介绍单目标跟踪入门必备的算法和Github资源，希望能帮助新入门的同学熟悉这个领域。

2、分享几次投稿顶会的心得。

3、简单介绍Ocean后续关于视频分割的工作，**只需要非常少的代码就可以实现在VOT2020中大幅领先当前基于跟踪的分割算法，**i.2. online和offline版本分别以18和12个点领先于SiamMask，9/2个点领先于基于D3S，且保持单帧实时(~35-40fps)。

文献翻译
中科院文章地址：http://xxx.itp.ac.cn/pdf/2006.10721.pdf

摘要

基于锚定的Siam跟踪器在精度上取得了显著的进步，但跟踪鲁棒性滞后制约了其进一步的提高。**我们发现其根本原因是基于锚定的方法中的回归网络只训练在正锚盒上（即IoU≥0.6）。**这种机制使得很难细化与目标对象重叠较小的锚点。**本文提出一种新的对象感知anchor-free网络来解决这一问题。**首先，我们没有细化参考anchor box，而是直接以anchor-free方式预测目标对象的位置和比例。由于gtbox的每个像素都经过了良好的训练，跟踪器能够在参考期间校正目标物体的不精确预测。其次，我们引入一个特征比对模块，从预测的边界框中学习一个对象感知的特征。目标感知特征可以进一步帮助目标物体和背景的分类。此外，我们提出了一种基于anchor-free模型的跟踪框架。实验表明，我们的anchor-free跟踪器在五个基准测试中达到了最先进的性能，包括VOT-2018、VOT-2019、OTB-100、GOT-10k和LaSOT。

引言

目标跟踪是一项基本的视觉任务。它的目的是推断视频序列中任意目标的位置，仅给出其在第一帧中的位置。跟踪的主要挑战在于目标对象可能会受到严重遮挡、大变形和光照变化[44,49]。实时速度跟踪有多种应用，如监视、机器人、自动驾驶和人机交互[16,25,33]。
近年来，暹罗跟踪器以其速度快、精度高而备受关注。开创性的工作，即SINT[35]和SiamFC[1]利用暹罗网络来学习目标和候选图像块之间的相似性度量，从而将跟踪建模为目标在整个图像上的搜索问题。已经提出了大量的后续暹罗轨道，并取得了令人满意的性能[9,11,21,22,50]。
其中，暹罗地区提案网络，被称为SiamRPN[22]，是具有代表性的。它介绍了区域建议网络[31]，它包括用于前景背景估计的分类网络和用于锚盒细化的回归网络，即学习预定义锚盒的二维偏移。这种基于锚点的跟踪器在跟踪精度方面显示出巨大的潜力。然而，由于回归网络只对正锚盒（即IoU≥0.6）进行训练，因此很难细化与目标对象重叠较小的锚。这将导致跟踪失败，特别是当分类结果不可靠时。例如，由于跟踪过程中的误差积累，目标位置的预测可能变得不可靠，例如IoU<0.3。回归网络无法纠正这种弱预测，因为它以前在训练集中是看不见的。因此，跟踪器在随后的帧中逐渐漂移。–》确实·有这种情况，Girls，酒瓶子视频

图1. VOT-2018上最新跟踪方法的性能和速度的比较。我们可视化相对于每秒帧数（FPS）的预期平均重叠（EAO)_.Offline-1和Offline2分别指示建议的带有和不带有功能对齐模块的离线跟踪器。

我们很自然地会提出一个问题：我们能否设计一个能够修正不准确预测的边界盒回归器 在这项工作中，我们提出了一个新的目标感知anchor-free跟踪器，以证明答案是肯定的。我们的目标感知anchor-free跟踪器不是预测锚盒的小偏移量，而是直接回归视频帧中目标对象的位置。 --》不是delta，是实际value
**更具体地说，该跟踪器由两部分组成：一个对象感知分类网络和一个边界盒回归网络。**分类负责确定一个区域是属于前景还是背景，而回归的目的是预测从目标对象内的每个像素到背景真实边界框的四个边的距离。
由于groundtruth-box中的每个像素都经过了很好的训练，**因此即使只有很小的区域被识别为前景，回归网络也能够定位目标对象。**最后，在推理过程中，跟踪器能够纠正与目标对象重叠较小的弱预测。–》这就很厉害了，robust很多
**当回归网络预测一个更精确的边界框时（例如，纠正弱预测），相应的特征反过来又有助于前景和背景的分类。**我们以预测的边界框作为参考，学习一个对象感知特征进行分类。更具体地说，我们引入了一个特征对齐模块，该模块包含一个二维空间变换，将特征采样位置与预测的边界框（即候选对象的区域）对齐。该模块保证在预测区域内指定采样，以适应目标尺度和位置的变化。因此，学习到的特征对于分类更具鉴别性和可靠性。
拟议框架的有效性在五个基准上得到验证：VOT-2018[17]、VOT-2019[18]、OTB-100[44]、GOT-10k[14]和LaSOT[8]。我们的方法在VOT2018[17]上实现了最先进的性能（EAO为0.467），同时以58 fps的速度运行，如图1所示。与基于anchor-base的方法（即SiamRPN[22]和SiamRPN++[21]）相比，它分别获得了92.2%和12.8%的相对改进。在其他数据集上，我们的跟踪器的性能也很有竞争力，与最新的技术相比。此外，我们还为我们的anchor-free跟踪器配备了一个嵌入式在线更新模块，使其能够捕捉到推理过程中对象的外观变化。
在线模块进一步提高了跟踪性能，显示了所提出的anchor-free跟踪方法的可扩展性。
这项工作的主要贡献有两个方面。

1）基于base anchor的方法很难细化与目标对象重叠较小的锚定，我们提出了一种基于对象感知的anchor-free网络。（）anchor free
该算法不仅可以修正边界box预测的不精确性，而且还可以学习一个目标感知特征来提高匹配精度。
2）我们将所提出的anchor-free网络与一个有效的特征组合模块相结合，设计了一个新的跟踪框架。所提出的跟踪模型在五个基准上实现了最先进的性能，同时以实时速度运行。

3 Object-aware Anchor-Free Networks

本节提出目标感知无锚网络（Ocean）用于视觉跟踪。该网络结构由两部分组成：一个用于前景背景概率预测的目标感知分类网络和一个用于目标尺度估计的回归网络。这两个网络的输入特性是由一个共享的主干网生成的（在第4.1条）。我们首先引入回归网络，然后引入分类分支，因为回归分支提供了对象尺度信息来增强目标对象和背景的分类。

3.1无锚回归网络

回顾最近的基于锚的跟踪器[21,22]，我们发现当预测的边界框变得不可靠时，轨迹器会快速漂移。其根本原因在于，在训练过程中，这些方法只考虑IoU大于高阈值的锚盒，即IoU≥0.6。因此，这些方法缺乏修正弱预测的能力，例如与目标重叠的盒子小。
为了解决这个问题，我们引入了一种新的无锚回归视觉跟踪方法。它将背景真实边界框中的所有像素作为训练样本。其核心思想是估计从目标对象内的每个像素到groundtruth边界框的四个边的距离。具体地说，设B=（x0，y0，x1，y1）∈R4表示目标对象的底色边界框的左上角和右下角。如果一个像素的坐标（x，y）落在groundtruth框B中，则该像素被视为回归样本。
因此，训练样本的标签T＊＝（l＊，T＊，r＊，b＊）计算如下：
表示从位置（x，y）到边界框B的四个边的距离，如图2（a）所示。回归网络的学习是通过四个信道数为256的3×3卷积层，然后是一个信道数为4的3×3卷积层来预测距离。如图3所示，上部的“Conv”块表示回归网络。

图2.（a）回归：地面训练框中的像素（即红色区域）在训练中被标记为正样本。
（b）常规区域分类：靠近目标中心的像素（即红色区域）被标记为正样本。紫色点表示分数图中某个位置的采样位置。（c）物体感知分类：预测框和地面框的IoU（即带有红色斜线的区域）在训练期间用作标签。青色点表示用于提取对象感知特征的采样位置。黄色箭头指示由空间变换引起的偏移。最佳观看颜色。

这种anchor-free回归算法考虑了训练过程中背景真实盒中的所有像素，因此即使只有一个小区域被识别为前景，它也可以预测目标对象的尺度。因此，跟踪器能够在一定程度上纠正推理过程中的弱预测。

3.2 Object-aware Classification Network

在先前的Siam跟踪方法[1,21,22]中，分类置信度是通过从特征图中的固定规则区域（例如图2（b）中的紫色点）采样的特征来估计的。这种采样特征描述的是图像的一个固定的局部区域，不能根据对象尺度的变化进行缩放。因此，分类置信度在区分复杂背景和目标目标时是不可靠的。
为了解决这个问题，我们提出了一个特征比对模块来学习一个对象感知的特征进行分类。对齐模块将卷积核的固定采样位置转换为与预测的边界盒对齐。具体地说，对于分类图中的每个位置（dx，dy），它都有一个由回归网络预测的相应的对象边界框M=（mx，my，mw，mh），其中mx和my表示盒中心，mw和mh表示其宽度和高度。我们的目标是通过从相应的候选区域M中抽样特征来估计每个位置（dx，dy）的分类置信度。标准的二维卷积与k×k样本的核大小使用固定的规则网格G={（−bk/2c，−bk/2c），…，（bk/2c，bk/2c）}，其中b·c表示楼层函数。规则网格G不能保证采样特征覆盖M区域的全部内容。
因此，我们建议在规则采样网格G上配置空间变换T，将固定区域的采样位置转换为预测区域M，如图2（c）所示，转换T（黄色虚线箭头）是通过测量从G（紫色点）到与预测边界框对齐的位置（青色点）的相对方向和距离得到的。利用新的采样位置，特征对齐模块提取目标感知特征，其公式如下
其中x表示输入特征映射，w表示学习的卷积权重，u表示特征映射上的位置，f表示输出对象感知特征映射。空间变换∆t∈t表示原始规则采样点到与预测边界框对齐的新点之间的距离向量。转换定义为

其中{（mx，my）+B}表示与M对齐的采样位置，例如，图2（c）中的青色点，{（dx，dy）+g}表示标准卷积中使用的常规采样位置，例如，图2（c）中的紫色点，并且B={（（mw/2，；mh/2），…，（mw/2，mh/2）}表示新采样位置的坐标（例如。，图2（c）中相对于方框中心（例如，（mx，my））的青色点。值得注意的是，当式（2）中变换∆t∈t设为0时，特征采样机制退化为规则点上的固定采样，生成规则区域特征。采样位置的变换适应于视频帧中预测边界框的变化。因此，提取的目标感知特征对目标尺度的变化具有鲁棒性，有利于跟踪过程中的特征匹配。此外，目标感知特征提供了候选目标的全局描述，使目标和背景的区分更加可靠。
我们利用目标感知特征和规则区域特征来预测区域是否属于目标对象或图像背景。对于基于对象感知特征的分类，我们采用核大小为3×3/f的标准卷积方法来预测置信概率（可视化为办公自动化“图3中分类网络的块）。对于基于规则区域特征的分类，在规则区域特征f0上执行四个信道数为256的3×3标准卷积层，接着是一个信道数为1的标准3×3层，以预测置信度pr（在图3中显示为分类网络的“Conv”块）。计算置信度po和pr之和得到最终的分类得分。目标感知特征提供了目标的全局描述，从而提高了候选区域的匹配精度。同时，规则区域特征集中于图像的局部区域，具有较强的目标中心定位能力。这两种特征的结合提高了分类网络的可靠性。

3.3 Loss Function

为了优化所提出的无锚网络，我们使用IoU损失[47]和二进制交叉熵（BCE）损失[6]来联合训练回归和分类网络。在回归中，损失定义为

其中preg表示预测，i表示训练样本。在分类中，基于对象感知特征f的损失Lo表示为

而基于规则区域特征f0的损耗Lr公式为

其中，po和pr分别是在目标感知特征和规则区域特征上计算的分类分数图，j表示分类的训练样本，po和pr表示基本真相标签。更具体地说，po是一个概率标签，其中每个值表示预测的边界框和基本真实之间的IoU，即图2（c）中带有红色斜线的区域。pr是二进制标签，其中靠近目标中心的像素被标记为1，即图2（b）中的红色区域，其被表示为

整个对象感知无锚网络的联合训练旨在优化以下目标函数

其中λ1和λ2是折衷超参数:

3.4 Relation to Prior Anchor-Free Work

我们的无锚机制与最近的检测方法[7,19,36]具有相似的精神（见第。2）一。在本节中，我们将进一步讨论与最相关的工作（即FCOS）的不同之处[36]。FCOS和我们的方法都是在像素级直接预测图像平面上的目标位置。然而，我们的工作与FCOS[36]在两个基本方面有所不同。
1）在FCOS[36]中，分类和回归网络的训练样本是相同的。
这两个都是从背景真相框内的位置取样的。不同的是，在我们的方法中，分类和回归的数据采样策略是不对称的，这是为跟踪任务量身定做的。更具体地说，分类网络仅将接近目标的像素作为正样本（即R≤16像素），而回归网络将地面真值盒中的所有像素作为训练样本。这种细粒度采样策略保证了分类网络能够学习到一个鲁棒的区域匹配相似度度量，这对于跟踪具有重要意义。2）在FCOS[36]中，使用从固定规则区域提取的特征来计算对象性得分，类似于图2（b）中的紫色点。相比之下，我们的方法还引入了一个对象感知特性，它捕捉目标对象的全局外观。
对象感知特性将采样区域与预测的边界框（例如，图2（c）中的青色点）对齐，因此它适应对象的比例变化。规则区域特征和目标感知特征的结合使得分类更加可靠，如第二节所述。5.3条。

4 Object-aware Anchor-Free Tracking

本节描述了基于所提出的目标感知无锚网络（海洋）的跟踪算法。它包括两部分：离线无锚模型和在线更新模型，如图3所示。

4.1 Framework

离线跟踪建立在目标感知无锚网络上，由特征提取、组合和目标定位三个步骤组成。

图3.所提出的跟踪框架的概述，该框架由一个脱机的无锚部分（顶部）和一个在线模型更新部分（底部）组成。离线跟踪包括功能提取，功能组合以及使用对象感知的无锚网络进行目标定位，如Sec中所述。 4.1。插件在线更新网络对目标对象的外观变化进行建模，如第2节中所述。 4.2。 Φab表示3×3卷积层，其中a沿X轴膨胀，b沿Y轴膨胀。

Feature extraction.
该方法遵循暹罗跟踪器[1]的体系结构，以图像对作为输入，即样本图像和候选搜索图像。示例图像表示感兴趣的对象，即在第一帧中以目标对象为中心的图像块，而搜索图像通常更大，并且表示后续视频帧中的搜索区域。这两个输入都经过一个改进的ResNet-50[13]主干网处理，然后生成两个特征图。更具体地说，我们切断了标准ResNet50的最后一级[13]，只保留前4级作为主干。前三个阶段与最初的ResNet-50共享相同的结构。在第四阶段，将下采样单元[13]的卷积步长由2修改为1，以增加特征映射的空间尺寸，同时将所有3×3的卷积进行步长为2的扩张以增加感受野。
这些修改提高了输出特征的分辨率，从而提高了目标定位的特征能力[3,21]。
Feature combination.
该步骤利用深度互相关运算[21]将提取的样本图像和搜索图像的特征相结合，并生成相应的相似性特征，用于后续的目标定位。不同于以往对多尺度特征进行互相关的工作[21]，我们的方法只在单个尺度上进行，即主干的最后一级。我们将单尺度特征通过三个平行的扩张卷积层[48]，然后通过逐点求和的方式融合相关特征，如图3（特征组合）所示。
具体来说，特征组合过程可以表述为

其中fe和fs分别代表样本和搜索图像的特征，Φab表示单个扩张卷积层，*表示互相关运算[1]。扩张卷积Φab的核尺寸设置为3×3，而扩张步长沿X轴设置为a，沿Y轴设置为b。Φab还将特征通道从1024个减少到256个，以节省计算成本。在实验中，我们发现增加扩张的多样性可以提高特征的可代表性，因此我们根据经验选择了三种不同的扩张，其步长设置为（a，b）∈{（1，1），（1，2），（2，1）}。不同膨胀度的卷积可以捕获不同尺度区域的特征，提高最终组合特征的尺度不变性。
Target localization.
这一步利用所提出的目标感知锚自由网络来定位搜索图像中的目标。分类网络预测的概率po和pr取平均值，权重为ωas

与先前的工作[1,21]相似，我们对尺度变化施加了惩罚，以抑制对象大小和纵横比的大变化，如下所示

其中k为超参数，r和r0分别表示前一帧和当前帧中预测边界框的纵横比，s和s0表示前一帧和当前帧中预测框的大小（即高度和宽度）。最终目标分类概率ˆpcls计算为ˆpcls=α·pcls。分类图ˆpcls中的最大值表示前景目标的位置。为了保持预测边界框形状的平滑变化，采用线性权值函数计算最终尺度为ˆsreg=β·s0+（11β）·s，其中β是权重参数。

4.2 Integrating Online Update

我们进一步为离线算法配备了在线更新模型。在[2,4]的启发下，我们引入了一个在线分支来捕捉tar get对象在跟踪过程中的外观变化。如图3（底部）所示，在线分支继承了主干网的前三个阶段的结构和参数，即修改的ResNet-50[13]。第四级保持与主干相同的结构，但其初始参数是通过[2]中提出的预训练策略获得的。对于模型更新，我们采用快速共轭gadient算法[2]在推理过程中训练在线分支。在线分支和分类分支估计的前景得分图加权为
式中，ω0表示分类得分ˆpcls与在线估计得分ponl之间的权重。请注意，我们的模型中没有使用[2,4]中的IoUNet。我们建议读者参考[2,4]了解更多细节。

5 Experiments

本节介绍了我们的海洋跟踪器在五个跟踪台标数据集上的结果，并与最先进的算法进行了比较。我们提供了实验分析来评估模型中每个组成部分的效果。

5.1 Implementation Details

Training 主干网用ImageNet[32]上预先训练的参数初始化。建议的跟踪器是在Youtube BB[29]、ImageNet VID[32]、ImageNet DET[32]、GOT-10k[14]和COCO[26]的数据集上训练的。输入的样本图像大小为127×127像素，搜索图像为255×255像素。我们在8个GPU上使用同步SGD[20]，每个GPU托管32个映像，因此每次迭代的最小批大小是256个映像。
共有50个时代。每个历元使用6×105个训练对。对于前5个阶段，我们从103的预热学习率开始训练对象感知无锚网络，同时冻结主干的参数。对于剩余的时间段，主干网解冻，整个网络进行端到端的训练，学习速率从5×103到105呈指数衰减。“权重衰减”和“动量”分别设置为103和0.9。式（7）中分类标签的阈值R被设置为16像素。式（8）中的权重参数λ1和λ2分别设置为1和1.2。
我们注意到，在最近的跟踪器中，训练设置（数据选择、迭代等）通常是不同的，例如SiamRPN[22]、SiamRPN++[21]、ATOM[4]和DiMP[4]。很难在统一的训练计划下比较不同的模式。但是为了公平比较，我们在相同的训练环境下对我们的方法和SiamRPN++[21]进行了额外的评估，如第节所述。5.3条。

Testing 对于离线模型，跟踪遵循与[1,22]中相同的协议。在第一帧计算一次目标的特征，然后连续匹配到后续的搜索图像。式（10）中的目标感知分类分数的融合权重ω设置为0.07，而公式（12）中的权重ω0设置为0.5。式（11）中用于大尺度变化惩罚的超参数k设置为0.021，而标度权重β设置为0.7。测试中的这些超参数是用跟踪工具包[50]选择的，其中包含自动参数调整算法。我们的跟踪器是用Python3.6和Pythorc1.1.0实现的。实验在一台8teslav100gpu和xeone5-26902.60ghzcpu的服务器上进行。注意，我们运行了三次该跟踪器，性能的标准偏差为±0.5%，证明了模型的稳定性。我们在下面的比较中报告了三次运行的平均性能。

Evaluation datasets and metrics.我们使用五个基准数据集，包括VOT-2018[17]、VOT-2019[18]、OTB-100[44]、GOT-10k[14]和LaSOT[8]来跟踪绩效评估。特别是，VOT-2018[17]包含60个序列。VOT-2019[18]是通过替换VOT-2018[17]中20%最不具挑战性的视频而开发的。我们考虑了（A）和（18）两种方法的鲁棒性。标准化的OTB-100[44]基准由100个视频组成。利用精度（Prec.）和曲线下面积（AUC）两个指标对跟踪器进行排序。GOT-10k[14]是一个包含超过10000个视频的大规模数据集。追踪器是用一个在线服务器在180个视频的测试集上进行评估的。它使用广泛使用的平均重叠（AO）和成功率（SR）作为性能指标。与这些基准数据集相比，LaSOT[8]的序列更长，平均每个序列有2500帧。使用SUC和Prec来评估跟踪性能。

5.2 State-of-the-art Comparison

为了更广泛地评价所提出的方法，我们将其与22个最先进的跟踪器进行了比较，这些跟踪器涵盖了目前大多数有代表性的方法。有9种基于锚定的暹罗框架方法（SiamFC[1]、GradNet[24]、DSiam[11]、MemDTC[46]、SiamRPN[22]、C-RPN[9]、SiamMASK[43]、SiamRPN++[21]和SIAMRCN[39]），8种基于判别相关滤波器的方法（CFNet[38]、ECO[5]、STRCF[23]、LADCF[45]、UDT[42]、STN[37]、ATOM[4]和DiMP[2]），3种基于多域学习的方法（MDNet[27]，RT-MDNet[15]和VITAL[34]），1种基于图网络的方法（GCT[10]），1个基于元学习的跟踪器（MetaCREST[28]）。结果汇总在表中。1-3和图4。