《Fast Online Object Tracking and Segmentation: A Unifying Approach》

对于目标追踪而言，一般论文开篇通常都会说在第一帧给定目标位置，在后续帧中预测目标的位置。然而如何对后续帧中表述的定义直接影响了整个跟踪领域的发展。
今天这篇论文主要介绍的是达摩院19年发表的目标追踪领域文章SiamMask。
项目网址为：SiamMask
开源项目网址：SiamMask

摘要

在本文中，我们说明了如何用一种简单的方法实时执行视觉对象跟踪和半监督视频对象分割。我们的办法，被称为SiamMask，改进了流行的全卷积Siamese方法的离线训练过程，通过二进制分割任务来增加它们的损失。经过训练后，SiamMask仅依赖于单个边界框初始化，并在线操作，以每秒55帧的速度产生与类无关的对象分割掩膜和旋转边界框。尽管简单、多功能且速度快，但我们的策略能够使我们能够在VOT-2018数据集上的实时跟踪器中达到SOTA，同时展示了DAVIS-2016和DAVIS-2017上半监控视频对象分割任务的竞争性能和最佳速度。本项目网站是：http://www.robots.ox.ac.uk/˜qwang/SiamMask。

介绍

在任何需要对感兴趣的对象进行某种程度的推理的视频应用中，跟踪是一项基本任务，因为它允许在帧之间建立对象对应关系[34]。它广泛应用于自动监控、车辆导航、视频标记、人机交互和活动识别等场景。给定视频第一帧中任意感兴趣目标的位置，视觉对象跟踪的目的是以尽可能好的精度估计其在所有后续帧中的位置[48]。
对于许多应用程序来说，由于视频是流式的，在线执行跟踪任务是十分重要的。换句话说，跟踪器不应该使用未来的帧来推断对象当前位置[26]。这是由视觉对象跟踪基准描绘的场景，它用简单的轴向（例如[56,52]）或旋转[26,27]边界框表示目标对象。如此简单的注释有助于保持数据标签的低成本；此外，它允许用户简单而快速地初始化目标。

与目标跟踪类似，半监督视频对象分割（VOS）任务需要估计视频第一帧中指定的任意目标的位置。然而，在这种情况下，对象表示包括表示像素是否属于目标的二进制分割掩模[40]。这种详细的表示对于需要像素级信息的应用程序来说更为理想，如视频编辑[38]和旋转观察[37]。可以理解的是，生成像素级估计值需要比简单的定界框更多的计算资源。因此， VOS方法传统上很慢，通常每帧需要几秒钟（例如[55,50,39,1]）。最近，人们对更快的办法的兴趣激增[59,36,57,8,7,22,21]。然而，即使是最快的，也无法实时运行。
在本文中，我们旨在通过提出一种简单的多任务学习方法SiamMask来解决这两个问题，从而缩小任意目标跟踪和VOS之间的差距。我们的方法是由基于离线训练数百万对视频帧[28,63,15,60]的完全卷积Siamese网络[3]的快速跟踪方法的成功和最近可用的YouTube-VOS,一个带有像素级注释的大型视频数据集所激发的。我们的目标是保持这些方法的离线可训练性和在线速度，同时显著地改进它们对目标对象的表示，这仅限于一个简单的轴对齐边界框。
为了实现这一目标，我们在三个任务上同时训练一个Siamese网络，每个任务对应一个不同的策略，在新的框架中建立目标对象和候选区域之间的对应关系。正如Bertinetto等人的完全卷积方法[3]一样，其中一个任务是通过滑动窗口的方式学习目标对象和多个候选对象之间的相似性度量。输出是一个密集的响应图，它只表示物体的位置，而不提供任何关于其空间范围的信息。为了细化这些信息，我们同时学习两个进一步的任务:使用区域建议网络的边界框回归[46,28]和类别不可知的二进制分割[43]。值得注意的是，二进制标签只需要在离线训练中计算分割损失，而不是在线分割/跟踪。在我们提出的架构中，每个任务都由一个从共享的CNN出发的不同分支来表示，并导致最终的损失，从而将三个输出相加。
一旦训练，SiamMask只依赖于单一的边界框初始化，在线运行而不进行更新，并以每秒55帧的速度产生对象分割掩膜和旋转边界框。尽管其简单和快速，SiamMask在VOT-2018上为实时目标跟踪问题建立了一个最新的技术水平。此外，同样的方法在DAVIS-2016和DAVIS-2017上与最近的半监督VOS方法相比也非常有竞争力，而且速度非常快。这个结果是通过简单的边界框初始化(相对于掩模)来实现的，并且没有采用VOS方法经常使用的昂贵技术，如微调[35,39,1,53]、数据增强[23,30]和光流[50,1,39,30,8]。
本文的其余部分如下：第二章节简要概述了视觉对象跟踪和半监督VOS中一些最相关的前期工作。第三章节描述了我们的建议；第四章节根据四个基准评价它，并举例说明几个消融研究；第五章节总结了本文。

本文的方法

为了便于在线操作和快速运行，我们采用了全卷积Siamese框架[3]。此外，为了说明我们的方法与作为起点使用的特定的全卷积方法[3,28,63,60,16]无关，我们将流行的SiamFC[3]和SiamRPN[28]作为两个典型的例子。我们首先在3.1节中介绍它们，然后在3.2节中描述我们的方法。

3.1 Fully-convolutional Siamese networks

SiamFC：Bertinetto等人建议使用离线训练的全卷积暹罗网络来比较样本图像，作为跟踪系统的基本构件，该网络将样本图像z与(更大的)搜索图像x进行比较，以获得密集响应图。z为输入的范本，即第一帧图像中的目标框。x为输入的搜索图像。两个输入经过同一个CNN fθf_\thetafθ ,产生两个相互关联的特征图：gθ(z,x)=fθ(z)∗fθ(x)g_\theta(z,x)=f_\theta(z)*f_\theta(x)gθ(z,x)=fθ(z)∗fθ(x)
在本文中，我们将响应映射的每个空间元素称为响应候选窗口(RoW)。例如，gθ2(z,x)g_\theta^2(z,x)gθ2(z,x)对样本z和x中的第n个候选窗口之间的相似性进行编码.对于SiamFC，目标是使响应地图的最大值与搜索区域x中的目标位置相对应。相反，为了让每一行编码关于目标对象有更丰富的信息，我们将Eq. 1的简单互相关替换为深度互相关，并产生一个多通道响应映射。SiamFC是在数百万视频帧上通过logistic 损失函数（我们称这个为LsimL_{sim}Lsim）训练来的。
SiamRPN：通过RPN（区域建议网络），Li等人大大提高了SiamFC的性能，该网络允许用可变长宽比的包围框来预测目标位置。特别是在SiamRPN中，每个响应候选窗口（RoW） encodes a set of k anchor box proposals and corresponding object/background scores。因此，SiamRPN能够并行输出带有分类及分数的预测区域。这两个分支分别通过L1正则化与交叉熵损失进行训练。下面我们分别称之为LboxL_{box}Lbox和LscoreL_{score}Lscore。

3.2 SiamMask

与现有的依赖于低保真对象表示的跟踪方法不同，我们讨论了每帧生成二进制分割掩码的重要性。为此目的，我们证明，除了相似度分数和边框坐标外，全卷积暹罗网络的行也可以编码产生像素级二进制掩码所需的信息。这可以通过扩展现有的暹罗跟踪器与额外的分支和损失来实现。
我们使用具有可学习参数ϕ\phiϕ简单两层神经网络hϕh_{\phi}hϕ预测w∗hw*hw∗h二元掩膜。设mnm_nmn表示第n行对应的预测掩码：mn=hϕ(gθn(z,x))m_n=h_\phi(g_\theta^n(z,x))mn=hϕ(gθn(z,x))
从上式我们可以看到，掩模预测是分割x的图像和分割z中的目标对象的函数。这样，z就可以作为一个参考来指导分割过程：给定不同的参考图像，网络将为x生成不同的分割掩码。
损失函数： 在训练过程中，每个RoW都用一个ground-truth二进制标签进行标记（yn∈{±1}y_n∈\{±1\}yn∈{±1}），同时也与尺寸为w×h的像素级ground-truth掩模cnc_ncn相关联。设cnij∈{±1}c_n^{ij}∈\{±1\}cnij∈{±1}为第n行候选对象掩模的像素(i, j)对应的标签。损失函数LmaskL_{mask}Lmask对于掩码预测任务，是所有RoWs的二进制逻辑回归损失。掩码预测任务的损失函数LmaskL_{mask}Lmask(式3)是所有RoWs的二元逻辑回归损失:
Lmask(θ,ϕ)=∑(1+yn2wh∑ijlog(1+e−cnijmnij)).L_{mask}(\theta,\phi)=\sum(\frac{1+y_n}{2wh}\sum_{ij}log(1+e^{-c_n^{ij}m_n^{ij}})).Lmask(θ,ϕ)=∑(2wh1+ynij∑log(1+e−cnijmnij)).
因此，hϕh_\phihϕ的分类层由w×hw×hw×h个分类器组成，每个分类器表示一个给定的像素是否属于候选窗口中的对象。注意，LmaskL_{mask}Lmask只对正RoWs进行考虑(即yn=1y_n=1yn=1的情况)。
掩码表示： 与FCN[32]和Mask RCNN[17]风格的语义分割方法不同，我们的方法遵循[43,44]的精神，从物体的平面化表示开始生成Mask。特别地，在我们的例子中，这个表示对应于fθ(z)f_θ(z)fθ(z)和fθ(x)f_θ(x)fθ(x)之间深度相互关联产生的(17×17)RoWs之一。重要的是，分割任务的网络hϕh_\phihϕ由两个1×1的卷积层组成，一个包含256个通道，另一个包含63263^2632个通道(图2)。这允许每个像素分类器利用包含在整个RoW中的信息，从而得到x中相应候选窗口的完整视图，这对于消除看起来像目标的实例（例如图4的最后一行）之间的歧义至关重要，通常被称为干扰物。为了制作更精确的对象蒙版，我们遵循[44]的策略，使用由上采样层组成的多个细化模块，并跳过连接，将低分辨率和高分辨率特征合并(见附录a)
两个变量： 在我们的实验中，我们使用我们的分割分支和损失LmaskL_{mask}Lmask来扩充SiamFC[3]和SiamRPN[28]的架构，得到了我们所谓的两分支和三分支的siamask变体。分别优化多任务损失L2BL_{2B}L2B和L3BL_{3B}L3B，定义为：
L2B=λ1⋅Lmask+λ2⋅Lsim，L_{2B}=\lambda_1·L_{mask}+\lambda_2·L_{sim}，L2B=λ1⋅Lmask+λ2⋅Lsim，
L3B=λ1⋅Lmask+λ2⋅Lscore+λ3⋅LboxL_{3B}=\lambda_1·L_{mask}+\lambda_2·L_{score}+\lambda_3·L_{box}L3B=λ1⋅Lmask+λ2⋅Lscore+λ3⋅Lbox
上述式子中的LsimL_{sim}Lsim可以从2.2节得到解释，Lbox与LscoreL_{box}与L_{score}Lbox与Lscore在3.2节中有过解释。至于L3BL_{3B}L3B则表示当一个RoW如果他的anchor boxes与ground-truth的IOU大于0.6时则为正，反之则为负。L2BL_{2B}L2B同理。我们没有搜寻上述两个式子的超参数，只是简单地设置λ1=1\lambda_1=1λ1=1，λ2=λ3=1\lambda_2=\lambda_3=1λ2=λ3=1。box和score输出的特定任务分支由两个1×1卷积层构成。图2说明了SiamMask的两种变体。

Box generation： 注意，VOS基准需要二进制掩码，典型的跟踪基准，如VOT[26,27]需要一个边界框作为目标对象的最终表示。我们考虑三种不同的策略来从二进制掩码生成边框(图3)：

轴向对齐的边界矩形(Min-max)；
旋转最小边框(MBR)；
VOT-2016 [26] (Opt)中自动生成包围盒的优化策略；
我们在第4节(表1)中对这些备选方案进行了实证评估。

3.3 Implementation details

网络体系结构： 对于我们的两种变体，我们使用resnet -50[18]直到第四阶段的最后卷积层作为我们的骨干fθf_θfθ。为了在更深的层中获得更高的空间分辨率，我们通过使用步幅1的卷积代替步幅为8的。此外，我们通过扩大卷积来增加感受野。在我们的模型中，我们在共享骨干fθf_θfθ上添加了一个未共享的调整层(1×1 conv, 256输出)。为简单起见，我们在式1中省略了它。我们在附录A中更详细地描述了网络架构。
训练： 像SiamFC[3]一样，我们使用样本，分别搜索127×127和255×255像素的图像patch。在训练过程中，我们随机抖动样本并搜索patches。具体来说，我们考虑随机平移（最多为±8像素）和缩放（分别为2±1/82^{±1/8}2±1/8和2±1/42^{±1/4}2±1/4的样本和搜索）。
在ImageNet-1k分类任务上预先训练网络骨干。我们在第一个warmup phase阶段使用SGD(Stochastic Gradient Descent，随机梯度下降)，在这一阶段中，学习率在前5个epochs从10−310^{-3}10−3线性增加到5∗10−35*10^{-3}5∗10−3，然后在接下来的15个epochs里，按对数递减，直到5∗10−45*10^{-4}5∗10−4。我们使用COCO、ImageNet-VID以及YouTube-VOS来训练所有模型。
推理： 在跟踪过程中，SiamMask只是每帧评估一次，没有任何适应性。在我们的两个变量中，我们都使用在分类分支中获得最大分数的位置来选择输出掩码。然后，在应用了逐像素的sigmoid之后，我们将掩膜分支的输出值二值化阈值设置为0.5。在这两分支的变体中，对于第一个视频帧之后的每个视频帧，我们用Min-max框匹配输出掩码，并使用它作为参考来裁剪下一个帧搜索区域。相反，在三分支的变体中，我们发现利用box分支的得分最高的输出作为参考更有效。

视觉目标跟踪的评估

数据集和设置： 我们采用了两种广泛使用的基准数据集来评估目标跟踪任务：VOT2016和VOT2018。两者都带有旋转的边框注释。我们使用VOT2016来了解不同类型的表示如何影响性能。在第一个实验中，我们使用了在并集上的平均交点（IOU）和平均精度(AP)@{0.5,0.7}(AP)@\{0.5,0.7\}(AP)@{0.5,0.7}。然后，我们使用官方的VOT测试工具以及预期平均重叠，即EAO，将跟踪器的准确性和鲁棒性考虑在内，并与目前在VOT2018数据集上的SOTA进行比较。
对象表示有多重要？： 现有的跟踪方法通常预测具有固定或可变宽高比的轴向对齐包围框。我们感兴趣的是了解在何种程度上产生每帧二进制掩码可以改善跟踪。为了关注表征精度，本实验只忽略时间方面，随机地对视频帧进行采样。下一段中描述的方法在VOT2016序列中随机裁剪的搜索块（在±16±16±16像素内随机移动，比例变形高达21±0.252^{1±0.25}21±0.25）上进行测试。
在表1中，我们使用Min-max，MBR和Opt方法比较了我们三分支变量（在第3.2节末尾和图3中描述）。作为参考，我们还报告了作为固定和可变纵横比方法代表的SiamFC和SiamRPN的结果，以及三个可以访问每帧groundtruth信息的Oracle，并作为不同表示策略的上界。（1）固定长宽比的oracle使用每帧的ground-truth区域和中心区域，固定长宽比至该区域，并产生一个轴对齐的边框。（2）Min-max oracle使用旋转后的ground-truth边界框的最小外接矩形来产生一个轴对齐的边界框。（3）最后，MBR oracle使用旋转的最小边界矩形的ground-truth。需要注意的是，（1）、（2）和（3）可以分别考虑SiamFC、SiamRPN和SiamMask的表示策略的性能上界。
表1显示，无论使用什么边界框生成策略（图三），我们的方法都获得了最好的mIOU。尽管SiamMask-Opt提供了最高的IOU和mAP，但由于其缓慢的优化过程，它需要大量的计算资源。SiamMask-MBR实现了mAP@0.5 IOU 85.4的数据，在两个全卷积基线上分别提高了29点和9.2点。有趣的是，当在0.7IOU这个条件下，差距显著扩大，mAP的精度分别提高了41.6和18.4。值得注意的是，我们的精度结果与固定长宽比与oracle相差不远。此外，比较oracle所代表的上限性能，可以注意到，通过简单地改变边界框表示，有很大的改进空间（例如，固定宽高比和MBR oracle之间的mIOU提高了10.6%）。
总的来说，本研究显示了MBR策略从对象的二进制掩码中获取旋转的边框，这比流行的只报告轴对齐边框的策略有显著的优势。
VOT-2018和VOT-2016上的结果： 在表2，我们将两种SiamMask的变体，SiamMask-MBR与SiamMask-Opt与最近在VOT-2018基准上发布的五种最先进的跟踪器进行比较。除非另有说明，SiamMask即指的是我们的三分支变体MBR策略。这两种变体都实现了出色的性能和实时运行。特别的是，我们的三分支变体的性能明显优于最近性能最好的DaSiamRPN，在55帧每秒运行的情况下，EAO达到了0.380。即使没有box回归分支，我们更简单的两个分支变体（SiamMask-2B）也达到了0.334的高EAO，与SA_Siam_R相当，优于已发表文献中的任何其他方法。最后，在SiamMask-Opt中，在[54]中提出的从二进制掩膜中寻找最优旋转矩形的策略带来了最好的整体性能（和特别高的精度），但需要大量的计算成本。
我们的模型在精度度量下有着极佳的表现，相对与基于相关滤波器的跟踪器CSRDCF，STRCF显示出显著的优势。这并不奇怪，如表1所示，因为SiamMask依赖于更丰富的对象表示。有趣的是，与我们类似，He等人（SA_Siam_R）被激发通过考虑多个旋转和重新缩放的边框来实现更精确的目标表示。然而，它们的表示仍然被限制在一个固定的宽高比框中。
表3给出了SiaMask在VOT-2018和VOT-2016两种不同的边界框生成策略下的进一步结果。SiamMask-box是指虽然已经训练过mask分支，但仍采用SiamMask的box分支进行推理。通过使用mask分支来生成边界框，我们可以观察到所有评估指标的明显改进。

半监督VOS评估

我们的模型，一旦经过训练后，也可以用于VOS的任务，在测试时不需要任何适应就可以实现具有竞争力的表现。重要的是，与典型的VOS方法不同，我们的方法可以在线操作，实时运行，只需要一个简单的边界框初始化。
数据集和设置： 我们的报告包括SiamMask在DAVIS-2016，DAVIS-2017和YouTube-VOS基准数据集上的性能表现。对于这两个DAVIS数据集，我们使用官方的性能度量：用Jaccard指数（JJJ）来表示区域相似性，用F-measure（FFF）表示轮廓精度。对于每个测度C∈{J,F}C∈\{J,F\}C∈{J,F}，考虑三个统计数据：均值CM，召回CO和衰减CDC_M，召回C_O和衰减C_DCM，召回CO和衰减CD，这告诉我们随着时间的性能的增益/损失。在Xu等人之后，对于YouTube-VOS，我们报告了可见类别（JS,FS）（J_S,F_S）（JS,FS）和不可见类别（JU,FU）（J_U,F_U）（JU,FU）的平均Jaccard指数和F-measure。OOO是这四种测量的平均值。
为了初始化SiamMask，我们从第一帧中提供的掩膜中提取轴对齐的边界框（Min-max策略，见图3）。与大多数VOS方法类似，在同一视频(DA VIS-2017)中有多个对象的情况下，我们只需执行多个推断。
在DAVIS和YouTube-VOS上的结果： 在半监督设置中，VOS方法利用二进制掩膜进行初始化，其中许多方法在测试时需要计算密集型技术，如微调，数据增强，马尔科夫随机场与条件随机场上的推理以及光流。因此，VOS技术需要几分钟来处理一个短序列并不罕见。显然，这些策略使得在线适用性(这是我们的重点)变得不可能。出于这个原因，在我们的比较中，我们主要集中在快速的最先进的方法上。
表4，5和6显示了SiamMask为何能够被视为一个强大的在线VOS基线。首先，它几乎比OnAVOS或SFL这两个精确的方法快了两个数量级。第二，它与最近的不采用微调的VOS方法相比具有竞争力，同时比最快的方法（即OSMN和RGMP）效率高四倍。有趣的是，我们注意到，对于区域相似性（JDJ_DJD）和轮廓精度（FDF_DFD），SiamMask实现了非常低的衰减。这表明我们的方法随着时间的推移是稳健的，因此它适用于特别长的序列。
图4、图9和图10显示了VOT和DAVIS可见序列的SiamMask的定性结果。尽管速度很快，SiamMask仍在存在干扰的情况下产生了准确的分割掩膜。

进一步分析

在本节中，我们将阐述消融研究、失败案例和我们方法的时间。
网络结构： 在表7中，AN和RN表示我们使用的是AlexNet还是ResNet-50作为共享的backbonefθf_\thetafθ（图2），而使用“w/o R”则表示该方法不适用Pinheiro等人的细化策略。从表7的结果中，我们可以看到：（1）从第一组的结果数据来看，通过简单地更新fθf_\thetafθ的架构，有可能实现重要的性能改进。然而，这是以速度为代价的，尤其是对SiamRPN来说。（2）SiamMask-2B和SiamMask在SiamFC和SiamRPN的基线（fθf_\thetafθ相同）上有了很大的改进。（3）有趣的是，Pinheiro等人的细化方法对于轮廓精度FMF_MFM非常重要，但是对于其他指标就不那么重要了。
多任务训练： 我们进一步进行了两个实验来理清多任务训练的效果。结果见表7。为了实现这一点，我们在推断过程中修改了SiamMask的两个变体，使它们分别报告来自分数分支（SiamMask-2B-score）或边界框分支（SiamMask-box）的轴对齐包围框。因此，掩膜分支尽管经过训练，但在推理过程中不使用。我们可以观察到这两种变体如何获得相对于它们的对等体(SiamFC和SiamRPN)的温和但有意义的改进:在VOT2018上，两分支的EAO从0.251增长到0.265，三分支从0.359增长到0.363。
测时： SiamMask无需对测试顺序进行任何调整即可在线运行。在单个NIVIDIA RTX 2080 GPU上，我们测量了两分支和三分支的平均速度分别为每秒55帧和60帧。值得注意的是，最高的计算负担来自特征提取器fθf_\thetafθ。
失败的例子： 最后，我们讨论了SiamMask失败的两个场景：运动模糊和“非对象”实例（图5）。尽管这两种情况在本质上是不同的，但可以论证的是，这两种情况是由于在训练集中完全缺乏类似的训练样本，这些训练集中在可以从前景明确区分的对象上。

结论

在本文中，我们介绍了SiamMask，这是一种简单的方法，可以使全卷积Siamese跟踪器产生目标对象的类不可知的二进制分割掩膜。我们展示了它如何成功地应用于视觉对象跟踪和半监督视频对象分割任务，显示了比最先进的跟踪器更好的准确性，同时，VOS方法中最快的速度。我们提出的SiamMask的两种变体都用一个简单的边界框进行初始化，在线运行，实时运行，不需要对测试序列进行任何调整。我们希望我们的工作将对进一步考虑视觉目标跟踪和视频目标分割这两个问题的研究起到启发作用。
感谢： 这项工作得到了ERC grant ERC-2012-AdG 321162-HELIOS, EPSRC grant Seebibyte EP/M013774/1 and EPSRC/MURI grant EP/N019474/1的大力支持。我们也要感谢英国皇家工程院和FiveAI有限公司的支持。王强获得国家自然科学基金的部分资助（Grant No. 61751212, 61721004 and U1636218）