目录

  • 摘要
  • 介绍
  • 相关工作
  • 本文的方法
    • 3.1 Fully-convolutional Siamese networks
    • 3.2 SiamMask
    • 3.3 Implementation details
  • 视觉目标跟踪的评估
  • 半监督VOS评估
  • 进一步分析
  • 结论

  对于目标追踪而言,一般论文开篇通常都会说在第一帧给定目标位置,在后续帧中预测目标的位置。然而如何对后续帧中表述的定义直接影响了整个跟踪领域的发展。
  今天这篇论文主要介绍的是达摩院19年发表的目标追踪领域文章SiamMask
  项目网址为:SiamMask
  开源项目网址:SiamMask

摘要

  在本文中,我们说明了如何用一种简单的方法实时执行视觉对象跟踪和半监督视频对象分割。我们的办法,被称为SiamMask,改进了流行的全卷积Siamese方法的离线训练过程,通过二进制分割任务来增加它们的损失。经过训练后,SiamMask仅依赖于单个边界框初始化,并在线操作,以每秒55帧的速度产生与类无关的对象分割掩膜和旋转边界框。尽管简单、多功能且速度快,但我们的策略能够使我们能够在VOT-2018数据集上的实时跟踪器中达到SOTA,同时展示了DAVIS-2016和DAVIS-2017上半监控视频对象分割任务的竞争性能和最佳速度。本项目网站是:http://www.robots.ox.ac.uk/˜qwang/SiamMask。

介绍

  在任何需要对感兴趣的对象进行某种程度的推理的视频应用中,跟踪是一项基本任务,因为它允许在帧之间建立对象对应关系[34]。它广泛应用于自动监控、车辆导航、视频标记、人机交互和活动识别等场景。给定视频第一帧中任意感兴趣目标的位置,视觉对象跟踪的目的是以尽可能好的精度估计其在所有后续帧中的位置[48]。
  对于许多应用程序来说,由于视频是流式的,在线执行跟踪任务是十分重要的。换句话说,跟踪器不应该使用未来的帧来推断对象当前位置[26]。这是由视觉对象跟踪基准描绘的场景,它用简单的轴向(例如[56,52])或旋转[26,27]边界框表示目标对象。如此简单的注释有助于保持数据标签的低成本;此外,它允许用户简单而快速地初始化目标。

  与目标跟踪类似,半监督视频对象分割(VOS)任务需要估计视频第一帧中指定的任意目标的位置。然而,在这种情况下,对象表示包括表示像素是否属于目标的二进制分割掩模[40]。这种详细的表示对于需要像素级信息的应用程序来说更为理想,如视频编辑[38]和旋转观察[37]。可以理解的是,生成像素级估计值需要比简单的定界框更多的计算资源。因此, VOS方法传统上很慢,通常每帧需要几秒钟(例如[55,50,39,1])。最近,人们对更快的办法的兴趣激增[59,36,57,8,7,22,21]。然而,即使是最快的,也无法实时运行。
  在本文中,我们旨在通过提出一种简单的多任务学习方法SiamMask来解决这两个问题,从而缩小任意目标跟踪和VOS之间的差距。我们的方法是由基于离线训练数百万对视频帧[28,63,15,60]的完全卷积Siamese网络[3]的快速跟踪方法的成功和最近可用的YouTube-VOS,一个带有像素级注释的大型视频数据集所激发的。我们的目标是保持这些方法的离线可训练性和在线速度,同时显著地改进它们对目标对象的表示,这仅限于一个简单的轴对齐边界框。
  为了实现这一目标,我们在三个任务上同时训练一个Siamese网络,每个任务对应一个不同的策略,在新的框架中建立目标对象和候选区域之间的对应关系。正如Bertinetto等人的完全卷积方法[3]一样,其中一个任务是通过滑动窗口的方式学习目标对象和多个候选对象之间的相似性度量。输出是一个密集的响应图,它只表示物体的位置,而不提供任何关于其空间范围的信息。为了细化这些信息,我们同时学习两个进一步的任务:使用区域建议网络的边界框回归[46,28]和类别不可知的二进制分割[43]。值得注意的是,二进制标签只需要在离线训练中计算分割损失,而不是在线分割/跟踪。在我们提出的架构中,每个任务都由一个从共享的CNN出发的不同分支来表示,并导致最终的损失,从而将三个输出相加。
  一旦训练,SiamMask只依赖于单一的边界框初始化,在线运行而不进行更新,并以每秒55帧的速度产生对象分割掩膜和旋转边界框。尽管其简单和快速,SiamMask在VOT-2018上为实时目标跟踪问题建立了一个最新的技术水平。此外,同样的方法在DAVIS-2016和DAVIS-2017上与最近的半监督VOS方法相比也非常有竞争力,而且速度非常快。这个结果是通过简单的边界框初始化(相对于掩模)来实现的,并且没有采用VOS方法经常使用的昂贵技术,如微调[35,39,1,53]、数据增强[23,30]和光流[50,1,39,30,8]。
  本文的其余部分如下:第二章节简要概述了视觉对象跟踪和半监督VOS中一些最相关的前期工作。第三章节描述了我们的建议;第四章节根据四个基准评价它,并举例说明几个消融研究;第五章节总结了本文。

相关工作

  在这一节中,我们简要介绍了本文中解决的两个问题的最具代表性的技术。
  视觉目标跟踪。可以说,直到最近,跟踪任意物体的最流行的范式一直是在线训练一个鉴别分类器,专门根据视频第一帧中提供的地面真相信息(然后在线更新)。
  在过去的几年里,由于Bolme等人[4]的开创性工作,相关滤波(Correlation Filter)作为一种简单的算法,可以区分任意目标的模板及其2D变换,成为通过检测进行跟踪的特别快速和有效的策略。通过采用多通道公式[24,20]、空间约束[25,13,33,29]和深度特征[12,51],基于相关滤波的跟踪器的性能得到了显著提高。
  最近,一种完全不同的方法被引入[3,19,49]。这些方法不是在线学习判别分类器,而是离线训练成对视频帧的相似性函数。在测试时,可以在新视频上简单地评估该功能,每帧一次。特别是,全卷积暹罗方法[3]的演变通过利用区域建议[28]、硬负挖掘[63]、集成[15]和存储网络[60]显著提高了跟踪性能。
  大多数现代跟踪器,包括上面提到的所有跟踪器,都使用一个矩形边界框来初始化目标,并在随后的帧中估计其位置。尽管简单的矩形很方便,但它通常不能恰当地表示一个对象,这在图1的例子中很明显。这促使我们提出了一种能够产生二进制分割掩膜的跟踪器,同时仍然只依赖于边界框初始化。
  有趣的是,在过去,跟踪器生成目标对象的粗略二进制掩膜并不罕见[11,42]。然而,据我们所知,最近唯一能像我们这样的追踪器,能够在线操作并从边界框初始化开始产生二进制掩膜的追踪器是Yeo等人的超像素方法[61]。然而,在每秒4帧(fps)的速度下,它的最快版本比我们的提出的方法慢得多。此外,当使用CNN功能时,其速度会下降60倍,降至0.1 fps以下。最后,在现代跟踪或VOS基准上,它还没有显示出竞争力。与我们相似的是Perazzi和Ci等人的方法,也可以从矩形开始并输出每帧掩膜。但是,在测试时,它们需要微调,这会使得它们变慢。
  半监督视频对象分割。任意对象跟踪的基准[48,26,56]假设跟踪器以顺序方式接收输入帧。这个方面通常用在线或因果[26]属性来表示。此外,方法通常侧重于实现超过典型视频帧率的速度[27]。反之,半监督VOS算法传统上更关心兴趣对象的精确表示[38,40]。
  为了利用视频帧之间的一致性,有几种方法通过图标记方法[55,41,50,36,1]将第一帧的监控分割掩膜传播到时间相邻帧。特别是,Bao等人[1]最近提出了一个非常精确的方法,利用时空MRF,其中时间相关性由光流建模,而空间相关性则由CNN表示。
  另一种流行的策略是独立处理视频帧[35,39,53],类似于大多数跟踪方法中发生的情况。例如,OSVOS-S Maninis等人[35],不使用任何时间信息,依靠预先训练的完全卷积网络进行分类,然后在测试时,他们使用第一帧中提供的ground-truth掩膜对其进行微调。相反,MaskTrack[39]是从头开始训练的,但是它确实利用了测试时的一些时间形式,使用最新的掩模预测和光流作为网络附加输入。
  为了达到尽可能高的精度,VOS方法在测试时通常具有计算密集型技术,如微调[35,39,1,53]、数据增强[23,30]和光流[50,1,39,30,8]。因此,这些方法通常具有低帧率和无法在线操作的问题。例如,对于只有几秒钟的视频,需要几分钟[39,9]甚至几小时[50,1]的时间,这并不少见,比如DAVIS的那些方法。
  最近, VOS社区对更快的方法[36,57,8,7,22,21]越来越感兴趣。据我们所知,与最先进的技术水平相竞争的最快的方法是Yang等人[59]和Wug等人[57]的方法。前者使用元网络“调制器”在测试期间快速适应分段网络的参数,而后者不使用任何微调,并采用在多个阶段中训练的编码器-解码器Siamese架构。这两种方法的运行速度都低于每秒10帧,而我们的速度是6倍多,而且只依赖于边界框的初始化。

本文的方法

  为了便于在线操作和快速运行,我们采用了全卷积Siamese框架[3]。此外,为了说明我们的方法与作为起点使用的特定的全卷积方法[3,28,63,60,16]无关,我们将流行的SiamFC[3]和SiamRPN[28]作为两个典型的例子。我们首先在3.1节中介绍它们,然后在3.2节中描述我们的方法。

3.1 Fully-convolutional Siamese networks

  SiamFC:Bertinetto等人建议使用离线训练的全卷积暹罗网络来比较样本图像,作为跟踪系统的基本构件,该网络将样本图像z与(更大的)搜索图像x进行比较,以获得密集响应图。z为输入的范本,即第一帧图像中的目标框。x为输入的搜索图像。两个输入经过同一个CNN fθf_\thetafθ​ ,产生两个相互关联的特征图:gθ(z,x)=fθ(z)∗fθ(x)g_\theta(z,x)=f_\theta(z)*f_\theta(x)gθ​(z,x)=fθ​(z)∗fθ​(x)
  在本文中,我们将响应映射的每个空间元素称为响应候选窗口(RoW)。例如,gθ2(z,x)g_\theta^2(z,x)gθ2​(z,x)对样本z和x中的第n个候选窗口之间的相似性进行编码.对于SiamFC,目标是使响应地图的最大值与搜索区域x中的目标位置相对应。相反,为了让每一行编码关于目标对象有更丰富的信息,我们将Eq. 1的简单互相关替换为深度互相关,并产生一个多通道响应映射。SiamFC是在数百万视频帧上通过logistic 损失函数(我们称这个为LsimL_{sim}Lsim​)训练来的。
  SiamRPN:通过RPN(区域建议网络),Li等人大大提高了SiamFC的性能,该网络允许用可变长宽比的包围框来预测目标位置。特别是在SiamRPN中,每个响应候选窗口(RoW) encodes a set of k anchor box proposals and corresponding object/background scores。因此,SiamRPN能够并行输出带有分类及分数的预测区域。这两个分支分别通过L1正则化与交叉熵损失进行训练。下面我们分别称之为LboxL_{box}Lbox​和LscoreL_{score}Lscore​。

3.2 SiamMask


  与现有的依赖于低保真对象表示的跟踪方法不同,我们讨论了每帧生成二进制分割掩码的重要性。为此目的,我们证明,除了相似度分数和边框坐标外,全卷积暹罗网络的行也可以编码产生像素级二进制掩码所需的信息。这可以通过扩展现有的暹罗跟踪器与额外的分支和损失来实现。
  我们使用具有可学习参数ϕ\phiϕ简单两层神经网络hϕh_{\phi}hϕ​预测w∗hw*hw∗h二元掩膜。设mnm_nmn​表示第n行对应的预测掩码:mn=hϕ(gθn(z,x))m_n=h_\phi(g_\theta^n(z,x))mn​=hϕ​(gθn​(z,x))
  从上式我们可以看到,掩模预测是分割x的图像和分割z中的目标对象的函数。这样,z就可以作为一个参考来指导分割过程:给定不同的参考图像,网络将为x生成不同的分割掩码。
  损失函数: 在训练过程中,每个RoW都用一个ground-truth二进制标签进行标记(yn∈{±1}y_n∈\{±1\}yn​∈{±1}),同时也与尺寸为w×h的像素级ground-truth掩模cnc_ncn​相关联。设cnij∈{±1}c_n^{ij}∈\{±1\}cnij​∈{±1}为第n行候选对象掩模的像素(i, j)对应的标签。损失函数LmaskL_{mask}Lmask​对于掩码预测任务,是所有RoWs的二进制逻辑回归损失。掩码预测任务的损失函数LmaskL_{mask}Lmask​(式3)是所有RoWs的二元逻辑回归损失:
Lmask(θ,ϕ)=∑(1+yn2wh∑ijlog(1+e−cnijmnij)).L_{mask}(\theta,\phi)=\sum(\frac{1+y_n}{2wh}\sum_{ij}log(1+e^{-c_n^{ij}m_n^{ij}})).Lmask​(θ,ϕ)=∑(2wh1+yn​​ij∑​log(1+e−cnij​mnij​)).
  因此,hϕh_\phihϕ​的分类层由w×hw×hw×h个分类器组成,每个分类器表示一个给定的像素是否属于候选窗口中的对象。注意,LmaskL_{mask}Lmask​只对正RoWs进行考虑(即yn=1y_n=1yn​=1的情况)。
  掩码表示: 与FCN[32]和Mask RCNN[17]风格的语义分割方法不同,我们的方法遵循[43,44]的精神,从物体的平面化表示开始生成Mask。特别地,在我们的例子中,这个表示对应于fθ(z)f_θ(z)fθ​(z)和fθ(x)f_θ(x)fθ​(x)之间深度相互关联产生的(17×17)RoWs之一。重要的是,分割任务的网络hϕh_\phihϕ​由两个1×1的卷积层组成,一个包含256个通道,另一个包含63263^2632个通道(图2)。这允许每个像素分类器利用包含在整个RoW中的信息,从而得到x中相应候选窗口的完整视图,这对于消除看起来像目标的实例(例如图4的最后一行)之间的歧义至关重要,通常被称为干扰物。为了制作更精确的对象蒙版,我们遵循[44]的策略,使用由上采样层组成的多个细化模块,并跳过连接,将低分辨率和高分辨率特征合并(见附录a)
  两个变量: 在我们的实验中,我们使用我们的分割分支和损失LmaskL_{mask}Lmask​来扩充SiamFC[3]和SiamRPN[28]的架构,得到了我们所谓的两分支和三分支的siamask变体。分别优化多任务损失L2BL_{2B}L2B​和L3BL_{3B}L3B​,定义为:
L2B=λ1⋅Lmask+λ2⋅Lsim,L_{2B}=\lambda_1·L_{mask}+\lambda_2·L_{sim},L2B​=λ1​⋅Lmask​+λ2​⋅Lsim​,
L3B=λ1⋅Lmask+λ2⋅Lscore+λ3⋅LboxL_{3B}=\lambda_1·L_{mask}+\lambda_2·L_{score}+\lambda_3·L_{box}L3B​=λ1​⋅Lmask​+λ2​⋅Lscore​+λ3​⋅Lbox​
  上述式子中的LsimL_{sim}Lsim​可以从2.2节得到解释,Lbox与LscoreL_{box}与L_{score}Lbox​与Lscore​在3.2节中有过解释。至于L3BL_{3B}L3B​则表示当一个RoW如果他的anchor boxes与ground-truth的IOU大于0.6时则为正,反之则为负。L2BL_{2B}L2B​同理。我们没有搜寻上述两个式子的超参数,只是简单地设置λ1=1\lambda_1=1λ1​=1,λ2=λ3=1\lambda_2=\lambda_3=1λ2​=λ3​=1。box和score输出的特定任务分支由两个1×1卷积层构成。图2说明了SiamMask的两种变体。

  Box generation: 注意,VOS基准需要二进制掩码,典型的跟踪基准,如VOT[26,27]需要一个边界框作为目标对象的最终表示。我们考虑三种不同的策略来从二进制掩码生成边框(图3):

  • 轴向对齐的边界矩形(Min-max);
  • 旋转最小边框(MBR);
  • VOT-2016 [26] (Opt)中自动生成包围盒的优化策略;
    我们在第4节(表1)中对这些备选方案进行了实证评估。

3.3 Implementation details

  网络体系结构: 对于我们的两种变体,我们使用resnet -50[18]直到第四阶段的最后卷积层作为我们的骨干fθf_θfθ​。为了在更深的层中获得更高的空间分辨率,我们通过使用步幅1的卷积代替步幅为8的。此外,我们通过扩大卷积来增加感受野。在我们的模型中,我们在共享骨干fθf_θfθ​上添加了一个未共享的调整层(1×1 conv, 256输出)。为简单起见,我们在式1中省略了它。我们在附录A中更详细地描述了网络架构。
  训练: 像SiamFC[3]一样,我们使用样本,分别搜索127×127和255×255像素的图像patch。在训练过程中,我们随机抖动样本并搜索patches。具体来说,我们考虑随机平移(最多为±8像素)和缩放(分别为2±1/82^{±1/8}2±1/8和2±1/42^{±1/4}2±1/4的样本和搜索)。
  在ImageNet-1k分类任务上预先训练网络骨干。我们在第一个warmup phase阶段使用SGD(Stochastic Gradient Descent,随机梯度下降),在这一阶段中,学习率在前5个epochs从10−310^{-3}10−3线性增加到5∗10−35*10^{-3}5∗10−3,然后在接下来的15个epochs里,按对数递减,直到5∗10−45*10^{-4}5∗10−4。我们使用COCO、ImageNet-VID以及YouTube-VOS来训练所有模型。
  推理: 在跟踪过程中,SiamMask只是每帧评估一次,没有任何适应性。在我们的两个变量中,我们都使用在分类分支中获得最大分数的位置来选择输出掩码。然后,在应用了逐像素的sigmoid之后,我们将掩膜分支的输出值二值化阈值设置为0.5。在这两分支的变体中,对于第一个视频帧之后的每个视频帧,我们用Min-max框匹配输出掩码,并使用它作为参考来裁剪下一个帧搜索区域。相反,在三分支的变体中,我们发现利用box分支的得分最高的输出作为参考更有效。

视觉目标跟踪的评估

  数据集和设置: 我们采用了两种广泛使用的基准数据集来评估目标跟踪任务:VOT2016和VOT2018。两者都带有旋转的边框注释。我们使用VOT2016来了解不同类型的表示如何影响性能。在第一个实验中,我们使用了在并集上的平均交点(IOU)和平均精度(AP)@{0.5,0.7}(AP)@\{0.5,0.7\}(AP)@{0.5,0.7}。然后,我们使用官方的VOT测试工具以及预期平均重叠,即EAO,将跟踪器的准确性和鲁棒性考虑在内,并与目前在VOT2018数据集上的SOTA进行比较。
  对象表示有多重要?: 现有的跟踪方法通常预测具有固定或可变宽高比的轴向对齐包围框。我们感兴趣的是了解在何种程度上产生每帧二进制掩码可以改善跟踪。为了关注表征精度,本实验只忽略时间方面,随机地对视频帧进行采样。下一段中描述的方法在VOT2016序列中随机裁剪的搜索块(在±16±16±16像素内随机移动,比例变形高达21±0.252^{1±0.25}21±0.25)上进行测试。
  在表1中,我们使用Min-max,MBR和Opt方法比较了我们三分支变量(在第3.2节末尾和图3中描述)。作为参考,我们还报告了作为固定和可变纵横比方法代表的SiamFC和SiamRPN的结果,以及三个可以访问每帧groundtruth信息的Oracle,并作为不同表示策略的上界。(1)固定长宽比的oracle使用每帧的ground-truth区域和中心区域,固定长宽比至该区域,并产生一个轴对齐的边框。(2)Min-max oracle使用旋转后的ground-truth边界框的最小外接矩形来产生一个轴对齐的边界框。(3)最后,MBR oracle使用旋转的最小边界矩形的ground-truth。需要注意的是,(1)、(2)和(3)可以分别考虑SiamFC、SiamRPN和SiamMask的表示策略的性能上界。
  表1显示,无论使用什么边界框生成策略(图三),我们的方法都获得了最好的mIOU。尽管SiamMask-Opt提供了最高的IOU和mAP,但由于其缓慢的优化过程,它需要大量的计算资源。SiamMask-MBR实现了mAP@0.5 IOU 85.4的数据,在两个全卷积基线上分别提高了29点和9.2点。有趣的是,当在0.7IOU这个条件下,差距显著扩大,mAP的精度分别提高了41.6和18.4。值得注意的是,我们的精度结果与固定长宽比与oracle相差不远。此外,比较oracle所代表的上限性能,可以注意到,通过简单地改变边界框表示,有很大的改进空间(例如,固定宽高比和MBR oracle之间的mIOU提高了10.6%)。
  总的来说,本研究显示了MBR策略从对象的二进制掩码中获取旋转的边框,这比流行的只报告轴对齐边框的策略有显著的优势。
VOT-2018和VOT-2016上的结果: 在表2,我们将两种SiamMask的变体,SiamMask-MBR与SiamMask-Opt与最近在VOT-2018基准上发布的五种最先进的跟踪器进行比较。除非另有说明,SiamMask即指的是我们的三分支变体MBR策略。这两种变体都实现了出色的性能和实时运行。特别的是,我们的三分支变体的性能明显优于最近性能最好的DaSiamRPN,在55帧每秒运行的情况下,EAO达到了0.380。即使没有box回归分支,我们更简单的两个分支变体(SiamMask-2B)也达到了0.334的高EAO,与SA_Siam_R相当,优于已发表文献中的任何其他方法。最后,在SiamMask-Opt中,在[54]中提出的从二进制掩膜中寻找最优旋转矩形的策略带来了最好的整体性能(和特别高的精度),但需要大量的计算成本。
  我们的模型在精度度量下有着极佳的表现,相对与基于相关滤波器的跟踪器CSRDCF,STRCF显示出显著的优势。这并不奇怪,如表1所示,因为SiamMask依赖于更丰富的对象表示。有趣的是,与我们类似,He等人(SA_Siam_R)被激发通过考虑多个旋转和重新缩放的边框来实现更精确的目标表示。然而,它们的表示仍然被限制在一个固定的宽高比框中。
  表3给出了SiaMask在VOT-2018和VOT-2016两种不同的边界框生成策略下的进一步结果。SiamMask-box是指虽然已经训练过mask分支,但仍采用SiamMask的box分支进行推理。通过使用mask分支来生成边界框,我们可以观察到所有评估指标的明显改进。

半监督VOS评估

  我们的模型,一旦经过训练后,也可以用于VOS的任务,在测试时不需要任何适应就可以实现具有竞争力的表现。重要的是,与典型的VOS方法不同,我们的方法可以在线操作,实时运行,只需要一个简单的边界框初始化。
数据集和设置: 我们的报告包括SiamMask在DAVIS-2016,DAVIS-2017和YouTube-VOS基准数据集上的性能表现。对于这两个DAVIS数据集,我们使用官方的性能度量:用Jaccard指数(JJJ)来表示区域相似性,用F-measure(FFF)表示轮廓精度。对于每个测度C∈{J,F}C∈\{J,F\}C∈{J,F},考虑三个统计数据:均值CM,召回CO和衰减CDC_M,召回C_O和衰减C_DCM​,召回CO​和衰减CD​,这告诉我们随着时间的性能的增益/损失。在Xu等人之后,对于YouTube-VOS,我们报告了可见类别(JS,FS)(J_S,F_S)(JS​,FS​)和不可见类别(JU,FU)(J_U,F_U)(JU​,FU​)的平均Jaccard指数和F-measure。OOO是这四种测量的平均值。
  为了初始化SiamMask,我们从第一帧中提供的掩膜中提取轴对齐的边界框(Min-max策略,见图3)。与大多数VOS方法类似,在同一视频(DA VIS-2017)中有多个对象的情况下,我们只需执行多个推断。
  在DAVIS和YouTube-VOS上的结果: 在半监督设置中,VOS方法利用二进制掩膜进行初始化,其中许多方法在测试时需要计算密集型技术,如微调,数据增强,马尔科夫随机场与条件随机场上的推理以及光流。因此,VOS技术需要几分钟来处理一个短序列并不罕见。显然,这些策略使得在线适用性(这是我们的重点)变得不可能。出于这个原因,在我们的比较中,我们主要集中在快速的最先进的方法上。
  表4,5和6显示了SiamMask为何能够被视为一个强大的在线VOS基线。首先,它几乎比OnAVOS或SFL这两个精确的方法快了两个数量级。第二,它与最近的不采用微调的VOS方法相比具有竞争力,同时比最快的方法(即OSMN和RGMP)效率高四倍。有趣的是,我们注意到,对于区域相似性(JDJ_DJD​)和轮廓精度(FDF_DFD​),SiamMask实现了非常低的衰减。这表明我们的方法随着时间的推移是稳健的,因此它适用于特别长的序列。
  图4、图9和图10显示了VOT和DAVIS可见序列的SiamMask的定性结果。尽管速度很快,SiamMask仍在存在干扰的情况下产生了准确的分割掩膜。

进一步分析

  在本节中,我们将阐述消融研究、失败案例和我们方法的时间。
  网络结构: 在表7中,AN和RN表示我们使用的是AlexNet还是ResNet-50作为共享的backbonefθf_\thetafθ​(图2),而使用“w/o R”则表示该方法不适用Pinheiro等人的细化策略。从表7的结果中,我们可以看到:(1)从第一组的结果数据来看,通过简单地更新fθf_\thetafθ​的架构,有可能实现重要的性能改进。然而,这是以速度为代价的,尤其是对SiamRPN来说。(2)SiamMask-2B和SiamMask在SiamFC和SiamRPN的基线(fθf_\thetafθ​相同)上有了很大的改进。(3)有趣的是,Pinheiro等人的细化方法对于轮廓精度FMF_MFM​非常重要,但是对于其他指标就不那么重要了。
  多任务训练: 我们进一步进行了两个实验来理清多任务训练的效果。结果见表7。为了实现这一点,我们在推断过程中修改了SiamMask的两个变体,使它们分别报告来自分数分支(SiamMask-2B-score)或边界框分支(SiamMask-box)的轴对齐包围框。因此,掩膜分支尽管经过训练,但在推理过程中不使用。我们可以观察到这两种变体如何获得相对于它们的对等体(SiamFC和SiamRPN)的温和但有意义的改进:在VOT2018上,两分支的EAO从0.251增长到0.265,三分支从0.359增长到0.363。
  测时: SiamMask无需对测试顺序进行任何调整即可在线运行。在单个NIVIDIA RTX 2080 GPU上,我们测量了两分支和三分支的平均速度分别为每秒55帧和60帧。值得注意的是,最高的计算负担来自特征提取器fθf_\thetafθ​。
  失败的例子: 最后,我们讨论了SiamMask失败的两个场景:运动模糊和“非对象”实例(图5)。尽管这两种情况在本质上是不同的,但可以论证的是,这两种情况是由于在训练集中完全缺乏类似的训练样本,这些训练集中在可以从前景明确区分的对象上。

结论

  在本文中,我们介绍了SiamMask,这是一种简单的方法,可以使全卷积Siamese跟踪器产生目标对象的类不可知的二进制分割掩膜。我们展示了它如何成功地应用于视觉对象跟踪和半监督视频对象分割任务,显示了比最先进的跟踪器更好的准确性,同时,VOS方法中最快的速度。我们提出的SiamMask的两种变体都用一个简单的边界框进行初始化,在线运行,实时运行,不需要对测试序列进行任何调整。我们希望我们的工作将对进一步考虑视觉目标跟踪和视频目标分割这两个问题的研究起到启发作用。
感谢: 这项工作得到了ERC grant ERC-2012-AdG 321162-HELIOS, EPSRC grant Seebibyte EP/M013774/1 and EPSRC/MURI grant EP/N019474/1的大力支持。我们也要感谢英国皇家工程院和FiveAI有限公司的支持。王强获得国家自然科学基金的部分资助(Grant No. 61751212, 61721004 and U1636218)

《Fast Online Object Tracking and Segmentation: A Unifying Approach》相关推荐

  1. 论文笔记 SiamMask : Fast Online Object Tracking and Segmentation: A Unifying Approach

    论文连接:[1812.05050] Fast Online Object Tracking and Segmentation: A Unifying Approach 论文连接:[1812.05050 ...

  2. Fast Online Object Tracking and Segmentation: A Unifying Approach

    项目地址:https://github.com/foolwood/SiamMask 论文地址:https://arxiv.org/abs/1812.05050 主页地址:http://www.robo ...

  3. 《SiamMask:Fast Online Object Tracking and Segmentation:A Unifying Approach》论文笔记

    参考代码:SiamMask 1. 概述 导读:这篇文章在基于孪生网络的目标跟踪算法离线训练的过程中嵌入一个mask分割分支,从而可到一个既可以做VOT也可以做VOS(分割性能这块可以还有很大空间)的网 ...

  4. 【阅读笔记】低照度图像增强-《Fast efficient algorithm for enhancement of low lighting video》

    本文介绍的是一种比较实用的低照度图像增强效果很好的方法,Xuan Dong论文<Fast efficient algorithm for enhancement of low lighting ...

  5. 《Soft-NMS – Improving Object Detection With One Line of Code》论文翻译

    前言 <Soft-NMS – Improving Object Detection With One Line of Code>发表于2017年ICCV 资源 论文下载 论文题目及作者 摘 ...

  6. Dynamic Fusion 总结(根据论文:《DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time》

    Dynamic Fusion 总结(根据论文:<DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Ti ...

  7. 《Fast Video Object Segmentation by Reference-Guided Mask Propagation》论文阅读

    Abstract 我们提出了一种有效的半监督视频对象分割方法. 与其他方法相比,我们的方法在运行时间很短的情况下实现了与最先进的方法相比的准确性.为此,我们提出了一个深度的Siamese编码器 - 解 ...

  8. 论文阅读:《POI: Multiple Object Tracking with High Performance Detection and Appearance Feature 》

     Detection 在基于数据关联的MOT中,跟踪性能受检测结果的严重影响. 我们基于Faster R-CNN [14]实现检测器.在我们的实现中,CNN模型是从ImageNet上的VGG-16进行 ...

  9. 《A non-contact eye-gaze tracking system for human computer interaction》论文阅读

    题目:A non-contact eye-gaze tracking system for human computer interaction 作者:YING QI, ZHI-LIANG WANG, ...

最新文章

  1. 序列化和反序列化的几种方式(DataContractSerializer)(二)
  2. 2.3.1 spring属性注入-注解注入-半注解方式-前序
  3. mysql 3t_编译安装mysql
  4. Ruby设计模式透析之 —— 策略(Strategy)
  5. 返回一个二维整数数组最大联通子数组的和(思路)
  6. IntellJ IDEA可以单独调试一个类
  7. JVM监控及诊断工具GUI篇之Eclipse MAT
  8. 群晖NAS教程(十五)、利用Web Station安装typecho博客
  9. Java Web项目漏洞修复(绿盟检测)
  10. 计算机专业数学建模结课论文,大学生数学建模论文范文
  11. k3cloud是java,JAVA调用K3Cloud接口新增报“调用目标发生异常
  12. 射频识别系统的组成及工作原理解析
  13. 深度学习-自然语言处理(NLP)-第三方库(工具包):Synonyms【更好的中文近义词、聊天机器人、智能问答工具包】
  14. MATLAB三元条件运算符,C++ ?:条件运算符(三目运算符)用法详解
  15. 2018计算机cpu调研,2018最新电脑处理器天梯图,进来了解下
  16. sqlzoo刷题——select from nobel(诺贝尔获奖查询)
  17. MATLAB实现利用三个不共线的点绘制圆(包括圆心和半径的求解)
  18. Spark环境搭建Standalone模式
  19. 也门亚丁一炼油厂爆炸起火造成数人受伤
  20. linux服务器怎么添加路由,linux系统中添加路由的方法

热门文章

  1. matlab双纵轴刻度覆盖问题,求助: matlab双纵轴换图问题
  2. Apache Log4j 2.0-rc1 发布
  3. Android复杂页面代码拆分方法
  4. 苹果退款48小时审核结果_金苹果花园车辆审核结果20191102
  5. 【备战春招/秋招系列】美团Java面经总结终结篇 (附详解答案) 1
  6. Github官网无法访问问题
  7. Java的小数点后精度计算
  8. 核磁谱图分析步骤_核磁一般氢谱和碳谱的解析步骤
  9. 基于规则的语音合成中文文本前端设计【2】
  10. Java实现 LeetCode 838 推多米诺(暴力模拟)