今年的CVPR的结果已经完全公布,我参与的两篇文章SiamMaskSiamRPN++均被接收。

SiamMask的测试代码:foolwood/SiamMask

以下正文:

在两年前,当我们提起视觉跟踪(Visual Tracking),我们的脑海里总是灌满了相关滤波(KCF,SRDCF,CF2,CCOT,ECO...等等经典工作在我的脑海里飘荡)。如果给这个时代截取一篇最经典的工作,我想我会选择KCF。他是真的将视觉跟踪推向流行,让整个领域真的沸腾起来的工作。如果现在来分析他之所以能统治跟踪领域的原因,我觉得主要是两点:足够高效+开源。高效到只需要10行以内的代码就可以实现核心计算,随便一个CPU就可以跑到200FPS以上。这极大程度上拉低了视觉跟踪领域的门槛,让所有人很容易进入这个领域。开源,这个词汇现在看已经是土的不能在土的词汇。真的做起来却也存在很多阻力。

当然,除了怀旧以外。我们也会经常反思甚至有些诧异,似乎视觉跟踪和整个CV大领域走到了不同的方向,深度学习在跟踪领域并没有得到什么用武之地。当然,所有新的方向的产生大都遵循着量变到质变的基本原则。下图可以看到到CVPR2018时候的时间跟踪发展,相关滤波的发展已经经过了几代迭代,深度学习方向也在不断积攒(广度高而深度浅)。大家都在尝试可行的方向。目前来看,应该是以SiamFC为代表的Siamese Tracker脱颖而出。

视觉跟踪在CVPR2018时的发展分布

而Siamese网络的概念应用于目标跟踪的源头应该从SINT这篇文章开始,但真正开始流行却是从SiamFC开始。简洁优雅的框架让它得变得流行,像极了上一波的KCF。

有关SiamFC的讨论可以见上一篇:Qiang Wang:CVPR2018视觉跟踪(RASNet)

关于我的新工作 (SiamMask)

Motivation: 视频跟踪到底是跟踪什么?

长久以来,我们的思维倾向于陷入舒适区。当A做了物体检测,我们尝试改网络,改loss,别的领域trick拿来就是一篇。而我们常常忽略了更为重要的问题,到底这个问题的该如何定义,这点极为重要。

对于目标跟踪而言,一般论文开篇通常都会说在第一帧给定目标位置,在后续帧中预测目标的位置。然而如何对后续帧中表述的定义直接影响了整个跟踪领域的发展。

为了方便表述,早期的跟踪算法都是坐标轴对齐的的矩形框。但随着跟踪精度的不断提升,数据集的难度在不断提升,在VOT2015时即提出使用旋转矩形框来作为标记。在VOT2016的时候提出自动的通过mask来生成旋转框的方法。更为本质的,我们会发现,这个旋转的矩形框实际上就是mask的一种近似。我们所要预测的实际上就是目标物体的mask。利用mask才能得到精度本身的上界。

我自己将2013年以后的跟踪分为几类,第一类是预测score的方法,这类算法以相关滤波和SiameFC为代表。通过预测候选区域的score map来得到物体的位置,物体的尺度大小通常是通过图像金字塔得到。同时无法得到物体的长宽比变化。

第二类就是以GOTURN和SiamRPN为代表的做boundingbox regression的方法。这也是SiamRPN取得当前最好结果的核心所在,充分挖取精度方向的红利。实际上并不是SiamRPN预测的有多稳定,而是在预测正确的时候,会给出更为精确的box。利用网络预测长宽比可以调整box,这个方向一直以来被大家所忽视,所以SiamRPN很快杀出重围。

而在物体发生旋转的时候,简单的box的表述通常会产生极大的损失,这实际上就是表述本身存在的缺陷。而为了进一步探索在精度上存在的问题。我们更进一步,直接预测物体的mask。这种表述使得我们可以得到最为准确的box。最直观的利用一个简单的事例的可视化就可以看出,这三种算法的区别(左中右分别是SiamFC | SiamRPN | SiamMask)。

同时,对于视频目标分割(VOS)领域,之前普遍流行的算法是利用语义分割网络在线进行一个二分类的训练,然后再后续帧进行预测。这种方法在训练过程中一般都会花费数分钟,给人一种电脑假死的感觉。最近越来越多的不需要在线finetune的算法被提出。但其速度仍然无法到达令人满意的状态,例如FAVOS和OSMN分别需要1s/帧,120ms/帧。这距离真正的实时运行还是有一定差异。另一方面,VOS算法的第一帧需要给定目标的mask,这在人机交互的场景中很难时间,这个mask获取成本过高。

所以我们提出了对视觉目标跟踪(VOT)和视频目标分割(VOS)的统一框架SiamMask。我们将初始化简化为视频跟踪的box输入即可,同时得到box和mask两个输出。

具体实现

当有了上述的motivation之后,具体实现非常简单,只需要在siamese网络架构中额外增加一个Mask分支即可。

但是相较于预测score和box,mask的预测会更为困难。我们这里使用的表述方法,是利用一个vector来编码一个RoW的mask。这使得每个prediction位置具有非常高的输出维度(63*63), 我们通过depthwise的卷积后级联1x1卷积来升维来实现高效运行。这样即构成了我们的主要模型框架。

但直接预测的Mask分支的精度并不太高。所以提出了如下图所示的Refine Module用来提升分割的精度,refine module采用top-down的结构。

这一部分借鉴了SharpMask的思路。deepmask和sharpmask是facebook在2015-2016年提出的物体分割proposal框架。我进行了一个重现foolwood/deepmask-pytorch。

实验结果

对照实验(ablation study)结果方面,我们首先通过实验分析验证了所提出的Mask的输出表达对于跟踪问题的贡献。通过进行Oracle实验分析,可以明确得出,旋转矩形框的平均IoU会远好于只预测坐标轴对齐的矩形框。尤其是在更高的IoU阈值下,旋转矩形框的优势更为明显。当对比SiamFC,SiamRPN的时候,SiamMask对于整体的精度提升非常显著。对于输出mask转换为box,有多重选择,我们使用了较为容易生成的最小外包矩形(MBR)。按照VOT的优化方式生成的框的质量会更高,但按照优化算法生成太慢。如果有编码好的同学可以把这个加速,我相信我们算法的精度至少可以再提升一个百分点,非常欢迎尝试之后在我们的github上提Pull Requests。(优化的box的matlab:http://cmp.felk.cvut.cz/~vojirtom/dataset/votseg/data/optimize_bboxes.m)

视频跟踪领域(VOT),VOT2016和VOT2018数据集上的性能,我们的方法已经到达到SOTA的结果,同时保持了55fps的超实时的性能表现。

视频目标分割领域(VOS),我们取得了当前最快的速度。在DAVIS2017和Youtube-VOS上,我们和最近发表的较为快速的算法对比, 我们的算法可以取得可比较的分割精度,同时速度快了近一个数量级。对比经典的OSVOS,我们的算法快了近三个数量级,使得视频目标分割可以得到实际使用。

此外,我们需要强调的是,视频分割任务目前的视频片段都较短,我们的decay要远小于其他算法,这意味着在更长的视频片段中,我们的算法性能会保持的更好。

对比上述VOS算法,我们的算法更易于交互只需要简单的画一个框,就可以实现自动的分割跟踪:

https://www.zhihu.com/video/1086183758830280704

对于应用领域

自动驾驶场景中的视频跟踪分割简单应用:

https://www.zhihu.com/video/1086185046729109504

带字幕表情包生成

Adobe MAX 2018 FastMask项目https://www.zhihu.com/video/1086113822535708672

我也使用SiamMask做了一个类似的项目,当然精度上和Adobe的FastMask肯定存在差距。但我们的方法可以很容易的生成一些表情包或者b站的智能防挡弹幕_bilibili_哔哩哔哩弹幕视频网。

https://www.zhihu.com/video/1086199432197988352


分享环节:

关于CVPR2019跟踪领域发展: foolwood/benchmark_results

从今年接收的文章已经可以明显看出来,跟踪领域已经基本完成换代更新。接收的文章中Siamese网络的改进工作已经占据了主导的地位。

SiamRPN++CIR两篇都是围绕如何使用深度网络主干这个问题,两篇文章都中了oral。这个问题一直困扰着整个跟踪圈子,在此之前的所有工作都采用的是alexnet为主的网络架构。不能使用现代网络架构一直困扰着整个跟踪领域的发展。SiamRPN++通过数据增强的方法解决训练的空间位置偏见。CIR通过crop操作从网络架构上减弱网络padding带来的学习偏见,通过大量的实验分析了感受野等因素对学习的影响。总的来说,当网络问题被解决了之后直接导致了现在在几乎所有的数据集上,SiamRPN++已经超过了相关滤波的方法。

在SiamRPN++的基础上,网络主干问题已经被解决,我们可以做更多方向的探索。我们可以非常简单的让输出做更复杂的预测,这就催生了SiamMask这篇文章。

SPMC-RPN两篇都算是多阶段的SiamRPN扩展。SPM就是典型的faster-RCNN的思路做跟踪。C-RPN当然就是Cascade R-CNN: Delving into High Quality Object Detection 在跟踪领域的翻版。两者的思路都很直接,通过第二/N阶段来学习更精细的判别。

Martin Danelljan大神的 ATOM: Accurate Tracking by Overlap Maximization这篇肯定也是重量级的文章。Martin大神并没有fellow SiamRPN的架构,转而使用粒子滤波采样搭配IoU预测,多次迭代得到目标结果。在多个库上取得了非常惊人的结果。这项工作我觉得最突破的点是网络学习的问题实际上更hard,更符合跟踪的需求。

LaSOT这个测评集的接收也是常规操作。希望各位大佬能继续维护好这个库。最近跟踪的数据库相当多,人们都意识到之前的数据已经无法满足深度学习的跟踪算法。


关于Siamese Tracking 的未来研究方向(free ideas)

当你阅读了一定的文章以及有现成的代码之后,下面当然是如何着手改进。我自己总结了一些小的可以改进的方向,仅供参考。

1)高效的在线学习算法:进展到目前为止,我的所有实验研究表明。Siamese网络无法真正意义上抑制背景中的困难样本。离线的学习从本质上无法区分两个长相相似的人或者车。而CF相关算法可以通过分析整个环境的上下文关系来进行调整。如果对于提升整个算法的上界(偏学术)的角度考虑,在线学习有必要。如果正常的工程使用,我认为目前的算法只要在相应的场景中进行训练就足够了。

2)精确输出表达:今年我们的工作提出额外的mask输出。可直接扩展的思路为关键点输出(CornerNet / PoseTrack),极点预测(ExtremeNet),甚至6D pose跟踪。本质上是通过网络可以预测任何与目标相关的输出。大家可以任意的发散思维。

3)定制网络架构:其中包含两个子方向,一个是追求精度的去探索究竟什么样的网络架构会有利于当前的跟踪框架的学习。另一个有价值的子方向是如何构建超快速的小网络用于实际工程。工程项目中有时并没有GPU的资源供使用,如何提供“廉价”的高质量跟踪算法也具有很强的实际意义。当对网络进行裁剪之后,很容易达到500FPS的高性能算法来对传统的KCF进行真正的替换。

4)离线训练学习优化:目前的跟踪算法在相似性学习方向还是过于简单,如果去设计更为有效的度量学习方案,应该会有一定的提升。同时我们也并没有很好的掌握网络的训练。当前的训练策略是将网络主干的参数进行固定,先训练head。然后逐步放开。实际上我们发现,当直接将所有层全部放开一起训练的时候,网络的泛化性能会显著下降。另一个方面,train from scratch的概念已经在检测领域非常普遍了。跟踪的网络目前我们的经验在跟踪方面并不work。

5)更细粒度预测:这一条实际上是上一条的续集,就是专注于score分支的预测。现在大家的做法是>0.6 IoU的都当做前景(正样本),但实际上正样本之间还是有较大的差异的。跟踪本质上也是不断预测一个非常细小物体帧间运动的过程,如果一个网络不能很好的分辨细小的差异,他可能并不是一个最优的设计选择。这也是ATOM的IoUNet主攻的方向。

6)泛化性能提升:非常推荐自动化所黄凯奇老师组的GOT-10k数据集,数据组织的非常棒。黄老师组在one-shot learning领域有着深厚的积淀,所以站在这个领域的角度,他们提出了严格分离训练集和测试集的物体类别来验证泛化性能。所以原则上所有one-shot learning方向的一些嵌入学习方法都可以移过来用。同时,我觉得Mask-X-RCNN,segment everything这个思路可以借鉴。本质上我也不得不承认,基于深度学习的跟踪算法存在泛化性能问题。我们有理由怀疑跟踪是否会在未知的类别上有较好的泛化性能,实际上肯定是会下降。

7)long-term跟踪框架:截止到目前为止,虽然VOT组委会以及牛津这边的OxUVA都有专门的long-term的数据集,但long-term算法并没有一个较好的统一框架出来。关于这方面的研究似乎有点停滞,今年大连理工的文章非常可惜,我觉得质量非常不错。


当然,写到这里,也该结尾了。毕竟大家都在赶ICCV,祝大家都有好的运气。也真的感谢周边认识的很多优秀的朋友。

期待CVPR2020。希望明年我可以带来更好的工作。

欢迎关注我的这个项目

foolwood/SiamMask​github.com

siamese改进_[CVPR2019]我对Siamese网络的一点思考(SiamMask)相关推荐

  1. MVS网络的一点思考

    思想:假设-验证     MVS网络的任务通常是推理出每个像素点的深度值.在给定的深度范围作出一系列深度假设,通过单应性变换,根据每个假设找到不同视角的对应点,比较对应点特征的相似性验证出有效假设. ...

  2. mysql 手动写时间_关于数据库中如何存储时间的一点思考

    1.切记不要用字符串存储日期 我记得我在大学的时候就这样干过,而且现在很多对数据库不太了解的新手也会这样干,可见,这种存储日期的方式的优点还是有的,就是简单直白,容易上手. 但是,这是不正确的做法,主 ...

  3. 基于改进的k-shell方法识别复杂网络中有影响力的重要节点

    基于改进的k-shell方法识别复杂网络中有影响力的重要节点 K-Shell是一种有效的识别有影响的分散体的方法. 然而,K-Shell忽略了关于节点拓扑位置的信息. 本文提出了一种改进的算法基于K- ...

  4. [YOLOv7/YOLOv5系列算法改进NO.21]CNN+Transformer——主干网络替换为又快又强的轻量化主干EfficientFormer

     ​前 言:作为当前先进的深度学习目标检测算法YOLOv5,已经集合了大量的trick,但是还是有提高和改进的空间,针对具体应用场景下的检测难点,可以不同的改进方法.此后的系列文章,将重点对YOLOv ...

  5. connertone怎么远程连接服务器,离形得似_互联网艺术与化身网络建设.pdf

    离形得似_互联网艺术与化身网络建设 ( ) 第 8卷 第 4 期 南 京 邮 电 大 学 学 报 社 会 科 学 版 Vo l. 8 No. 4 2006年 12 月 Journal of N anj ...

  6. 高级架构师_Docker_第2章_ Docker核心原理_ 第2节_Docker网络

    高级架构师_Docker_第2章_ Docker核心原理_ 第2节_Docker网络 文章目录 高级架构师_Docker_第2章_ Docker核心原理_ 第2节_Docker网络 Docker网络 ...

  7. bottleneck resnet网络_关于ResNet网络的一点理解(网络结构、building block 及 “bottleneck” building block)...

    [时间]2018.10.05 [题目]关于ResNet网络的一点理解(网络结构.building block 及 "bottleneck" building block) 概述 本 ...

  8. java缓存击穿_对缓存击穿的一点思考

    点击上方"Java知音",选择"置顶公众号" 技术文章第一时间送达! 作者:张丰哲 www.jianshu.com/p/93767dac6b56 技术经验交流: ...

  9. 中国移动研究院网络技术研究所所长段晓东:对网络转型与5G网络的发展思考...

    由天地互连.下一代互联网国家工程中心主办的"2017全球SDNFV技术大会" (2017.chinasdn.org)于 2017年8月2-3日,在北京国宾酒店火热开幕.在3日上午的 ...

最新文章

  1. Mac下使用crontab来实现定时任务
  2. Calendar.clear(int field)的陷阱
  3. Android开源项目
  4. django的哲学很耐人回味
  5. java递归基础掉用_Java递归基础
  6. Java—一篇读懂java集合(Collection/Map)及Lambda表达式
  7. Repeater内部排序
  8. python连乘函数_Python常用的几种常用的内置函数
  9. MyBatis的配置和用法
  10. 计算机硬盘分区重置,重置计算机磁盘分区后如何恢复丢失的数据
  11. 曾国藩-200句名言归纳
  12. matlab使用矩形窗设计一个具有线性相位的低通数字滤波器,matlab结合矩形窗设计fir滤波器.doc...
  13. 微博缓存视频导出自行解决方案
  14. XFCE下Screen Tearing问题的解决
  15. 【XSY2538】/【HDU6155】Subsequence Count(矩阵乘法+线段树)
  16. 什么是 Wi-Fi 6 (802.11ax)?为什么 Wi-Fi 6 很重要?
  17. 企业员工流动大难管理?低代码+人事管理系统轻松掌控员工档案信息!
  18. 2019.7学习总结-目标检测-Python+pytorch
  19. 去掉浏览器页面广告和弹窗
  20. 【个人项目整理】机器人、三维模型

热门文章

  1. 用于检测浏览器语言偏好的JavaScript
  2. java如何构建图_如何从传递边构建子图?
  3. 光盘装系统和U盘装系统有什么区别吗?
  4. Maven中的自定义settings.xml文件
  5. MacBook telnet安装
  6. Car-like Robot运动模型及应用分析
  7. storyboard 苹果启动图_iOS LaunchScreen.storyboard启动图更新
  8. LCP 44. 开幕式焰火
  9. Mysql中有哪些数据类型(建议收藏)
  10. centos nginx不是命令_Linux使用yum安装nginx服务教程