1.论文相关

Bertinetto, Luca, et al. "Fully-convolutional siamese networks for object tracking." European conference on computer vision. Springer, Cham, 2016.

之前写的论文总结更多的偏向于论文翻译,以后写的论文总结要更偏向于总结

2.论文内容

2.1摘要

任意目标的跟踪问题,传统方法实施起来基本上是使用单独的视频本身作为训练集,然后学习一个目标的表观模型。尽管这种方法很成功,但是这种在线学习方式限制了可以学到模型的丰富性。近来,很多人尝试探索深度卷积网络强大的表达能力。然而,由于目标跟踪中目标事先是不知道的,所以每次都需要在线执行一次随机梯度下降算法来调整网络权重,这严重影响了跟踪系统的速度。在这篇论文里,我们使用了一种新颖的全卷积孪生网络来做为基本的跟踪算法,网络以端到端的形式在用来进行目标检测的视频数据集ILSVRC15上训练而成。我们的跟踪器远远超过了实时性的要求,操作起来还很简单,并且在多个benchmark上都达到了当前最优的性能。

2.2引入

跟踪问题是在视频的第一帧确定一个单独的目标来进行跟踪,目标是任意给定的,所以这就无法收集数据来训练一个特定的检测器来进行跟踪。

今年来,很多成功的范例基本都是使用视频里提取出来的例子,以在线的形式学习一个目标的表观模型出来。这种方法的盛行很大程度上归功于一些已有算法的成功,比如TLD,Struck,KCF。然而,很明显的一个效率不高的地方在于,使用当前视频派生出来的数据仅仅能学习到相对简单的模型。尽管计算机视觉中深度卷积网络的应用无处不在,但是由于缺乏监督数据以及跟踪的实时性要求,通过深度学习在每一个视频学到一个简单的检测器这种方法都难以应用。

最近很多工作志在通过使用预训练模型来解决上述问题。这些方法中,要么是使用网络内部某一层作为特征,然后再使用浅显的方法来跟踪,比如相关滤波;要么是使用SGD方法来微调多层网络。浅显的方法不能充分利用端到端学习的益处,而使用SGD微调虽然能到达时下最优效果,但是却难以达到实时性的要求。

我们提倡另一种替代性的方法。这个方法在初始离线阶段把训练网络更多地看成一个通用的相似性学习问题。这篇论文的关键贡献就在于证明这个方法在benchmark上可以达到非常有竞争性的性能,并且运行时的帧率远超实时性的要求。具体点讲,我们训练了一个孪生网络在一个较大的搜索区域搜索样本图片。本文另一个贡献在于,孪生网络是一个关于搜索区域的全卷积网络,而最后目标位置的估计我们通过计算两个输入的交叉相关,然后再进行插值得到,密集而且高效。

这种相似度学习方法之前是被忽略的,因为跟踪领域难以获得大量的标记数据集。事实上,直到最近,我们能获得的数据集也仅仅包含几百个标注视频。然而,我们相信ILSVRC视频目标检测数据集的出现让训练这么一个模型成为可能。为了公平起见,VOT委员会禁止既使用视频来训练网络,又用这个视频来验证网络。而我们证明了我们模型从ImageNet视频到ALOV/OTB/VOT视频的泛化能力,我们保留跟踪的benchmarkmark视频单独用来测试我们的性能。

3.跟踪中的深度相似性学习

跟踪一个任意目标可以被当做一种相似性学习。我们要学习到一个函数,函数比较样本z和搜索区域x,然后返回一个得分图。得分图和搜索区域x尺寸相同。得分高,说明这个区域和z相似,反之说明不相似。要找到z在新一帧中的位置,我们只需要把所有的可能位置都计算一下相似度即可。在实验中,我们使用目标初始的表观作为z就足够了。

******************上面还是像翻译,下面我要多总结**********************

那么用什么来模拟这么一个函数f呢?当然是最近很火的深度卷积网络了,因为他早已经在计算机视觉领域取得了广泛成功。而使用深度卷积的相似性度量函数可以作为一个很典型的孪生结构。孪生网络如同一个特征提取器,同时提取z和x图片的特征,然后将提取到的特征送入另一个函数g,那么我们这个相似性度量函数其实就是。函数g可以是一个很简单的距离度量或者相似度度量。这种深度孪生网络早已被广泛应用与人脸确认,关键描述点学习,one-shot字符识别。

3.1网络的总体结构

网络总体结构如上图所示,孪生网络其实就是一个特征提取器,它提取z和x特征之后,送到相似度函数里计算一下相似度。本文的相似度函数是使用交叉相关,公式如下,

其实就是将作为一个卷积核,在上进行卷积,相似度大的地方,那么自然响应值就大,那自然也就可以当做是目标z在x中的位置了。

那岂不是随便找一个特征提取器,提取一个特征一做,然后再一卷积都可以了?也许可以,但是由于本文的孪生网络是以端到端的形式学习出来的,那么可以认为,它训练出来的这个特征提取器,提取的特征更适合做卷积来获得最后的相似度得分图。而其他的特征提取器提取到的特征可能就不太适合用卷积来获得相似度响应图。

跟踪的方法就很好想到了,把上一帧目标的位置作为中心,在下一帧附近计算响应图。响应值最大的位置相对于中心的偏移再乘以步长,那就是目标在下一帧的真实位置了。为了应对尺度变化,作者在进行跟踪的时候也同时使用了多种尺寸来进行搜索。

3.2使用图片来训练

作者的训练方式是非常有创意的。网络最后的输出,其实相当于一个判别式方法,用正负样本对来训练网络。搜索图片x中的每一个候选子窗口,其实相当于一个样本,而它的得分,输出的就是它是正/负样本的概率。使用逻辑回归来表示的话,这就是一个应用逻辑回归的典型二分类问题,那么逻辑损失就可以表示为下式:

其中,v是候选位置的得分,而y是它的真实类别,y属于{1,-1}。这个推导其实很简单,分别表示出来逻辑回归分类时正负样本对应的概率,那么损失函数就是,结合y属于{1,-1}稍微整理一下就可以把这两个式子统一为作者给出的形式。

而训练的时候网络的最终损失函数如下,

简单来说就是搜索区域x的所有候选位置的平均损失。

训练样本对(z,x)从标注视频数据集中获得,如下图

只要x和z在视频里相隔不超过T帧,那么都可以作为一个训练对。图片要进行归一化,但是不能破坏长宽比,而是用背景补充。至于y怎么确定呢,也就是说什么叫做正样本什么叫做负样本呢?定义如下

R是我们定义的半径,c是目标的中心,k是网络最终总步长。上面的意思就是说在255*255这张图片上,只要和目标的距离不超过R,那就算正样本,否则就是负样本。

3.3孪生网络部分的结构

pooling是最大值pooling,每个线性层之后都batch normalization,除了conv5每个卷积层之后都有relu,等等,具体设置可以查看论文。

4.总结

网络的总体思路如上,但是在训练的时候数据集还有些其他处理,比如填充背景的大小,等等。总之网络速度快,性能好。有什么缺点呢?

Fully-Convolutional Siamese Networks for Object Tracking基于全卷积孪生网络的目标跟踪算法SiameseFC相关推荐

  1. Fully-Convolutional Siamese Networks for Object Tracking全文翻译

    Fully-Convolutional Siamese Networks for Object Tracking 摘要   任意对象跟踪的问题传统上通过仅在线学习对象外观的模型来解决,使用视频本身作为 ...

  2. Fully-Convolutional Siamese Networks for Object Tracking(SiamFC 算法学习)

    Fully-Convolutional Siamese Networks for Object Tracking(SiamFC 算法学习) 1.摘要 传统方法存在的问题:仅在线方法固有地限制了他们可以 ...

  3. SiamFC全文翻译:Fully-Convolutional Siamese Networks for Object Tracking

    摘要 传统上,通过使用视频本身作为唯一的训练数据,专门在线上学习对象外观模型,可以解决任意对象跟踪的问题. 尽管这些方法取得了成功,但仅在线方法固有地限制了他们可以学习的模型的丰富性. 近来,已经进行 ...

  4. 基于特征点匹配的自适应目标跟踪算法

    基于特征点匹配的自适应目标跟踪算法 2016-01-29 13:11 摘 要:由于实际场景复杂多变,目标在运动过程中往往会出现形变.遮挡等问题,增加了跟踪的难度.为了解决上述问题,提出一种基于特征点匹 ...

  5. Fully-Convolutional Siamese Networks for Object Tracking翻译

    摘要 传统上,任意对象跟踪的问题是通过专门在线学习对象外观模型来解决的,使用视频本身作为唯一的训练数据. 尽管这些方法取得了成功,但他们仅在线的方法本质上限制了他们可以学习的模型的丰富性.最近,已经进 ...

  6. Video Target Tracking Based on Online Learning—TLD单目标跟踪算法详解

    视频目标跟踪问题分析         视频跟踪技术的主要目的是从复杂多变的的背景环境中准确提取相关的目标特征,准确地识别出跟踪目标,并且对目标的位置和姿态等信息精确地定位,为后续目标物体行为分析提供足 ...

  7. SiamFC:用于目标跟踪的全卷积孪生网络 fully-convolutional siamese networks for object tracking

    原文链接 SiamFC网络 图中z代表的是模板图像,算法中使用的是第一帧的ground truth:x代表的是search region,代表在后面的待跟踪帧中的候选框搜索区域:ϕ代表的是一种特征映射 ...

  8. SiamFC:Fully-Convolutional Siamese Networks for Object Tracking

    Paper: http://www.robots.ox.ac.uk/~vedaldi/assets/pubs/bertinetto16fully.pdf Code:https://github.com ...

  9. CVPR 2022 | PTTR: 基于Transformer的三维点云目标跟踪

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨罗志鹏 来源丨商汤学术 导读 在CVPR 2022上,商汤研究院团队提出了基于Transform ...

最新文章

  1. 《计算机网络》常考概念、英文缩写、公式大全
  2. 未来五年人工智能将实现的五大突破
  3. 一个 TCP 连接可以发多少个 HTTP 请求?
  4. 【MyBatis使用】mapper.xml 调试时无法打印SQL的无奈解决方法分享(原因说明+举例)
  5. 核心概念——节点分组 Group
  6. 使用MAP文件快速定位程序崩溃代码行
  7. IE8开发人员工具资料
  8. 微软Azure予力Green Dot客服成就不凡
  9. 关闭网页如何接收服务器消息,WebSocket服务端发消息给客户端,浏览器收到消息就关闭了...
  10. maven (http://repo1.maven.org/maven2/): Failed to transfer file 和PKIX path building failed: sun.secu
  11. blender2.8与2.7X的一些不同点
  12. java面试中mysql_面试官:Mysql 中主库跑太快,从库追不上怎么整?
  13. pyspark的用法
  14. Proteus8.6软件安装教程
  15. 视频教程_干货视频教程分享
  16. 谐波平衡 matlab,解非线性振动问题的摄动谐波平衡法
  17. 博客Typecho插件,Typecho采集发布插件大全
  18. tomcat发布web项目为什么页面图片显示不出来
  19. flutter中页面跳转之Navigator
  20. python 椭圆曲线加法_椭圆曲线上点的运算

热门文章

  1. java ffmpeg视频截图_Java实现对视频进行截图的方法【附ffmpeg下载】
  2. windows下wsl2中的ubuntu和ubuntu系统下docker使用gpu的异同
  3. STM32F10xxx中文板参考手册PDF(内有英文版链接)
  4. 基于图像的虚拟试衣:Image Based Virtual Try-On Network from Unpaired Data
  5. 云呐|什么是固定资产?什么是流动资产
  6. 我和python的第一次亲密接触
  7. c语言头文件格式图片_请高手赐教C语言图片文件头文件格式的解释,该怎么处理...
  8. 敏捷计划:是一个多层次的计划洋葱
  9. Gateway集成swagger3.0
  10. uncooked 计算机术语,物流专业英语和计算机基础练习题[1]