近年来,视觉目标跟踪成为一个非常活跃的研究领域。每年都会提出越来越多的跟踪算法。跟踪在人机交互、自动驾驶汽车、机器人、监控和安全等各种现实问题中有着广泛的应用。本文将回顾跟踪领域的最新的趋势和进展,并基于特征提取方法评估了不同跟踪算法的鲁棒性。我们将跟踪算法大致分为基于相关滤波的跟踪算法(CFTs)和非基于相关滤波的跟踪算法(Non-CFTs)。根据体系结构和跟踪机制,将每个类别进一步划分为不同的类型。最后,对本文的研究进行了总结,提出了一些见解,并指出了视觉目标跟踪领域的未来发展趋势。

A. 相关滤波器

在目标跟踪中,相关滤波器(CF)被用来提高鲁棒性和效率。最初,训练的需求使得CF不适合在线跟踪。近年来,最小输出平方误差和(MOSSE)滤波器[60]的发展,允许有效的自适应训练,改变了这种情况。
MOSSE滤波器的目标是使期望输出与实际输出在傅立叶域中的平方误差之和最小。MOSSE是平均合成精确滤波器(Average Synthetic precision Filter, ASEF)[61]的改进版,ASEF经过离线训练来检测目标。ASEF计算一组精确滤波器的平均值,每个滤波器都是从同一对象的不同训练图像中计算出来的,以得到输出的最佳滤波器。后来,许多最先进的CFT提出了基于MOSSE。

习惯上,设计CF的推理目的是生成背景值低、场景感兴趣区域值高的响应图。其中一种是带Kernal的循环结构[62]跟踪算法,该算法利用目标外观的循环结构,采用核正则化最小二乘法进行训练。

基于cf的跟踪方案在频域内进行计算,以控制计算成本。这些算法的总体架构遵循基于检测的跟踪方法,如图2所示。相关滤波器由序列的初始帧目标位置的裁剪目标patch图像初始化。

在跟踪过程中,使用上一帧的目标估计位置估计目标在新一帧中位置。为了有效地表示目标的外观,采用合适的特征提取方法从输入的patch中构造特征映射。边界通过应用余弦滤波器平滑。
进行相关运算,而不是累加卷积运算(exhausted convolution operation)。利用自适应学习滤波器和提取的特征之间的按元素(Element-wise)相乘,以及离散傅里叶变换(DFT)来计算响应图(response map)。DFT在频域内使用快速傅立叶变换(FFT)进行运算。再将逆FFT(IFFT)应用于响应图,得到空域的置信度图(confidence map)。通过最大的置信度得分估计出新的目标位置。在预测出结果后,通过提取特征和更新相关滤波器来更新最新预测位置上的目标外观。

设h为相关滤波器,x为当前帧,当前帧可能由提取的特征或原始图像像素组成。CNN卷积滤波器在傅立叶域中的性能与相关滤波器相似。根据卷积定理,频域中通过补零的f(h)和f(x)的之间的逐项乘法计算出响应图的相关计算,相当于在空域中的循环卷积。通常h比x的尺寸小很多,因此在变换到傅里叶域之前,使用了零填充,使得两个变换后的尺寸相同。

简而言之:空域卷积 = 频域相乘

FFT降低了计算成本,对于图像大小为n x n的循环卷积复杂度为O (n^4),而FFT只需要O (n^2 log n)。

基于相关滤波的跟踪面临的问题,例如目标外观(方向和形状)的训练,因为它可能随时间而改变。另一个挑战是选择有效的特征表示,因为强大的特征可能提高CFTs的性能。CFTs的另一个重要挑战是尺度自适应,因为在跟踪过程中相关滤波器的大小是固定的。一个目标可能会随着时间的推移而改变其规模。此外,如果目标丢失,则无法再次恢复。

CFTs又可以细分为Basic-CFTs、正则化CFTs、基于部件的CFTs、基于孪生网络的CFTs和基于融合特征的CFTs

1) Basic Correlation Filter based Trackers

使用kernefied Correlation Filters(KCF)[63]作为基线跟踪器。跟踪器可以使用不同的特征,如HOG, color names (CN) [64], 深度特征使用Recurrent Neural Networks (RNN) [65],convolutional Neural Networks (CNN) [21], Residual Networks[22]。

KCF[63]算法利用高斯核函数区分目标与其周围背景进行跟踪。KCF使用cell size 4的HOG描述符(descriptors)。在跟踪过程中,在新的帧中裁剪一个图像块,计算该块的HOG特征,并通过在傅立叶域中对输入特征乘上自适应滤波器计算响应图。在响应图上应用傅立叶反变换得到空域的置信度图,置信得分最大的位置预测出新的目标位置。然后在当前预测帧种裁剪一个包含对象的新图像块,并重新计算HOG特性来更新CF。

2) Regularized Correlation Filter Trackers

判别相关滤波(DCF)跟踪算法的检测范围是有限的,因为它们要求滤波器大小和patch大小相等。
DCF可能学习到不规则形状目标物体的背景信息。
DCF是由周期假设构成的,它从一组训练样本中学习,因此可能学习负的训练图像块。
DCF响应图接近中心的分值比较精确,然而其他得分受周期假设的影响,从而降低了DCF的性能。

DCFs的另一个限制是它们被限制在一个固定的搜索区域内。DCF跟踪器在目标变形问题上表现不佳,这是由于模型过度拟合,因为从目标训练样本中学习,但缺少负样本。因此,在遮挡的情况下,跟踪器无法重新检测。较大的搜索区域可以解决遮挡问题,但模型会学习背景信息,降低了跟踪器的识别能力。因此,有必要对这些DCF的局限性纳入一种正则化措施,这些跟踪器被分类为正则化相关滤波跟踪器(R-CFTs)

Danelljan等人在DCF学习中引入空间正则化,提出了空间正则化DCF(Spatially Regularized DCF, SRDCF)。在跟踪过程中,正则化分量减弱了背景信息,如图4所示。空间正则化约束了基于空间信息的滤波器系数。通过给位于目标区域之外的系数赋更高的值来抑制背景。

deepSRDCF是使用了深度特征的改进版,SRDCFdecon是引入处理受污染的训练样本方法的改进版。

它降低了受污染的训练样本的权重,并评估了良好质量的样本。SRDCFdecon从以前的帧中提取训练样本,并给正确的训练图像块分配更高的权重。SRDCFdecon对训练样本的外观模型和权重进行联合自适应。

在SRDCF中引入了时间正则化,并引入了时空正则化CF (spatial-time regulalization CF, STRCF)。采用被动主动学习的方法,对单幅图像的SRDCF进行了时间正则化。

近年来,深度运动特征被用于活动识别。运动特征是从由应用于图像的光流直接获得的信息得到的。然后将CNN应用于光流来获得深度运动特征。

深度运动SRDCF (Deep Motion SRDCF , DMSRDCF),将深度运特征与手工外观特征结合起来,使用SRDCF作为基线跟踪器。运动特征的计算如[93]所述。光流在前一帧的每一帧上计算。光流的x、y分量和幅值构成流图中的三个通道,流图归一化在0 ~ 255之间,输入CNN计算深度运动特征。

Danelljan等人[86]提出了学习多分辨率特征图(multi-resolution feature maps),他们将其称为用于跟踪的连续卷积运算(Continuous  Convolutional Operators for Tracking, CCOT)。其卷积滤波器是在一个连续分辨率的序列中学习的,并生成一系列的响应图。然后将这些多幅响应图进行融合,得到最终的统一响应图来估计目标位置。

高效卷积算子(Efficient Convolution Operators, ECO)[25]跟踪方案是CCOT的改进版。CCOT学习大量的滤波器以从高维特征中获取目标表示,并为每帧更新滤波器,这涉及到对大量样本集的训练。相比之下,ECO构造了一组更小的滤波器集合,以便使用矩阵分解更有效地获取目标表示。CCOT在一个序列连续的样本中学习,这个序列在一段时间后忘记目标外观,从而引起对最近的外观的过度拟合以及导致高计算成本。相比之下,ECO使用高斯混合模型(Gaussian Mixture Model, GMM)表示不同的目标外观。每当在跟踪过程中发现新的外观时,就初始化一个新的GMM组件。如果达到组件的最大限制,当GMM组件最小权重的值小于阈值时,丢弃最小权重的GMM组件。否则,两个最近的GMM组件将合并到一个组件中。

通用单目标跟踪综述《Handcrafted and Deep Trackers: A Review of Recent Object Tracking Approaches》相关推荐

  1. SiamFC:用于目标跟踪的全卷积孪生网络 fully-convolutional siamese networks for object tracking

    原文链接 SiamFC网络 图中z代表的是模板图像,算法中使用的是第一帧的ground truth:x代表的是search region,代表在后面的待跟踪帧中的候选框搜索区域:ϕ代表的是一种特征映射 ...

  2. 单目标跟踪——个人笔记

    单目标跟踪--个人笔记 以<Handcrafted and Deep Trackers: A Review of Recent ObjectTracking Approaches>为主线看 ...

  3. 单目标跟踪 (一)相关滤波器 方法综述

    <Handcrafted and Deep Trackers: Recent Visual Object Tracking Approachesand Trends> MOSSE: Min ...

  4. 视觉单目标跟踪任务概述

      视觉目标跟踪的主要目的是:模仿生理视觉系统的运动感知功能,通过对摄像头捕获到的图像序列进行分析,计算出运动目标在每一帧图像中的位置:然后,根据运动目标相关的特征值,将图像序列中连续帧的同一运动目标 ...

  5. 单目标跟踪——【数据集基准】RGB数据集OTB / NFS / TrackingNet / LaSOT / GOT-10k / UAV123 / VOT 简介

    入手单目标跟踪的三个方面之数据集简介 目前单目标跟踪领域有哪些公认比较好的数据集? 这可以从一些优秀论文中找,看他们在验证自己的tracker用到哪些数据集.这些数据集的侧重不一,有的会包含快速移动: ...

  6. 单目标跟踪通过CAM绘制heatmap图像(以SiamCAR为例)

    论文链接: SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking Group-C ...

  7. TrackingNet:最经典大规模、多样化的单目标跟踪数据集

    除了多目标跟踪任务外,研究经典的.通用的单目标跟踪任务对于整个跟踪领域的发展有重要意义. 本期给大家介绍一个包含包含超过3万个视频,共有27个目标类别,视频数量和标注数量比以往的跟踪数据集更大的数据集 ...

  8. 目标跟踪综述 (持续更新)

    这几天对目标跟踪挺感兴趣的,但是在CSDN和知乎上面找的相关介绍资料都看的一知半解,所以自己找了一篇 2022-04-26 发表的综述文章作下笔记学习下. 目录 一.基于相关滤波的目标跟踪算法 1.相 ...

  9. 3d量测怎么学距离_智车科技大讲堂:自动驾驶的“4位1体”+3D环境感知(单目标跟踪)...

    智车科技正与具有实战经验的自动驾驶公司及团队,共同构建开放的学习平台,定期对自动驾驶技术进行分享,本期分享的是嬴彻科技. 作为一家专注于自动驾驶卡车网络运营的公司,嬴彻科技(Inceptio Tech ...

  10. 352万帧标注图片,1400个视频,亮风台推最大单目标跟踪数据集

    CVPR 2019期间,专注于AR技术,整合软硬件的人工智能公司亮风台公开大规模单目标跟踪高质量数据集LaSOT,包含超过352万帧手工标注的图片和1400个视频,这也是目前为止最大的拥有密集标注的单 ...

最新文章

  1. otsu算法原理及C++代码实现-寻找灰度图片中最佳阈值
  2. ADT 怎么删除logcat过滤规则
  3. 【EI/Scopus检索】第六届电子技术与信息科学国际学术会议诚邀您投稿参会!
  4. 如何在mac上安装python3_在Mac上安装Python 3.3
  5. Elasticsearch –使用模式替换过滤器和自定义分析器忽略查询中的特殊字符
  6. php相册上传和删除吗,php如何删除上传图片
  7. open vswitch常用操作
  8. [2017.01.04] 经典排序算法思想及其实现
  9. 火狐插件 Katalon Recorder 生成 python 等语言 代码
  10. 小白菜飘过计算机三级数据库
  11. python鸭子类型_Python 语言中的 “鸭子类型”
  12. 100天python、github_GitHub - 1977950729/Python-100-Days: Python - 100天从新手到大师
  13. 致远oa系统unix 服务器,致远oa服务器设置
  14. webkit未能加载文件或程序集WebKitBrowser
  15. 王艾老哥------不是境况造就人,而是人造就境况。
  16. java开发规划_java开发程序员职业发展规划路线
  17. 【校招VIP】前端操作系统之页面转换算法
  18. Shor’s Algorithm 学习笔记
  19. 高通Android9设置双屏同显示
  20. 基于雨流计数法的源-荷-储双层协同优化配置 代码主要做的是一个源荷储优化配置的问题

热门文章

  1. 方差分析、T检验、卡方分析如何区分?
  2. uni-app小程序SDK接入
  3. 常见的视频制式及其区别
  4. 快手调整员工福利,​减少房补,增加生育津贴;百度网盘青春版正式上线,被吐槽;雷军回应小米对标苹果遭冷嘲热讽 | EA周报...
  5. 电视机计算机无法退出,怎么强制退出恢复模式-各大主流智能电视强制恢复出厂汇总!轻松解决疑难杂症...
  6. 毕业设计,基于语音控制的智能家居控制系统
  7. [RK3288][Android6.0] 网络服务Netd初始化流程小结
  8. arcgis调整图框线宽
  9. 服务器系统安装net,.Net Framework的安装教程
  10. 学生个人网页设计作品:旅游网页设计与实现——成都旅游网站4个页HTML+CSS web前端网页设计期末课程大作业 学生DW静态网页设计 学生个人网页设计作品