ABSTRACT

对象跟踪是视频和图像处理领域中的一个基本问题。尽管在灰色视频上使用跟踪算法在实际应用中很方便，但由于考虑到的信息较少，因此与使用色彩功能的算法相比，它们更难以开发。很少有研究致力于使用边缘信息跟踪对象。

在本文中，我们提出了一种基于边缘信息的灰色视频跟踪算法。

该方法采用组合粒子滤波和改进的倒角匹配方法。

改进的倒角匹配是旋转不变的，并且能够通过orientation distance transform来估计观察到的图像块和模板之间的偏移。

采用了一种针对差异的改进的判别似然性测量方法。这些值被标准化，并用作预测和跟踪对象的粒子的权重。

实验结果表明，我们对倒角匹配的改进提高了其在视频跟踪问题中的性能。该算法稳定，鲁棒，可以有效地处理旋转畸变。

可以在更新模板上做进一步的工作，以适应跟踪过程中物体的明显视点和比例变化。

Keyword: chamfer matching, orientation distance transform, particle filter

INTRODUCTION

视频跟踪是视频和图像处理领域中的一个基本问题。从对象轨道中检索到的信息是进一步应用的基础。
视频跟踪问题包括两个主要部分。

首先是提取在时间t和t + 1处的图像特征，这些特征可以有效地区分对象和背景。
第二个是将提取的特征与模板进行比较，并根据对象在t处的状态，估计对象在t + 1处的位置。

边缘信息被广泛用于匹配两个图像。

倒角匹配由Barrow于1977年首次提出[1]。
该算法引入了距离变换以从不同图像中找到边缘点的最佳拟合。由于直接计算精确的欧几里得距离需要大量资源，因此Gunilla Borgefors [2]提出了一种简化的方法3-4 DT来估算距离。

3-4 DT算法通过对二进制边缘图像进行两次遍历来获得距离图像，并且距离欧几里得距离的最大差异为8％。

2004年，Pedro F. Felzenszwalb和Daniel P. Huttenlocher [3]引入了线性时间算法，通过计算抛物线的下包络来计算任意函数的精确欧几里德距离变换。

Borgefors [2]提出了一种分层倒角匹配算法来寻找最佳匹配
通过从粗到精的搜索。
它通过遍历实现旋转和比例不变，这将利用每个可能的角度和比例并确定全局最小值。

Chen [4]提出了一种改进的版本，可以通过模拟退火获得最佳拟合。

Thayananthan等[5]使用倒角匹配来，追踪手形，在混乱的图像中。他们的论文中的倒角算法使用欧几里德距离来测量相似度，并且无法使用单个模板来处理旋转变化。此外，他们无需任何预测步骤即可跟踪目标。

最近，粒子滤波，例如Israd和Blake提出的“Condensation ” [6]，已经在跟踪领域得到了更广泛的应用，因为它不需要众所周知的卡尔曼滤波器[7]所要求的任何高斯假设。

此外，Lei [8]和Pupilli [9]的作品证明了粒子滤波器在视频跟踪中的有效性和鲁棒性。所有这些方法贪婪地产生新的粒子
仅根据先前的高斯分布假设。

本文提出的方法是针对灰色视频的目标跟踪而设计的。

a condensation particle filter and an improved chamfer matching.
它结合了粒子滤波和改进的倒角匹配功能。

在当前帧中粒子指示的位置提取图像补丁。
所有边缘点都位于补丁中。

然后采用本征分解，在二进制边缘补丁上获取边缘点的分布参数，这样就能将其用于将补丁旋转到与模板相同的方向。

归一化后，将补丁和模板之间的似然值作为权重分配给粒子。

粒子滤波器用于跟踪和预测对象的状态。

根据通过改进的倒角匹配估计的偏移矢量，试探性地生成新粒子。

实验结果表明，改进的倒角匹配算法更适合于目标跟踪问题。借助位移矢量，可以用更少的粒子获得类似的性能。改进的倒角匹配和凝结粒子过滤器的结合，可以独立，稳定，有效地跟踪物体旋转。

本文的其余部分安排如下。第2节详细讨论了改进的倒角匹配算法。在第3节中，描述了粒子滤波。实验结果在第4节中显示。最后在第5节中得出结论。

2. IMPROVED CHAMFER MATCHING

在倒角匹配中，图像的所有边缘点都首先通过边缘检测算法（例如canny方法）进行检测，本文将不进行介绍。

其次，通过特征分析对二值边缘图像进行预处理
从而纠正其主要方向。

第三，对二进制边缘图像进行distance transformation距离变换以获得距离图像。
在此步骤中，边缘像素的值设置为零。
每个非边缘像素的值设置为到其最近边缘像素的距离

2.1 Rotation invariance

原始倒角匹配对旋转很敏感。

结果容易受到旋转失真的影响。
因此，必须首先校正图像的旋转。

Borgefors [2]采用全局搜索来找到一个主要方向，在该方向上获得最小的匹配距离，以弥补这一缺点。

我们对二进制边缘图像采用特征分解来实现旋转不变性。

它不需要多个模板或全局搜索，因此比全局搜索更加有效和准确。

二进制边缘图像中所有边缘点的坐标均视为数据集：

where （x，y） are the coordinates of the ith edge point in the binary edge image, N is the total number of edge points. The covariance matrix C of the coordinates is given by:
其中（x，y）是二值边缘图像中第i个边缘点的坐标，N是边缘点的总数。坐标的协方差矩阵C由下式给出：

其中x^ 和 y^ 是平均值，所有边缘点的所有横坐标和纵坐标。

矩阵C的大小为2x2。C的最大特征值和对应的特征向量V0通过特征分解来计算。

V0代表图像的主要方向。主方向和水平线之间的角度由下式给出：

跟踪视频中的对象时，每个图像旋转其主方向与模板之间的角度差。

旋转方程如下：

H_t和H_p是将模板和图像映射到归一化方向的变换矩阵。

在校正了图像的方向之后，第2.3节中描述的匹配测量能够在没有旋转失真干扰的情况下得出似然估计。

Orientation Distance transformation (ODT)

传统的距离变换生成距离图，该距离图可用于估计两个二进制边缘图像之间的似然性。

但是在视频对象跟踪的情况下，目标是使用给定的模板跟踪对象。对象所处的位置可能比图像与模板的相似程度更多。

因此，我们引入了定向距离变换（ODT），该函数为每个像素分配了一个复数。

像素值的大小和相位角分别表示到最近边缘像素的距离和方向。

因此，对于图像时，其方向距离图不仅意味着：相对于对象模板的相似可能性，而且表明了其可能的位置。

Felzenszwalb [3]证明，可以通过沿着图像的每一行执行一维变换，然后沿着每一列执行一维变换来计算二维欧几里德距离变换。

我们对此程序进行了修改，以获取精确的方向距离图。

首先，将所有边缘像素设置为零，将非边缘像素设置为无限。

一维变换
在 real parts 实际部分上
沿每一行。

代替[3]中那样计算欧几里德距离的平方，我们计算一个有符号的距离值。

正值表示最近的边缘点位于右侧；
负值表示最近的边缘点位于左侧。

此步骤的结果分配给 real parts 。

因此，在那些至少包含一个边缘点的行中，像素的所有实部都具有有限的距离值。

并且其他行中的那些保持无限。

然后，沿每一列对 real parts 实部执行一维变换。
到最近像素的符号距离值
具有有限的 real parts 实部
被分配给像素的imaginary parts,虚部，
并将最近像素的实部分配给像素的 real parts 实部。

该过程确保每个像素的虚部指示包含最近边缘点的行的相对位置，并且每个像素的实部指示包含最近边缘点的列的相对位置。

因此，可以从取向距离图像中的任何像素精确地定位最近的边缘点。

该过程的伪代码在算法1中显示。

k = 0
v[0] = 0
z[0] =-9999
z[1] =9999for q in 1 :( n-1) s = 0  while s <= z[k]  s = ((f(q)+q^2)-(f(v[k])+v[k]^2))/(2q-2v[k])  k = k-1  k = k+2  v[k] = q  z[k] = s  z[k+1] = +9999k = 0
for q in 0:( n-1)  while z[k+1]<q   k = k+1 if Working along rows   dR[q] = v[k]-q  else   dR[q] = f[v[k]]   dC[q] = v[k]-q

斜体部分引自[3]；粗体部分是我们的修改。

数组f，dR和dC代表ODT输入图像，
ODT的实部和imaginary parts,虚部分别得到。

显然，dR和dC是整数。

图1给出了二值图像上定向距离转换的结果。
黑白像素代表边缘和非边缘像素。

箭头的长度和方向代表到最近边缘点的距离和方向。

2.3 Likelihood measurement

为了测量两个相同大小的二进制图像之间的似然性，将其中一个作为掩模，而将另一个作为模板并由ODT处理。

经典倒角匹配[2]使用均方根平均值如下，以测量可能性：

其中n是图像中正像素的数量，vi是距离图像中被蒙版中正像素命中的像素的值。

此方法可分别描述蒙版和模板之间的差异。

我们基于信号检测理论采用了一种不同的测量方法，该方法比经典方法更具区分性。

掩模叠加在orientation distance image取向距离图像上。
然后，所有正像素都击中orientation distance image定向距离图像中的一些。
如果将掩模中的正像素视为边缘点的检测结果，则可以通过命中边缘像素的比率和命中非边缘像素的比率定义真正率（TPR）和假正率（FPR）为：

其中A代表集合A的基数，

v（x，y）p（x，y）分别表示掩模和方向距离图像中（x，y）处像素的绝对值。

The likelihood value is defined by

可能性与两个图像中边缘形状之间的相似度成比例。

显然，只有当两个形状完全相同且阈值为零时，可能性才等于1。

在我们的实验中，将阈值设置为1.8，以便将正好击中模板边缘形状附近的正像素作为正检测，
从而增加了对边缘检测方法带来的几何变形和不稳定性的容忍度。

图2说明了我们的方法与经典方法之间的区别。

在图2中，dis是通过经典方法获得的似然值，数值越小越相似，而通过我们的方法获得的相似度越大，相似度越大（阈值设置为零）。

图2（a），（b）和（d）分别是边缘模板和两个边缘图像。

图2（b）是通过2.2节介绍的方法获得的（a）的取向距离图像。

显然，（c）与（a）比（d）更相似。

根据似然值，经典方法更喜欢（d），而我们的方法更喜欢（c）作为最佳匹配。

2.4 Shift Estimation

当掩膜叠加在方向距离图上时，该图中命中像素的值不仅可以用于测量似然值，还可以估计隐含对象可能位于的位移向量。

考虑以正像素代表边缘点的二进制图像。我们将其沿方向移动几个像素后，将其叠加到其方向距离转换结果上。

图3给出了一个例子。

黑色像素代表模板中的边缘点。
模板是通过向左移动3个像素，向下移动1个像素而获得的。

偏移图像中的每个正像素都命中了定向距离图中的一个像素，如图3中的灰色方块所示。

每个命中像素的值指示其最近的像素的值为零的位置，即最近的边缘点。

因此，如果根据命中像素的值移动正像素，则它可以在边缘点上命中，并通过等式（8）-（10）对似然值做出正贡献。

命中像素的复数值被定义为像素移位向量。

通常，一个掩模中有几个正像素。
它们每个都建议一个像素移位向量。
计算这些向量的直方图。

整个蒙版的主要偏移矢量由直方图的峰值确定，可以通过均值偏移法进行定位。

理想情况下，当根据此主偏移矢量移动蒙版时，大多数正像素将击中更接近或恰好在边缘点上。

此后，可以获得更高的似然值。并且可以将遮罩迭代地引导至更靠近模板的位置。

在实践中，有两个问题可能会降低主偏移矢量的准确性。

一种是，有时移位量可能非常大，以至于大多数移位向量都被附近的边缘点而不是其对应的边缘点转移，例如这种情况发生在图3中的蒙版形状的最右边像素处。

可能会获得错误的估计偏移向量，并且有时可能会使蒙版距离模板更远。

这种情况可以通过可能性来确定，该可能性与两个图像中边缘形状之间的相似度成比例。

因此，如果移位矢量显示了错误的方向，则似然性将导致较低的值。

另一个缺点是由定向距离变换的机制引起的。由于每个像素位移矢量都指向最近的边缘点而不是对应的点，因此它对平行移动不像对直线垂直移动那样敏感。例如，当垂直线稍微移位时，如图3中三角形的左侧所示，移位矢量的直方图可能具有分离的峰。一些代表水平运动，另一些代表垂直运动。真实的位移矢量是这些峰的横坐标和坐标的组合。因此，当检测到n个峰值时，就有n2个可能的移位矢量。如上所述，真实的移位向量可以导致高似然值，因此可以与其他伪造的向量区分开。

估计的偏移矢量表示相对方向和距离。当两个二进制图像之间有轻微平移时，根据正确的位移矢量移动蒙版图像时，可能会获得更高的似然值。定向距离图的这个特性可以生成位移向量[sy sx] T，该位移向量用于修改粒子滤波器中的状态参数，这将在3.2节中进行讨论。

3. PARTICLE FILTER

通常，序列图像中对象的运动可以看作是时间马尔可夫链，其具有以下属性：当前状态仅直接取决于过去的状态，并且与较早的历史无关。

在预测步骤之后，通过第2节介绍的改进的倒角匹配方法来测量每个粒子的似然度。然后，将似然值归一化并用作所有粒子的权重，以估计后验分布。权重高的那些粒子会被选择几次，与它们的权重成比例，以贪婪地生成新粒子并预测其在1 t时刻的状态。所有选定粒子状态的加权平均值由公式（16）给出跟踪结果。

3.2 Heuristically Particles Generation 启发式粒子生成

大多数粒子过滤器通过先验分布（例如高斯分布）扩散粒子，以便探测预测位置周围的后验分布。高斯分布是对称的，因此在没有更多先验信息时，这是一个合理的先验分布假设。在第2.4节中描述的移位向量提供了有关后验分布函数的局部峰的位置的先验信息。因此，可用于启发性地产生具有高重量的新颗粒。首先，将位移向量转换为粒子位置的位移量，如下所示：

其中H_t和H_p是在2.1节中定义的变换矩阵，并且具有与等式[sy sx]相同的含义，它是通过2.4节中提到的方法估计的移位向量。可以使用状态向量试探性地生成新粒子：

这种机制启发式地生成新的粒子，而不是像传统的粒子过滤器那样贪婪地生成粒子。[6]因此，它需要较少的颗粒来维持足够高重量的重要颗粒。粒子及其权重可以看作是概率密度函数的采样点。需要大量粒子来重建后验分布函数，尤其是在感兴趣区域内部的概率很高。

因此，该方法能够减少简并现象[10]并提高性能。图4是启发式粒子生成过程的模拟。该曲线代表真实的后验分布。每个粒子由一个圆解释。直径代表其重量，中心位置代表其状态。图4（a）和4（c）是通过不同数量的预测粒子估计的后验概率分布。当使用很少的粒子时，后验分布的采样结果可能很苛刻，并且会导致较大的误差。图4（b）是根据图4（a）启发式生成新粒子后估计的后验概率分布。箭头是估计的偏移向量。通过这种启发式生成方法，需要扩散较少的粒子以获得相当数量的高重量粒子并达到同等的性能

5. CONCLUSION

本文提出了一种新颖的跟踪算法，该算法结合了启发式粒子滤波和改进的倒角匹配与方向距离变换以及判别似然测量方法的组合，以跟踪灰色视频序列中的物体。提出的改进方法是借助特征分解实现旋转不变性，并且能够估计位移矢量，从而启发式地生成新粒子。实验结果表明，该算法能够有效地处理旋转变化，并且在存在旋转变换的情况下能够稳定地跟踪物体。新的似然测量方法能够增强跟踪器的性能。 ODT和启发式粒子生成有助于减轻简并现象，因此跟踪器可以用更少的粒子实现类似的性能。这些修改使倒角匹配更适合于跟踪问题。此外，借助粒子滤波器，跟踪算法能够在几帧中失配后重新捕获对象。可以做进一步的工作来改进该算法在处理视点和尺度变化时的效果。

【翻译】 Video Object Tracking using Improved Chamfer Matching and Condensation Particle Filter相关推荐

RLT-DiMP: Robust Long-Term Object Tracking via Improved Discriminative Model Prediction
今天准备分享的论文是一篇长时跟踪论文- 最后更新时间:2021.1.5 文章题目:Robust Long-Term Object Tracking via Improved Discriminativ ...
【论文阅读】Rethinking S-T Networks with Improved Memory Coverage for Efficient Video Object Segmentation
一篇NeurIPS 2021的关于VOS (video object segmentation) 的文章,文章的思想很有借鉴价值. 论文链接 Rethinking Space-Time Network ...
VideoMatch: Matching based Video Object Segmentation
Abstract: 1.视频目标分割是一个很重要的挑战,对于各种各样的视频分析任务.最近视频目标分割任务基于深度网络取得了state-of-the-art的结果. 2.由于作为预测任务的表述,这些方法 ...
Fully-Convolutional Siamese Networks for Object Tracking全文翻译
Fully-Convolutional Siamese Networks for Object Tracking 摘要任意对象跟踪的问题传统上通过仅在线学习对象外观的模型来解决,使用视频本身作为 ...
SiamFC全文翻译：Fully-Convolutional Siamese Networks for Object Tracking
摘要传统上,通过使用视频本身作为唯一的训练数据,专门在线上学习对象外观模型,可以解决任意对象跟踪的问题. 尽管这些方法取得了成功,但仅在线方法固有地限制了他们可以学习的模型的丰富性. 近来,已经进行 ...
GOT-10k: A Large High-Diversity Benchmark forGeneric Object Tracking in the Wild（论文翻译）
论文地址:https://arxiv.org/abs/1810.11981 Code:GOT-10k: Generic Object Tracking Benchmark 目录摘要 1.引言 2.相 ...
MaskRNN Instance Level Video Object Segmentation 论文翻译
摘要实例级视频对象分割是视频编辑和压缩的一项重要技术.为了捕获时间的一致性,本文中,我们开发了MaskRNN,一个递归的神经网络方法,它在每个框架中融合了两个深网的输出,每个对象实例--一个提供一个 ...
Online Object Tracking : A Benchmark
本文转载于:roamer_nuptgczx的博文,链接:http://blog.csdn.net/roamer_nuptgczx/article/details/51379191 个人感觉这篇文章翻译 ...
【专知荟萃18】目标跟踪Object Tracking知识资料全集（入门/进阶/论文/综述/视频/专家，附查看）
原创: 专知内容组专知 2017-11-18 点击上方"专知"关注获取专业AI知识! [导读]主题荟萃知识是专知的核心功能之一,为用户提供AI领域系统性的知识学习服务.主题荟萃为 ...
多目标跟踪综述、论文、数据集大汇总 Awesome Multiple object Tracking
Awesome Multiple object Tracking(持续更新) 综述论文 2022 2021 2020 2019 2018 2017 2016 数据集综述 Multiple Obje ...

【翻译】 Video Object Tracking using Improved Chamfer Matching and Condensation Particle Filter