论文学习-卫星视频与目标追踪-1-融合KCF跟踪器和三帧差算法

论文学习-卫星视频与目标追踪-1

大家好，近来一直在研究基于视频卫星的目标追踪领域。为了更好地梳理自己的论文学习过程，故采用博客的方式记录下来。接下来我会将此领域一些我觉得典型的有意义的论文，以我自己的方式进行翻译、归纳和总结。希望可以帮助自己的研究取得进展，也希望对感兴趣或也做这方面的研究的朋友一点帮助。

研究领域简介

开始之前，我先用我自己的语言对此领域做一个简要的介绍，不专业之处请多指教：

视频卫星呢，其实和其他的遥感卫星没什么区别，只是说，其获取的数据不只是遥感影像，也包括一段连续序列的图像（视频）。其最大的意义在于时间分辨率特别高。现在我国主要的视频卫星主要有吉林一号，粗略地说，其分辨率可以达到1m以下，视频长度在90s左右。

对视频卫星的研究，主要是在交通领域，如对车辆进行追踪，并且获取一些交通流的信息。因此最重要的技术在于目标追踪。

至于目标追踪呢，相关的博客已经很多了。虽然现在计算机视觉领域的主流可能是在深度学习上，但在基于卫星视频的目标追踪上，依然会使用包括相关滤波器在内的方法。

与目标追踪的传统应用场景，即监控视频，不同，由于卫星所在的高度，其获得的卫星视频的尺度和监控视频相差很远。因此这个领域最大的困难之处在于，和监控视频等目标占据较大区域不同，在卫星视频中，目标（如车辆、船舶、飞机）往往只占数个至数十个像素，且其收到的干扰也会更大。

因此，如何利用现有的目标跟踪算法，成功在卫星视频上获得较高的精度，并获得实时的效率，是现在的一个研究重点。

论文介绍

《Object Tracking in Satellite Videos by Fusing the Kernel Correlation Filter and the Three-Frame-Difference Algorithm》
《融合核相关滤波器和三帧差分算法的卫星视频目标跟踪》

引用：B. Du, Y. Sun, S. Cai, C. Wu and Q. Du, “Object Tracking in Satellite Videos by Fusing the Kernel Correlation Filter and the Three-Frame-Difference Algorithm,” in IEEE Geoscience and Remote Sensing Letters, vol. 15, no. 2, pp. 168-172, Feb. 2018, doi: 10.1109/LGRS.2017.2776899.

感兴趣的朋友可以查看原文：https://ieeexplore-ieee-org-s.era.lib.swjtu.edu.cn/document/8225723

接下来是对正文的高度提炼：

1.摘要

对象跟踪是计算机视觉领域的热门话题。高分辨率遥感传感器提供的详细空间信息使跟踪卫星视频中的目标成为可能。近年来，相关过滤器已经产生了令人鼓舞的结果。但是，在处理卫星视频中的对象跟踪方面，由于每个目标的大小与整个图像相比都太小，并且目标和背景非常相似，核相关滤波器(KCF，kernel correlation ﬁlter)并不能实现好的效果。**因此，在本论文中，我们通过融合KCF跟踪器和三帧差算法（threeframe-difference algorithm），提出了一种新的卫星视频目标跟踪方法。**本文提出了一种特定的策略，以利用KCF跟踪器和三帧差算法来构建强大的跟踪器。我们在三个卫星视频中评估了所提出的方法，并展示了其相对于其他最新跟踪方法的优越性。

2.方法

2.1 三帧差法
对于给定的视频序列，当前帧由第k帧表示，上一个帧用（k − 1）表示。二进制图像d 生成为：

其中，表示在第k帧时点（x,y）的灰度值，指的是相应的二进制值，而T是一个阈值，并且对三帧差法的最终结果非常重要。T是由Otsu[36]自动计算的。Wojcik和Kaminski [37]提出了三帧差方法。给定三个连续的帧，例如，（k-1）,k和(k+1)，则三帧差法可以表示为：

与直观的两帧差相比，三帧差方法可以更有效地处理遮挡，并且可以减少无关的噪声点。

2.2 KCF
大多数现代跟踪器的核心组件是判别性分类器，其任务是区分目标及其周围环境。为了应对自然图像变化，通常使用转变和缩放后的样本块来训练分类器。这样的样本集充满了冗余——任何重叠的像素都必须相同。基于简单的观察，提出了KCF [18]，以充分利用负样本并减少冗余。此外，KCF将跟踪问题视为回归而非分类。对于每个样本，KCF不会将正样本标记为1，将负样本标记为0，而是给出介于0和1之间的值。

在检测阶段，我们首先将前一帧中的目标位置作为中心位置，在新的一帧中裁剪大小为I ×J 的图像块z，然后将分类器的响应值计算为

这里是学习的目标外观模型，响应值指候选目标与真实目标之间的相似性。表示傅立叶逆变换，⊙ 是矩阵的Hadamard乘积。因此，可以通过搜索的最大值来检测目标的当前位置：

然后，可以估计当前帧中的目标位置，将其用作下一帧的基本样本。

【注：方法的详细表述可自行查阅，或者之后会专门拿出来解释。】
2.3 追踪器融合
在本节中，我们将介绍融合策略，以结合KCF跟踪器的结果和三帧差异[38]。对于每一帧，输入是KCF跟踪器和三帧差异的结果，每一帧都包含一个矩形框。

本文方法为每个候选框设置一个参数，我们称其为吸引力（attraction）a。通过这个参数对两种追踪方法的结果进行融合。

首先解释如何计算两个矩形框之间的距离。对于矩形框b 和 C ，距离可以计算如下：

这里的X，y，w 和 H 表示框的左上角的坐标，宽度和高度。我们假设所有盒子都具有相同的大小，并且忽略比例更改，因此可以如下简化距离：

因此，对于第i帧的候选矩形框e，其吸引力 是：

σ 是一个常数，控制距离对吸引力的影响。此参数对于最终跟踪结果至关重要。表示在第i帧算法j（j取1或2，表示三帧差法或KCF）的候选框。为了找到最终的融合候选框，我们选择所有候选框中吸引力最大的一个作为最终结果。

以上就是本文的关键，追踪器的融合。简要来说，就是设计了一个参数a，以综合利用两种方法的贡献，以此取得最好的追踪结果（矩形框）。

3. 实验

数据：三个视频，分别由Deimos Imaging和UrtheCast提供，第三个视频由Chang Guang Satellite Technology Co.（即长光公司，它们发射了吉林一号）提供。这些视频分别描述了加拿大，迪拜和新德里的交通状况。第一和第二数据集的图像大小为3840 × 2160 像素。第三数据集的图像大小为3600 × 2700 像素。对于我们的实验，已选择列车和汽车作为目标。

实验条件：在具有8 GB内存和Intel Core i5 2.8 GHz CPU的C ++ OpenCV库中实现。

参数选择：在融合框架中采用了HOG特征。搜索窗口的大小设置为目标大小的1.5倍。在高斯函数中使用的σ被选择为0.5。HOG功能的像元大小为4 × 4 ，块大小为 16 × 16 ，跨步为 8 × 8 ，并且HOG功能的方向箱编号为9。此外，正则化 λ 设置为 10− 4 。 α在（7）中的设置为0.25。所有这些参数均设置为与[18]相同。对于三帧差计算，T 在值（2）和（3）由自适应聚类图像阈值，即取得OTSU [36] 。对于实验的融合部分，σ ，控制距离（13）中的吸引力的影响的常数，被设置为地面真相边界框的初始大小。

评价指标：精度图和成功图；

对比实验：为了进行比较，我们采用了五种最新的跟踪算法：跟踪学习检测（TLD）[15]，struck [13]，KCF [18]，长期相关跟踪（LCT）[ 39]和判别尺度空间跟踪（DSST）[33]。

实验结果：

个人总结：

这论文参考KCF [18]和OTSU [36]两篇论文来设置两种方法，分别用KCF和三帧差法进行追踪，然后基于自创的参数“吸引力”，取得当吸引力最大时的候选框，作为最后的结果。其实是综合了两个方法的结果，取了一个折中的值。

对比的方法：跟踪学习检测（TLD）[15]，struck [13]，KCF [18]，长期相关跟踪（LCT）[ 39]和判别尺度空间跟踪（DSST）。实验和这五种方法相比，效果最高。

虽然本文的创新点和策略比较简单，但实验的结果似乎不错。但算法的速度为9帧/秒，感觉太慢了。