TILDE: A Temporally Invariant Learned DEtector学习笔记

TILDE: A Temporally Invariant Learned DEtector
- Abstract
- 1.Introduction
- Related Work
- 3.Learning a Robust Keypoint Detector
- - 3.1. Overview of our Approach
  - 3.2. Creating the Training Set
- 4. An Efficient Piece-wise Linear Regressor
- - 4.1.A Piece-wise Linear Regressor

TILDE: A Temporally Invariant Learned DEtector

Abstract

我们介绍了一种基于学习的方法来检测可重复的关键点，在天气和光照条件的剧烈变化下，最先进的关键点探测器是惊人的敏感。我们首先从同一视点拍摄的多幅训练图像中识别出好的关键点候选者。然后我们训练一个回归器来预测一个分数图，它的最大值就是这些点，这样就可以通过简单的非最大值抑制来找到它们。
由于没有标准的数据集来测试这些变化的影响，我们创建了自己的数据集，我们将公开这些数据集。我们将证明，我们的方法在如此具有挑战性的条件下显著优于最先进的方法，同时在未经训练的标准数据集上仍然达到最先进的性能。

1.Introduction

关键点检测与匹配是解决图像检索、目标跟踪、图像配准等计算机视觉问题的重要工具。自从20世纪80年代引入Moravec、FoĔrstner和Harris角探测器以来，已经有许多其他探测器被提出。当尺度和视点发生变化或图像模糊时，有些具有极好的可重复性。然而，如图1所示，当在一天的不同时间和不同的天气或季节在室外获取图像时，它们的可靠性显著降低。这是一个严重的障碍，当试图匹配在晴朗和恶劣的天气，早晚，冬季和夏季拍摄的图像，即使是照明不变的描述符。
在本文中，我们提出了一种学习关键点检测器的方法，该检测器提取在这种具有挑战性的条件下稳定的关键点，并且允许在像图1所示的那样困难的情况下进行匹配。为此，我们首先介绍一种简单而有效的识别训练图像中潜在稳定点的方法。然后我们用它们来训练一个回归器，这个回归器产生一个得分图，它的值是这些位置的局部极大值。通过在新图像上运行它，我们可以通过简单的非最大值抑制来提取关键点。我们的方法受到最近提出的一种算法的启发，该算法依赖于回归来从线性结构图像中提取中心线。为了达到这一目的，我们需要开发一种对复杂的外观变化具有鲁棒性的新型回归器，以便能够高效、可靠地处理输入图像。
正如机器学习成功地应用于描述符和边缘检测一样，学习方法以前也被用于关键点检测中，以减少在寻找与手工制作方法相同的关键点时所需的操作数量。然而，尽管进行了广泛的文献检索，我们只发现了一种方法，它试图通过学习来提高关键点的重复性。该方法侧重于学习一个分类器来过滤出最初检测到的关键点，但效果有限。这可能是因为他们的方法是基于纯分类的，也因为首先要找到好的关键点由分类器学习是非常重要的。
总之，我们的贡献有三个方面：
1.我们介绍了一种新的基于回归的方法“时间不变学习检测器”（TILDE）来提取在天气、季节和时间变化引起的剧烈光照变化下可重复的特征点。
2.我们提出一种有效的方法来产生所需的训练集「好的学习要点」
3.我们创建了一个新的benchmark dataset，用于在不同时间和季节拍摄的室外图像上评估特征点探测器。

Related Work

手工制作的关键点探测器大量的工作致力于开发更有效的特征点探测器。尽管20世纪80年代出现的方法仍在广泛使用，但此后又出现了许多新方法。在一般螺旋模型的基础上，提出了使用结点和水滴的SFOP探测器。而涉水检测器利用对称性来获得可靠的关键点。使用SIFER和D-SIFER，使用余弦调制高斯滤波器和10阶高斯导数滤波器来更稳健地检测关键点。边缘焦点和使用边缘信息来增强对照明变化的鲁棒性。总的来说，这些方法在标准数据集上持续改进了关键点检测器的性能，但是当应用于具有时间差异的室外场景时，仍然会出现严重的性能下降。
手工制作的方法的一个主要缺点是它们不能很容易地适应上下文，因此缺乏灵活性。例如，SFOP在校准相机时工作良好，而WADE在应用于对称对象时显示出良好的效果。然而，它们的优势并不容易被我们在这里解决的问题所继承，例如找到类似的户外场景。
学习型关键点检测器虽然关于关键点检测器的工作主要集中在手工制作的方法上，但是一些基于学习的方法已经被提出。借助FAST，引入了机器学习技术来学习快速角点检测器。然而，在他们的案例中，学习只是为了加快关键点提取过程。可重复性在快速版本中没有发挥重要作用。训练WaldBoost分类器在预先对齐的训练集中学习具有高重复性的关键点，然后根据分类器的得分筛选出初始的关键点集。他们的方法称为TaSK，可能与我们的方法最相关，因为他们使用预先对齐的图像来构建训练集。然而，其方法的性能受到初始关键点检测器的限制。
最近，提出学习一种分类器来检测运动结构的匹配关键点（SfM）应用。他们通过观察在SfM管道中保留哪些关键点来收集匹配的关键点，并学习这些关键点。虽然他们的方法显示出显著的加速，但他们仍然受到初始关键点检测器的质量的限制。通过随机抽样学习卷积滤波器，并寻找在应用于立体视觉里程计时给出最小姿态估计误差的滤波器。不幸的是，他们的方法仅限于线性滤波器，在灵活性方面受到限制，而且不清楚他们的方法如何应用于立体视觉里程计以外的其他任务。
我们提出了一个学习关键点检测器的一般方案，并为此任务指定了一个新的有效回归器。我们将它与最先进的手工制作方法以及任务进行比较，因为它是文献中最接近的方法，在几个数据集上。

图2:我们的方法概述。我们依靠一堆训练图像，从相同的视角捕捉，但在不同的照明（a），和一个简单的方法来选择好的关键点学习。我们训练一个关于图像块的回归函数，以返回峰值，比如（b）中的关键点位置，以及远离这些位置的小值。将这个回归函数应用到新图像的每个图像块上，会得到一个分数图，如（c）中的，我们可以从中提取关键点，如（d）中所示，方法是寻找具有大值的局部极大值。

3.Learning a Robust Keypoint Detector

在本节中，我们首先简要介绍我们基于回归的方法，然后解释如何构建所需的训练集。在下一节中，我们将形式化我们的算法并更详细地描述回归器。

3.1. Overview of our Approach

让我们首先假设我们有一组从同一角度拍摄的同一场景的训练图像，但是在不同的季节和一天中的不同时间，例如图2（a）的集合。让我们进一步假设，我们已经在这些图像中确定了一组我们认为可以在不同成像条件下一致地找到的位置。我们在下文第3.2节中提出了一种切实可行的方法。我们称正样本为每个训练图像中集中在这些位置的图像块。远离这些位置的斑块是阴性样本。
为了学习在一个新的输入图像中找到这些位置，我们建议训练一个回归器来为输入图像的给定大小的每个图像块返回一个值。这些值应具有与图2（b）中所示的正样本相似的峰值形状，我们还鼓励回归器为负样本生成尽可能小的分数。如图2（c）所示，我们可以通过寻找回归器返回的值的局部极大值来提取关键点，并通过简单的阈值化来丢弃具有低值的图像位置。此外，我们的回归器也被训练为在图像堆栈上返回相同位置的相似值。这样，即使照明条件发生变化，回归器也会返回一致的值。

3.2. Creating the Training Set

正如图3所示，为了创建我们的正样本和负样本，我们先从一天中不同时间和季节拍摄的室外网络摄像头收集图片。从AMOS数据集中可以看出，网络摄像头长时间保持固定，不受雨水等影响。我们还使用了建筑物顶部的摄像头拍摄的全景图像。
为了收集一组正样本，我们首先在该数据集的每个图像中独立地检测关键点。我们使用SIFT，但也可以考虑其他探测器。然后我们迭代检测到的关键点，从最小比例的关键点开始。如果在来自同一个摄像头的大多数图像中，在大约相同的位置检测到一个关键点，那么它的位置很可能是一个很好的学习对象。
在实践中，我们认为如果两个关键点的距离小于SIFT估计的尺度，则它们位于大致相同的位置，并且我们保持最佳的100个重复位置。然后从所有图像（包括未检测到关键点的图像）中提取一组阳性样本，并以检测到的平均位置为中心。
这种简单的策略有几个优点：我们只保留最可重复的关键点用于培训，而放弃那些很少被发现的关键点。我们还介绍了一个高度可重复的关键点缺失的补丁作为阳性样本。这样，我们就可以针对不同情况下能够可靠检测到的关键点进行重点检测，从而纠正原检测器的错误。
要创建负采样集，我们只需在远离用于创建正采样集的关键点的位置提取面片。

4. An Efficient Piece-wise Linear Regressor

在这一部分中，我们首先介绍我们的回归函数的形式，它被有效地应用于图像中的每一个面片，然后我们描述所提出的目标函数的不同项来训练关键点的检测,最后我们解释了如何优化回归函数的参数以最小化目标函数。

4.1.A Piece-wise Linear Regressor

我们的回归函数是用广义铰链超平面（GHH）表示的分段线性函数:式1

其中x是由从图像块中提取的图像特征组成的向量，ω是回归器参数n=1的向量，可以分解为[w11,…，δ1，…，δn]。wnm向量可以看作线性滤波器。参数δn被限制为-1或+1。N和M是控制GHH复杂度的元参数。作为图像特征，我们使用了LUV颜色空间的三个分量，图像梯度水平和垂直梯度，以及在x面片的每个像素处计算的梯度大小。
任何连续的分段线性函数都可以用式（1）表示。它非常适合于我们的关键点检测器学习问题，因为将回归器应用到图像的每个位置只涉及简单的图像卷积和像素级的最大值运算符，而回归树需要随机访问图像和节点，而CNN涉及到大多数层的高阶卷积。此外，我们将证明，该公式也有助于整合不同的约束，包括相邻位置的响应之间的约束，这有助于提高关键点提取的性能。