NetVLAD: CNN architecture for weakly supervised place recognition 翻译

摘要

首先，我们开发卷积神经网络（CNN）架构可直接以端到端的方式进行位置识别任务的训练。
该体系结构的主要组件NetVLAD是一个新的通用VLAD层，其灵感来自图像检索中常用的“局部聚合描述符向量”图像表示。
该层很容易插入任何CNN架构中，并且可以通过反向传播进行训练。其次，我们基于新的弱监督排名损失，开发了一种训练程序，以学习体系结构的参数从Google Street View Time Machine下载的描述同一时间的相同地点的图片的端到端方式。

最后，我们表明，在两个具有挑战性的位置识别基准上，所提出的体系结构明显优于非学习图像表示和现成的CNN描述符，并且在标准图像检索基准上优于当前最新的紧凑型图像表示。

2 方法概述

在当前位置识别系统成功的基础上，我们将位置识别转换为图像检索。

位置未知的查询图像用于直观地搜索大型的地理标记图像数据库，排名最高的图像的位置用作查询位置的建议。
通常可以通过设计一个函数f来完成此功能，
“图像表示提取器”，以便在给定图像Ii的情况下产生固定大小的向量f（Ii）。

该函数用于提取整个数据库fIig的表示形式（可离线完成），以及提取查询图像表示f（q）的方式在线完成。

在测试时，通过基于f（q）和f之间的欧几里得距离d（q; Ii）对图像进行排序，通过精确地或通过快速近似的最近邻居搜索找到与查询最接近的数据库图像来执行视觉搜索。（ii）。

5 实验

5.1 数据集和评估方法

我们报告两个公开可用的数据集的结果。

匹兹堡（Pitts250k）[81]包含250k数据库图像从Google Street View下载和24k测试图，从街景视图生成但在不同时间生成，
相隔数年。

我们将此数据集分为三个大致相等的培训，验证和测试的各个部分，每个部分都包含大约83k数据库图像和8k查询，他们都通过地理上的划分，以确保是每个合集都包含独立的图像

为了促进更快的培训，对于某些实验，使用较小的子集（Pitts30k），其中包含每个训练/验证（测试）/测试中有10k数据库图像
集合，这些集合在地理位置上也不相交。

东京24/7 [80]包含76k数据库图像和315个使用手机相机拍摄的查询图像。

这是极富挑战性的数据集，在其中进行查询图片如上所述，数据采集自白天傍晚和晚上，而数据库训练图像仅有白天，因为它们源自Google街景视图。

为了形成训练和验证，我们使用Time Machine功能收集了东京的其他Google街景全景图，并将其命名为TokyoTM；

东京24/7（测试）和东京TM训练和验证在地理位置上都不相交。有关拆分的更多详细信息，请参见附录B。

评估指标。我们遵循标准的位置识别评估程序[4，24，65，80，81]。
如果前N个检索到的数据库图像中至少有一个距离查询的地面真实位置d = 25米以内，则认为查询图像已正确定位。

然后针对不同的N值绘制正确识别的查询（召回）的百分比。

对于Tokyo 24/7，我们遵循[80]并在排名数据库上执行空间非最大抑制评估前的图像。

实施细节。我们使用两个基本体系结构，这些体系结构通过最大池化（fmax）和我们的NetVLAD（fV LAD）层进行了扩展：AlexNet [37]和VGG-16 [73]；
两者都在ReLU之前的最后一个卷积层（conv5）上裁剪。对于NetVLAD，我们使用K = 64得出两种基本体系结构的16k和32k-D图像表示形式。

初始化程序，用于训练的参数，用于训练元组的采样程序以及其他实现细节在附录A中给出。
所有培训和评估代码以及我们受过培训的网络都可以在[1]上在线查看。

5.2 结果与讨论

基线和最新技术。为了评估我们的方法的好处，我们将经过训练以进行位置识别的表示形式与经过其他训练的“现成”网络进行比较。即，假定在conv5裁剪了一个基础网络，则基线使用最大池（fmax）或将描述符聚合到VLAD（fV LAD）中，但不执行进一步的特定于任务的训练。这有三个基本网络是：AlexNet [37]，VGG-16 [73]，它们都针对ImageNet分类进行了预训练[18]，Places205 [91]，它使用了与AlexNet相同的体系结构，但针对场景进行了预训练分类[91]。最近，预训练的网络已被用作现成的密集描述符提取器，用于实例检索[6、7、22、60、62]，而未经训练的fmax网络对应于[6、62]的方法。

此外
我们将经过训练的位置识别CNN表示形式与基于最新局部特征的紧凑描述符进行比较，该紧凑描述符由VLAD池[29]和内部归一化[3]以及密集提取的RootSIFT [2，43]组成。使用PCA，描述符可以选择减小为4096维
（在训练集上学习）结合美白和L2归一化[25]；这种设置与视图综合一起，可以在具有挑战性的Tokyo 24/7数据集上获得最新的结果（参见[80]）。在下面的内容中，我们将讨论图5，该图将我们方法的位置识别性能与上文在匹兹堡和东京24/7基准测试中概述的基准进行了比较

应该训练哪几层？
在表1中，我们研究了针对位置识别的最终任务培训不同层次的好处。
最大的改进要归功于对NetVLAD层的培训，但是对其他层的培训又带来了进一步的改进，其中有些过拟合发生在conv2以下。

表1.部分培训。
仅对AlexNet的特定层执行反向传播的效果，例如
“ conv4”表示学习conv4及更高版本的层的权重，而conv4以下的层的权重固定为其预训练状态； r @ N表示召回@N。
结果显示在Pitts30k-val数据集上。