【翻译】HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss

一篇很nice的论文

大部分机翻，可能有不通的地方，建议结合原文一起看

基于Hybrid Similarity Measure和Triplet Loss的局部描述子学习

摘要

最近的研究表明，局部描述符学习得益于L2归一化的使用，然而，文献中缺乏对这种效应的深入分析。在本文中，我们研究了L2归一化如何影响训练期间的反向传播描述符梯度。根据我们的观察，我们提出了一个新的局部描述符HyNet，它可以在匹配方面带来最先进的结果。HyNet引入了一种混合相似性度量，用于度量三态边际损失，一个正则化项约束描述符范数，以及一种新的网络体系结构，该体系结构对所有中间特征映射和输出描述符执行L2正则化。在包括补丁匹配、验证和检索在内的标准基准上，HyNet大大超过了以前的方法，并且在3D重建任务上优于完整的端到端方法。代码和模型可在https://github.com/yuruntian/HyNet上找到。

1介绍

局部特征检测器和描述符在许多计算机视觉任务中发挥着关键作用，如三维重建[39]、视觉定位[38,42]和图像检索[1,33,29]。近年来，联合检测与描述[51,30,10,11,34,22,25,13,45,5]引起了广泛的关注。尽管端到端检测和描述的想法很诱人，但经典的两阶段策略在许多计算机视觉任务中经受住了多年的测试，仍然在标准基准测试中具有竞争性能[7,2,40,18]。此外，定制的匹配器[27,36,35,6,37]也有助于提高匹配性能，其中时间复杂度至关重要。尽管在端到端方法方面取得了进展，但两阶段过程仍然值得注意，因为它常常导致整个匹配系统的有竞争力的结果。

深度描述符[43,3,46,26,19,15,47,54,53]在不同的任务中[2,18,7,40]显示出优于手工制作的描述符[23,50]。目前的工作主要集中在改进损失函数或采样策略上。L2-Net[46]引入了带n对损失的渐进批量采样。HardNet[26]使用了一个简单但有效的硬负面挖掘策略，证明了抽样的重要性。除了对比或三重损失，DOAP[15]采用基于检索的排名损失。GeoDesc[24]集成了多视图重建的几何约束，有利于训练。除了一阶优化外，SOSNet[47]表明二阶约束进一步改进了描述符。

描述符的L2归一化可以带来持续的改进，这已经被广泛观察到。描述符的L2归一化方法[46,26,15,12,47,56,54]明显优于早期的非规范化描述符[43,3]。此外，即使是手工制作的描述符也可以通过L2归一化[2]进行改进。所有这些观察结果表明，描述符的矢量方向比大小(L2规范)更能区分，在其他特征嵌入任务中也可以发现类似的结论[49,9，21].

因此，我们从梯度的角度分析了L2归一化对学习的影响。由于每一层的梯度都是通过链规则[14]生成的，所以我们在链的开头分析它们，在那里它们是由给定的相似性度量或距离度量生成的。我们的直觉是梯度方向应该有利于描述子方向的优化，而梯度大小应该适应训练样本的硬度水平。因此，引入了HyNet，以更好地利用梯度信号的方向和幅度。

尽管损耗函数的设计不断发展，但三态损失仍被应用于最先进的局部描述符中[26,47]。此外，在各种嵌入任务中，如人脸识别[41,31]和人的再识别[8,16]，三态损失也得到了显著的普及。在[28]中一个有趣的观察表明，从经典的对比和三态损失的改善是微小的的。在这项工作中，我们进一步表明，最先进的局部描述符可以通过三态损失与一个更好设计的相似性度量来学习。具体而言，我们提出:1)混合相似度度量，可以平衡正样本和负样本的梯度贡献;2)正则化项，为描述符规范提供适当的约束;3)一种新的网络结构，能够L2正则化中间特征映射。

2梯度分析

在本节中，我们将探讨广泛使用的内积和L2距离如何为训练归一化和非归一化描述符提供梯度。

2.1预赛

我们将L(t(x, y))表示为描述符对(x, y)的损失，其中(-，.)可以是相似性度量或距离度量。为了保证本文后面的一致性，我们将距离度量也称为相似度量，尽管它度量的是逆相似度。无论(x, y)是正的(匹配的)还是负的(不匹配的)，相对于描述符的梯度计算如下:

为了清楚起见，省略了(x, y)。重要的是，网络中可学习权值的梯度是在链的最开始的Eqn.(1)中推导出来的，在训练过程中起着关键作用。注意，这是一个标量，而梯度的方向是由w的偏导数决定的。对于有或没有L2归一化的描述符，我们考虑最常用的内积和L2距离:

式中为L2范数(= Vx)，原始描述符s和d为内积和L2距离，s和d为规范化描述符。请注意，我们认为L2标准化是相似度量的一部分。

图1:在方程3中导出的梯度下降方向，正负对为+和-。9是描述符之间的夹角。黑色箭头:L2正常化之前的描述符。红色箭头:从a开始的梯度下降方向。绿色箭头:从a开始的平行分量。蓝色箭头:从A1开始的正交分量。颜色更好看。

然后得到偏导数:

在下面的章节中，我们将根据方向和幅度来分析上述梯度。

2.2梯度方向

最优梯度方向是收敛的关键，即无论学习速率如何，给定不正确的梯度，学习过程都不会收敛。我们表示1，其中A为总梯度方向，A和A分别为平行分量和正交分量。根据Eqn。(3)，得到A = xT = 0, yT = 0, xTad = 0, yT ad = 0，即梯度始终正交于描述子，说明L2规范化描述子只有AL。同时，非规范化描述子的两个分量都是非零的。为了更好的理解，我们在图1中说明了二维描述符和相应的梯度下降方向(梯度负方向)，其中e是描述符之间的夹角。具体来说，A修改描述符的大小(L2规范)，而A1更新描述符的方向。然而，由于描述符的大小可能对匹配有害(见第1节)，训练应该集中于描述符方向的优化，这可以通过L2规范化描述符实现。一个有趣的问题是是否有可能更好地使用a。我们在3.1节中解决了这个问题，并说明了详细的分析会导致提高性能的训练约束。

2.3梯度大小

训练梯度不仅要有最优的方向，而且要有适当的尺度。强度应该适应训练样本的“硬度”水平，即，硬样本应该比简单样本得到更强的更新。我们专注于L2正则化描述符，其梯度具有最佳方向。我们表示-和v=作为两个用L2标准化的描述符。进一步，s和d表示为描述符之间夹角的函数:u

图2(a)显示了HardNet和SOSNet在训练中的9个分布，即这两个模型都是在Liberty上进行训练和测试的。注意，从等式4中，梯度级数是周期为n的周期函数。如图所示，几乎所有硬正负在[0,T/2]范围内都有9。因此，我们观察了gs和ga在[0,T/2]范围内的行为，如图2(b)所示。

梯度不同，即gs是单调递增的，而ga是递减的。这说明gs更有利于正面的优化，因为硬正面(大0→T/2)比容易正面(小9)产生更大的梯度。相反，ga倾向于负面，因为硬负面(小9)比容易负面(大0)产生更大的更新。这些观察结果得出的结论是，无论是内积还是L2本身都无法平衡优化的正面和负面。

同样值得注意的是，根据Eqn。(1)，将整体梯度幅度进一步加权，这意味着较好的L形式可以缓解gs和gd的固有缺陷。因此，在第3.2节中，我们展示了一种精心设计的相似性度量方法可以在标准三态损失下获得最先进的性能。

3方法

基于上一节的分析，我们建议通过以下方式改进描述符学习:1)引入一个正则化项，它提供了一个有益的a; 2)一种混合相似度度量，它可以在梯度更新的正负贡献之间取得平衡;3)一种新的网络架构，将模拟输出描述符的中间特征图标准化，使它们在方向上而不是幅度上得到优化。

3.1 L2 Norm regularization

第2.2节表明L2归一化排除了平行梯度A，也就是说，描述子规范没有约束，它可以随着图像强度的缩放而变化。直观地说，a对优化做出积极贡献的一种可能方式是在L2归一化之前引入以下约束:

x;和xt是L2归一化之前的一对正描述符。RL作为一种正则化术语，驱动网络对图像强度变化(如不同光照引起的图像强度变化)具有鲁棒性。

3.2混合相似测度与三态损失

最近在改善标准三态损失方面的努力包括对三联体进行智能采样[26,52]和自适应裕度[55,55]。相比之下，我们探索用混合相似性度量来增加三重态损失，这样可以产生更好的梯度。如2.3节所述，s和d分别倾向于正样本和负样本，因此我们提出了一个混合样本相似度量sH可以在两者之间取得平衡。

其中a是一个范围为0到+oo的标量，调整s和d之间的比率，Z是标准化因子，确保梯度的最大幅度为1。从梯度的角度，当边界约束在等式中。(6)不满足时，得到aCTriplet (Triplet) = 1，否则为0。因此，s' h (e)和s'(0)是直接相关的მsн（0） მsн（0）到梯度大小。我们将在第五节展示Eqn。(6)在平衡梯度方面的性能优于其他可能的解决方案。最后，我们的总体损失函数定义为:

其中，y作为正则化参数，以及平衡s和d的贡献。最优a可以通过第5节中讨论的网格搜索来找到。

3.3网络体系结构

在L2-Net[46]的工作中，作者表明扁平化的特征地图可以像最终描述符一样被优化。因此，我们受到启发，将第2节的观察结果推广到中间特征图。我们建议为不同的层更好地控制梯度，而不是构建额外的损失函数。由于特征图也是高维空间中的特征向量，所以仍然可以应用之前的梯度分析方法。我们的目标是通过L2正常化为所有层的特征图生成正交梯度，这样它们就可以在模仿描述符的方向方面得到更好的优化。为此，我们可以直接采用现成的Filter Response Normalisation(FRN)[44]，它最近被提出，在分类任务中显示出了很有前景的结果。FRN的核心思想是L2归一化具有可学习仿射参数的中间特征映射。具体来说，FRN通过以下方法对feature map的每一层进行归一化:

其中y和B为学习参数，f为第i个通道的平展特征图，N为像素数。请注意，[44]中还提出，在FRN之后，梯度w.r.t. f总是正交的，这适合我们的场景。我们将在第5节中展示，尽管FRN可以提供一般的性能提升，但它与提议的混合相似度更兼容。

我们的HyNet架构基于L2-Net[46]，它由7个卷积层组成，输出128维描述符。如图3所示，在原始L2- net中，除了最终L2归一化之前的最后一层外，所有的批处理归一化(Batch Normalisation, BN)[17]层都被FRN层取代。此外，正如[44]中建议的那样，每个FRN后面是阈值线性单元(TLU)，而不是传统的ReLU。因此，HyNet具有与HardNet[26]和SOSNet[47]相同数量的卷积权值。

4实验

我们的新架构和培训是在PyTorch[32]中实现的。该网络被训练为200个epoch，批量大小为1024,Adam优化器[20]。从scratch培训，每一层TLU中的阈值T用-1初始化。我们设a = 2 和y = 0.1。在接下来的实验中，我们将HyNet与目前三种标准下的深度局部描述符[3,46,26,47]和端到端方法[10,11,34]进行了比较基准 [7， 2， 40].。

4.1 UBC验证

UBC数据集[7]由三个子场景组成，分别是Liberty、Notredame和Yosemite。基准测试主要关注补丁对的验证任务，即匹配结果是正的还是负的。按照评估协议[7]，在一个子集上训练模型，并在其他两个子集上测试模型。在表1中，我们报告了在六个训练和测试分段上95%召回率(FPR@95)[7]的误报率标准测量。我们可以看到，虽然性能接近饱和，但HyNet仍然比以前有显著的改进方法。

4.2 HPatches匹配

HPatches数据集[2]评估三个任务，patch验证，patch检索，以及局部patch之间的视点和光照变化的图像匹配。根据几何噪声水平的不同，将结果分为易、硬、硬3类。

图4:HPatches[2]测试集'a'上的结果在这个基准测试中，HyNet在所有指标上都优于最先进的SOSNet[47]和其他本地图像描述符。

我们将结果显示在图4中，其中所有模型都是在Liberty上训练的，Liberty是[2]中提出的协议。HyNet对MAP进行了大幅度的改进，在之前最先进的SOSNet[47]中，三个任务分别为0.89、2.35和1.75。请注意，SOSNet对其前身HardNet[26]的改进在发布时分别为0.03、0.96和1.14。

4.3 ETH结构从运动

ETH SfM基准[40]对户外场景的Structure from Motion (SfM)任务中的局部描述符进行评估。为了量化SfM质量，在表2中，我们遵循[40]的协议，报告配准图像的数量、重建的稀疏和密集点、平均跟踪长度和平均重投影误差。首先，我们将HyNet与HardNet[26]和SOSNet[47]进行比较，使用从DoG检测器中提取的相同的局部补丁，虚线上方显示。由于检测器是固定的，所以结果反映了描述符的性能。为了确保公平的比较，HardNet、SOSNet和HyNet都是从UBC数据集[7]上在Liberty上训练的。在这个基准测试中，HyNet通过为大场景注册更多的图像和重建更多的空闲点，显示出了显著的优势，而其他指标的结果与性能最好的描述符相当。接下来，我们将HyNet与最近的端到端方法，即SuperPoint[10]、D2-Net[11]和R2D2[34]进行比较。

DoG+HyNet在更大的场景中表现得更好，例如，马德里大都会和宪兵市场，在3D中，它提供了超过50%的重建稀疏点。值得注意的是，在SfM任务中，配准图像和重建点的数量对三维模型的质量至关重要。此外，结果还表明，HyNet对最先进的探测器KeyNet提供的不同补丁有很好的推广效果 [4]，其中平均轨道长度增加了一些场景。

5讨论

在本节中，我们首先研究HyNet的每个构建块对整体性能的贡献。

消融研究如表3所示，它显示了L2范数正则化项RL2、相似性度量和特征地图归一化如何影响性能。具体来说，我们在Liberty[7]上训练不同的模型，在Hpatches[2]上报告平均MAP匹配任务。

首先，我们可以看到RL2有助于提高性能，这证明了我们的直觉认为它是最佳的米塞斯使网络对强度变化具有鲁棒性。接下来，我们将sH与等式中的s和d进行比较。(7)，其中每个相似度的最佳结果(通过网格搜索最优边际)被报告。sH比s和d分别提高了1.87和0.78，表明其在平衡正和梯度量级上的有效性

图5:(a)参数a对拟混合损耗的影响。(b)不同a的拟议HyNet损失的梯度幅度。(c)将拟议损失与其他结合内积和L2损失的变体进行比较。

最后，将过滤器响应归一化(FRN)[44]与批处理归一化(BN)[17]和实例归一化(IN)[48]进行比较，在这些方法中，已有的方法使用了带有BN的网络[46,26,47,15]。FRN至少超过BN和IN 1.5倍，这表明L2归一化中间特征映射的优势。综上所示，我们将RL2、SH和FRN结合在一起，达到了最好的效果。此外，为了证明FRN更符合我们提出的混合相似度，我们用HyNet架构对HardNet和SOSNet进行了重新训练。如图所示，HyNet的MAP比FRN提高了1.93，而HardNet和SOSNe的MAP分别为1.33和1.10。通过网格搜索研究了a和m的影响，如图5(a)所示，其中当a = 2, m = 1.2时，HyNet的性能达到最佳。此外，我们通过改变a在图5(b)中绘制梯度幅度gHls'(0)|。可以看到，对于gs(9)， a = 2的曲线介于α = +oo和ga(e)的a = O之间，平衡了正负的贡献。其他可能的解决方案包括:

CA用s表示正的，d表示负的，这是自适应梯度幅度最直接的方法。同时，Cs叠加了两个三重损失，其中mB和mB是两个差额。我们对CA和CB进行网格搜索，设置ma = 1.0， α = 2.0, mB = 0.9, mB2 = 1.2。在[47]之后，我们将他们的训练曲线与图5(c)中的HyNet损失进行比较，其中网络在Liberty上训练，FPR@95在Notredame和Yosemite上是平均的。如图所示，我们使用sH的HyNet损耗优于其他两种解决方案。值得注意的是，CA的直接组合并不显示出优势。我们认为具有线性裕度的三重态损失不能很好地拟合s与d之间的非线性变换，即d = V2(1 - s)，但我们将其留作进一步研究。同时，不同相似度的叠加三重损失也是次优的，这进一步证明了所提出的混合相似度的有效性。

6结论

我们引入了一个名为HyNet的新的深度局部描述符，它的灵感来自对描述符梯度的分析和优化。HyNet进一步受益于一种正则化术语，该术语限制了L2归一化之前的描述符的大小，这是一种混合相似性度量，从正对和负对做出不同的贡献，以及一种新的网络架构，L2归一化中间特征映射。根据经验，HyNet在各种任务上的表现明显优于以前的方法。此外，全面的烧蚀研究揭示了每个提议的组件对其最终性能的贡献。

更广泛的影响

局部特征描述符和基于梯度的优化是立体视觉、增强现实、三维重建、SLAM等技术的重要组成部分。因此，提出的方法提高了这些技术的结果质量，这些技术通常用于各种应用程序，包括智能手机应用程序的图像处理，无人驾驶汽车，机器人技术，AR耳机。它的社会影响潜力在这些应用中，特别是技术的可靠性，这是我们的方法所贡献的。同样，任何伦理问题也与应用程序有关，因为我们的方法不能独立于一个更大的系统使用。

【翻译】HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss相关推荐

文献记录(part22)--Learning local metrics from pairwise similarity data
学习笔记,仅供参考,有错必究关键词:相似函数学习:本地度量学习:最近的邻居分类:面部验证文章目录 Learning local metrics from pairwise similarity d ...
CLIP论文翻译、Learning Transferable Visual Models From Natural Language Supervision翻译
CLIP论文翻译.Learning Transferable Visual Models From Natural Language Supervision翻译文章目录 CLIP论文翻译.Learn ...
[论文翻译] Deep Learning
[论文翻译] Deep Learning 论文题目:Deep Learning 论文来源:Deep learning Nature 2015 翻译人:BDML@CQUT实验室 Deep learnin ...
LF-Net:Learning Local Features from Images
LF-Net: Learning Local Features from Images 主要贡献 1.无监督,利用利用深度和相对的相机姿态线索来创建一个虚拟目标,网络应该在一张图像上实现这个目标.本来 ...
Learning Local Search Heuristics for Boolean Satisfiability 2020-04-30
Learning Local Search Heuristics for Boolean Satisfiability Abstract GNN (select variable) + local s ...
LD（Local descriptor）
LD(Local descriptor)是一种无需序列比对的方法,其效力在很大程度上取决于潜在的氨基酸分类. 1 划分区域首先将每个蛋白质都会划分成10个区域,通过计算10个区域的组成(Comp ...
17.5.8 韦伯局部描述符（Weber's Local Descriptor）
在大多的据不描述符中,Gabor小波和LBP是常见的两种.本文将主要介绍另外一种纹理的描述算子WLD(Weber's Local Descriptor),主要由两部分组成:差励(differentia ...
局部图像描述（weber local descriptor）
一.韦伯定律介绍在黑色的纸上用白色的笔写字比用深色的笔写字更容易被看清,这是因为这种刺激达到了一定的阈值,从而引起了我们的感官刺激.韦伯定律是心理学上描述这一现象的定律(刚萨雷斯的数字图像基础书中, ...
DISK：Learning local features with policy gradient
DISK:Learning local features with policy gradient policy gradient:策略梯度算法,强化学习内容: 发表时间:[Submitted on ...

【翻译】HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss

基于Hybrid Similarity Measure和Triplet Loss的局部描述子学习

【翻译】HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss相关推荐

最新文章

热门文章