Multi-Similarity Loss with General Pair Weighting for Deep Metric Learning 阅读笔记

Motivation

度量学习的目的是学习一个嵌入空间，其中相似样本的嵌入向量被鼓励更接近，而不相似的向量则被相互推开。
基于配对的度量学习往往会产生大量的配对样本，这些样本是高度冗余的，包括许多无信息的样本。随机抽样的训练可能会被这些冗余的样本所淹没，这大大降低了模型的能力。因此，抽样在基于配对的度量学习中起着关键作用。
pair-based深度度量学习：损失函数可以用嵌入空间中成对的余弦相似度来表示。对于这些基于配对的方法，训练样本被构建成配对、三联体或四联体，导致训练配对的多项式增长，这些配对是高度冗余的，信息量较小。
pair-based问题：用随机抽样的训练可能会被冗余的配对所淹没，导致缓慢的融合和性能较差的模型退化。
经典pair-based损失：通过对比性损失学习嵌入，鼓励来自正样本的样本更接近，并在嵌入空间中把来自负样本对的样本相互推开。
Instance weighting：最近的一些对比学习方法只依赖于自身的单个实例加权而进行开发，称为自相似性。

Method

图1：作者提出了一个新的多相似性（MS）损失，通过采样和加权两个步骤实现。MS损失同时考虑了自相似性和相对相似性，这使得模型能够收集和加权信息对，从而提升性能。

General Pair Weighting

作者将度量学习的抽样问题表述为一个统一的加权观点，并提供一个通用的pair weighting（GPW）框架来分析各种基于对的损失函数。

公式1：在t次迭代时，相对于模型参数θ\thetaθ的导数。

公式2：配对加权形式，在第t次迭代时对θ\thetaθ的梯度的计算。

公式3：配对加权形式（展开）。pair{xi,xj}的权重为wi,jpair \left\{x_i,x_j \right\}的权重为w_{i,j}pair{xi,xj}的权重为wi,j。为了区分两个来自不同类别的相似样本，具有高相似度的负样本对被赋予较大的权重，意味着它的信息量更大。

公式4：对比损失，鼓励正数对尽可能地接近，而负数对在一个给定的阈值上彼此分开。

公式5：三元组损失，来学习一个深度嵌入。它强制要求在给定的余量λ内，负数对的相似度要小于随机选择的正数对的相似度。
公式4和公式5都平等地考虑了所有被选择的配对，这限制了它们在被选择的配对中识别更多信息的能力。

公式6：利用了小批量中所有的正负对。

公式7：正样本对的权重。表明一个正样本对的权重是由它的相对相似性决定的，通过与具有相同锚点的剩余正数对进行比较来衡量。

公式8：负样本对的权重

公式9：引入二项式偏差损失。Pi和NiP_i和N_iPi和Ni分别代表正样本对和负样本对的数量。

公式10：通过微分得到权重。

自相似性： 由样本对本身计算出来的。有较大余弦相似度的负样本对意味着更难区分来自不同类别的两个配对样本，这样的配对被称为hard negative pairs，它对学习辨别性特征更有参考价值和意义。

图2：case1中当负样本比较接近时，三个负样本对的权重就会增加。case2：一对样本的相对相似性会下降，即使其自相似性没有变化。这是因为相邻的负样本移动的更近，这增加了相邻样本对的自相似性，从而降低了相对相似性。case3：当正样本对更接近锚点时，当前样本对的相对相似性就会下降，因此样本对的权重应该相应降低。

negative相对相似性：通过考虑相邻负样本对的关系来计算的，如公式8所示和图2中case2所示。
positive相对相似性：考虑了来自其它正样本对的关系。如图2中case3所示。