Multi-Similarity Loss with General Pair Weighting for Deep Metric Learning 阅读笔记
Motivation
- 度量学习的目的是学习一个嵌入空间,其中相似样本的嵌入向量被鼓励更接近,而不相似的向量则被相互推开。
- 基于配对的度量学习往往会产生大量的配对样本,这些样本是高度冗余的,包括许多无信息的样本。随机抽样的训练可能会被这些冗余的样本所淹没,这大大降低了模型的能力。因此,抽样在基于配对的度量学习中起着关键作用。
- pair-based深度度量学习:损失函数可以用嵌入空间中成对的余弦相似度来表示。对于这些基于配对的方法,训练样本被构建成配对、三联体或四联体,导致训练配对的多项式增长,这些配对是高度冗余的,信息量较小。
- pair-based问题:用随机抽样的训练可能会被冗余的配对所淹没,导致缓慢的融合和性能较差的模型退化。
- 经典pair-based损失:通过对比性损失学习嵌入,鼓励来自正样本的样本更接近,并在嵌入空间中把来自负样本对的样本相互推开。
- Instance weighting:最近的一些对比学习方法只依赖于自身的单个实例加权而进行开发,称为自相似性。
Method
图1:作者提出了一个新的多相似性(MS)损失,通过采样和加权两个步骤实现。MS损失同时考虑了自相似性和相对相似性,这使得模型能够收集和加权信息对,从而提升性能。
General Pair Weighting
作者将度量学习的抽样问题表述为一个统一的加权观点,并提供一个通用的pair weighting(GPW)框架来分析各种基于对的损失函数。
公式1:在t次迭代时,相对于模型参数θ\thetaθ的导数。
公式2:配对加权形式,在第t次迭代时对θ\thetaθ的梯度的计算。
公式3:配对加权形式(展开)。pair{xi,xj}的权重为wi,jpair \left\{x_i,x_j \right\}的权重为w_{i,j}pair{xi,xj}的权重为wi,j。为了区分两个来自不同类别的相似样本,具有高相似度的负样本对被赋予较大的权重,意味着它的信息量更大。
公式4:对比损失,鼓励正数对尽可能地接近,而负数对在一个给定的阈值上彼此分开。
公式5:三元组损失,来学习一个深度嵌入。它强制要求在给定的余量λ内,负数对的相似度要小于随机选择的正数对的相似度。
公式4和公式5都平等地考虑了所有被选择的配对,这限制了它们在被选择的配对中识别更多信息的能力。
公式6:利用了小批量中所有的正负对。
公式7:正样本对的权重。表明一个正样本对的权重是由它的相对相似性决定的,通过与具有相同锚点的剩余正数对进行比较来衡量。
公式8:负样本对的权重
公式9:引入二项式偏差损失。Pi和NiP_i和N_iPi和Ni分别代表正样本对和负样本对的数量。
公式10:通过微分得到权重。
自相似性: 由样本对本身计算出来的。有较大余弦相似度的负样本对意味着更难区分来自不同类别的两个配对样本,这样的配对被称为hard negative pairs,它对学习辨别性特征更有参考价值和意义。
图2:case1中当负样本比较接近时,三个负样本对的权重就会增加。case2:一对样本的相对相似性会下降,即使其自相似性没有变化。这是因为相邻的负样本移动的更近,这增加了相邻样本对的自相似性, 从而降低了相对相似性。case3:当正样本对更接近锚点时,当前样本对的相对相似性就会下降,因此样本对的权重应该相应降低。
negative相对相似性:通过考虑相邻负样本对的关系来计算的,如公式8所示和图2中case2所示。
positive相对相似性:考虑了来自其它正样本对的关系。如图2中case3所示。
Multi-Similarity Loss
通过两个迭代步骤(mining和weighting)来实施一个新的配对加权方案,并考虑以下三个角度:
- 信息丰富的样本对首先通过测量Similarity-P进行采样。
- 然后使用Similarity-S和Similarity-P对所选
Pair mining
作者首先通过计算Similarity-P来选择信息量大的配对,Similarity-P衡量具有相同锚点的负↔正样本对之间的相对相似度。
公式11:一个负样本对与最难匹配的正样本对进行比较
公式12:一个正样本对则通过与具有最大相似度的负样本对进行比较采样。
Pair weighting
公式13、14:样本对的权重由其自相似性共同计算,被认为是二项式偏差损失和提升结构损失的权重公式的组合。
作者通过考虑Similarity-S和Similarity-N,进一步对所选配对进行更准确的加权。
公式15:多相似性损失MS。
Conclusion
- 作者提出了一个通用的加权框架来理解pair-based的损失函数。
- 建立一个通用配对加权(GPW)框架,该框架通过梯度分析将深度度量学习的抽样问题投射到配对加权的统一视图中。
- 提出一个新的损失——多相似性损失(MS Loss),这使得GPW能够充分考虑配对加权的三种相似性,为收集和加权信息量大的配对提供了一种更有原则的方法。
- 为一对图像定义三种类型的相似性:一种自相似性和两种相对相似性。相对相似度是通过与其他配对的比较来计算的。
- 作者的方法旨在计算自相似性和相对相似性,需要在一个局部数据分布中测量多个样本的相关性。
Multi-Similarity Loss with General Pair Weighting for Deep Metric Learning 阅读笔记相关推荐
- Ranked List Loss for Deep Metric Learning | 阅读笔记
Ranked List Loss for Deep Metric Learning | 阅读笔记 这是CVPR2019上一篇度量学习的论文. 摘要 深度度量学习(DML)的目的是学习可以捕获数据点之间 ...
- Improved Deep Metric Learning with Multi-class N-pair Loss Objective论文N-pair loss解读与实现
论文:NIPS2016 Improved Deep Metric Learning with Multi-class N-pair Loss Objective 距离度量学习旨在学习在嵌入空间能够保使 ...
- Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Appr...
Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Appr... ...
- SoftTriple Loss: Deep Metric Learning Without Triplet Sampling
1. Abstract 距离度量学习(DML)用于学习嵌入(特征提取),其中来自同一类别的示例比来自不同类别的示例更接近. 可以将其转换为具有三元约束的优化问题. 由于存在大量三元组约束,因此DML的 ...
- Ranked List Loss for Deep Metric Learning
CVPR2019 度量学习 Ranked List Loss for Deep Metric Learning 原文链接:https://arxiv.org/abs/1903.03238 度量学习在图 ...
- Deep Representation Learning for Trajectory Similarity Computation
Deep Representation Learning for Trajectory Similarity Computation 在本文中,我们提出了一种新的方法,称为t2vec(轨迹到向量),基 ...
- Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记
GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记 最近在跟进多模态的情感分析发现多模态榜一又被刷下来了,这篇 ...
- 【异构图笔记,篇章3】GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding
[异构图笔记,篇章3]GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding 上期回顾 论文信息概览 论 ...
- 《Synchronous Double-channel Recurrent Network for Aspect-Opinion Pair Extraction》阅读笔记
Synchronous Double-channel Recurrent Network for Aspect-Opinion Pair Extraction阅读笔记 1.摘要 探索aspect op ...
- Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function 阅读笔记
Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function 阅读笔记 此篇 ...
最新文章
- 阅读Book: MultiObjective using Evolutionary Algorithms (2) -- Multi-Objective Optimization: 各种解释多目标
- Docker 和 Kubernetes 从听过到略懂:给程序员的旋风教程
- 一、为什么要使用NoSQL数据库
- 机房冷热通道系统整体解决方案
- iOS之多线程的使用和优缺点比较
- 读书笔记:软件人才-管理的艺术
- Fiori Elements的metadata和ui annotation
- 计算机辅助翻译的启示,翻译单位研究对计算机辅助翻译启示.PDF
- 深入理解Tomcat和Jetty源码之第四篇tomcat系统架构上:容器是如何设计的
- 子数组的最大乘积 Maximum Product Subarray
- Fiddler改包场景2——拦截请求,修改响应,放行请求
- 美国python网课免费-去不了USA?那又怎样?美国名校网课免费学!
- EMNLP2020文档级关系抽取模型GLRE 论文Global-to-Local Neural Networks for Document-Level Relation Extraction
- 阶段1 语言基础+高级_1-3-Java语言高级_09-基础加强_第3节 注解_16_注解_自定义注解_元注解...
- 五个典型的 JavaScript 面试题
- 90天吃透阿里P8推荐的625页Java编程兵书pdf,直接入职阿里定级P6
- 漫谈可视化Prefuse(五)---一款属于我自己的可视化工具
- 程序猿生存指南-15 领导视察
- 多维数据库概述之一---多维数据库的选择
- 聊聊Web App、Hybrid App与Native App的设计差异