论文笔记之: Deep Metric Learning via Lifted Structured Feature Embedding
Deep Metric Learning via Lifted Structured Feature Embedding
CVPR 2016
摘要:本文提出一种距离度量的方法,充分的发挥 training batches 的优势,by lifting the vector of pairwise distances within the batch to the matrix of pairwise distances. 刚开始看这个摘要,有点懵逼,不怕,后面会知道这段英文是啥意思的。
引言部分开头讲了距离相似性度量的重要性,并且应用广泛。这里提到了三元组损失函数 (triplet loss),就是讲在训练的过程当中,尽可能的拉近两个相同物体之间的距离,而拉远不同物体之间的距离;这种做法会比普通的训练方法得到更好的效果。但是,文章中提到,现有的三元组方法却无法充分利用 minibatch SGD training 的 training batches 的优势。现有的方法首先随机的采样图像对或者三元组,构建训练 batches, 计算每一个 pairs or triplets 的损失。本文提出一种方法,称为:lifts,将 the vector of pairwise distances 转换成 the matrix of pairwise distance. 然后在 lifts problem 上设计了一个新的结构损失目标。结果表明,在 GoogleLeNet network 上取得了比其他方法都要好的结果。
然后作者简单的回顾了一下关于判别性训练网络(discriminatively training networks)来学习 semantic embedding。大致结构预览图如下所示:
首先是: Contrastive embedding.
这种方法在 paired data ${(x_i, x_j, y_{ij})}$上进行训练。这种 contrastive training 最小化具有相同 label 类别的样本之间的距离,然后对不同label的样本,但是其距离小于 $\alpha$ 的 negative pair 给予惩罚。代价函数的定义为:
其中,m 代表batch中图像的个数,f(*)是网路输出的特征,即原文中表达的:the feature embedding output from the network. $D_{i, j}$ 是两个样本特征之间欧式距离的度量。标签 $y_{i, j} \in {0, 1}$表明是否样本对来自同一个类别。$[*]_+$ 操作是 the hinge function max(0, *)。
第二个是:Triplet embedding。
这个就是著名的三元组损失函数了,即:找一个 anchor,然后找一个正样本,一个负样本。训练的目的就是:鼓励网络找到一个 embedding 使得 xa and xn 之间的距离大于 xa and xp 加上一个 margin $\alpha$ 的和。损失函数定义为:
其中,D仍然表示样本之间特征的距离。
然后就是本文提出的一种度量方法了:
Deep metric learning via lifted structured feature embedding.
我们基于训练集合的正负样本,定义了一个结构化的损失函数:
其中,P 是正样本的集合,N 是负样本的集合。这个函数提出了两个计算上的挑战:
1. 非平滑(non-smooth)
2. 评价和计算其子梯度需要最小化所有样本对若干次。
我们以两种方式解决了上述挑战:
首先,我们优化上述函数的一个平滑上界;
第二,对于大数据常用的方法类似,我们采用随机的方法。
然而,前人的工作都是用SGD的方法,随机的均匀的选择 pairs or triplets。我们的方法从这之中得到了借鉴:
(1). it biases the sample towards including "difficult" pairs, just like a subgradient of $J_{i,j}$ would use the close negative pairs;
(2). 一次采样就充分的利用了一个 mini-batch的全部信息,而不仅仅是两个pair之间的信息。
为了充分的利用这个 batch,一个关键的 idea 是增强 mini-batch 的优化以利用所有的pairs。
需要注意的是:随机采样的样本对之间的 negative edges 携带了非常有限的信息。
所以,我们的方法改为并非完全随机,而是引入了重要性采样的元素。我们随机的采样了一些 positive pairs,然后添加了一些他们的 difficult neighbors 来训练 mini-batch. 这个增强增加了子梯度会用到的相关信息。下图展示了一个 positive pair 在一个 batch 中的搜索过程,即:在一个 positive pair 的图像中,我们找到其 close(hard)negative images。
注意到我们的方法可以从两端开始搜索,而三元组则仅仅只能和定义好的结构上的元素进行搜索。
此外,搜索 single hardest negative with nested max function 实际上会导致网络收敛到一个 bad local optimum. 所以我们采用了如下的 smooth upper bound,所以 我们的损失函数定义为:
其中,P是batch中 positive pairs 集合,N 是negative pairs 的集合。后向传播梯度可以如算法1所示的那样,对应距离的梯度为:
其中的 1[*] 是指示函数,如果括号内的判断为真,那么输出为1,否则就是0.
本文的算法流程图,如下所示:
结果展示:
文章总结:
可以看出,本文是在三元组损失函数基础上的一个改进。并非仅仅考虑预先定义好的样本之间的差异性,而是考虑到一个 batches 内部 所有的样本之间的差异。在这个过程中,文章中引入了类似 hard negative mining 的思想,考虑到正负样本之间的难易程度。并且为了避免网络的训练陷入到 局部最优的bug中去,引入了损失函数的上界来缓解这个问题。
一个看似不大的改动,却可以发到CVPR,也从某个角度说明了这个方法的价值。
难道,三元组损失函数就这样被这个算法击败了? 自己当初看到三元组损失函数的时候,为什么就没有忘这个方向去思考呢???
还有一个疑问是:为什么这种方法的操作,称为:lifted structured feature embedding ?
难道说,是因为这个左右移动的搜索 hard negative samples 的过程类似于电梯(lift)?那 feature embedding 怎么理解呢? embedding 是映射,难道是:特征映射么??
论文笔记之: Deep Metric Learning via Lifted Structured Feature Embedding相关推荐
- 论文笔记:Deep Residual Learning
之前提到,深度神经网络在训练中容易遇到梯度消失/爆炸的问题,这个问题产生的根源详见之前的读书笔记.在 Batch Normalization 中,我们将输入数据由激活函数的收敛区调整到梯度较大的区域, ...
- 【论文笔记】Deep Reinforcement Learning Control of Hand-Eye Coordination with a Software Retina
目录 Abstract Keywords 1. INTRODUCTION 2. BACKGROUND A. Software Retina B. Deep Reinforcement Learning ...
- 【论文笔记】Deep Reinforcement Learning for Robotic Pushing and Picking in Cluttered Environment
目录 Abstract I. INTRODUCTION II. RELATED WORK III. SYSTEM OVERVIEW IV. ARCHITECTURE A. Robotic Hand S ...
- 度量学习 度量函数 metric learning deep metric learning 深度度量学习
曼哈顿距离(CityBlockSimilarity) 同欧式距离相似,都是用于多维数据空间距离的测度. 欧式距离(Euclidean Distance) 用于衡量多维空间中各个点之间的绝对距离.欧式距 ...
- 深度度量学习 (metric learning deep metric learning )度量函数总结
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qq_16234613/article/ ...
- Ranked List Loss for Deep Metric Learning | 阅读笔记
Ranked List Loss for Deep Metric Learning | 阅读笔记 这是CVPR2019上一篇度量学习的论文. 摘要 深度度量学习(DML)的目的是学习可以捕获数据点之间 ...
- Improved Deep Metric Learning with Multi-class N-pair Loss Objective论文N-pair loss解读与实现
论文:NIPS2016 Improved Deep Metric Learning with Multi-class N-pair Loss Objective 距离度量学习旨在学习在嵌入空间能够保使 ...
- Deep Metric Learning for Person Re-Identification
Deep Metric Learning for Person Re-Identification (ICPR2014,中国科学院自动化研究所模式识别国家重点实验室:Dong Yi, Zhen Lei ...
- 【论文翻译】Deep Residual Learning for Image Recognition
[论文翻译]Deep Residual Learning for Image Recognition [论文题目]Deep Residual Learning for Image Recognitio ...
最新文章
- JavaScript之function类型
- icps -lm 命令与 shmmax 的关系
- 安卓mysql导出excel_Android开发实现的导出数据库到Excel表格功能【附源码下载】...
- libuv 原理_Libuv初理解
- Android系统(62)---Alarm的机制
- 可视化数据展示工具ChatSQL
- ViT (Vision Transformer) ---- SimpleRNN + Attention
- JZ5-用两个栈实现队列
- Jason与Xml的解析过程
- Linux进程内核栈与thread_info结构详解--Linux进程的管理与调度(九)
- Hive表中加载数据的5中方式
- 杰奇2.4珊瑚模板简繁转换出现乱码怎么解决
- 腾讯云轻量应用服务器(免费内测)开箱测评
- 《零秒工作》的一些总结
- python大数据书籍推荐-清华大学出版社-图书详情-《从零开始学Python大数据与量化交易》...
- 免校准的电量计量芯片_免校准电能计量芯片,让家电智能化更简单
- 解决MATLAB2018b打开m文件后注释乱码的问题
- IntelliJ IDEA 2018.3 安装、永久破解及新特性说明
- 微服务架构下的软件测试实践
- Hey UI源码市场
热门文章
- winform界面嵌入dwg图纸_c# cad中插入另一个dwg的图块
- mysqlclient==1.3.7对应mysql版本_Python通过MySQLdb访问操作MySQL数据库
- python有哪些插件_Python和它高大上的插件们
- 学python不会英语怎么办_Python学习 英语不好怎么办?这里有官方中文文档你看不看...
- spring的Aop使用问题
- mybatis自动扫描注解
- 笔记-中项案例题-2021年上-范围管理
- Python 工具链让你写的代码更规范
- 软件项目管理的十大定律之说明
- SpringBoot+Swagger2常用注解