自监督对比学习

 本篇承接前一篇自监督对比学习的介绍自监督对比学习系列论文(一):无引导对比学习–MOCO,SimCLR,这次主要关注于包含先验指导的对比学习,这一指导更进一步的可以区分为聚类指导以及标签指导两种类型。前者给出数据集的基本结构–即数据可以大致划分为 K K K个类别,但如何划分,依据什么样的特征或者目标进行划分并没有给出,需要通过聚类的方式自行学习。而基于标签指导的对比学习则显式的给出了instance的标签,迫使同类样本在特征空间上的距离得以保留。

聚类对比学习

 聚类对比学习的思路相交于instance-wise contrastive learning而言,笔者认为是更为合理更为深入的。聚类对比学习的基础同样是认为每个instance可以认为是单独的一类,但在此基础之上,我们并不能否认某些类应当是更为亲密、而某些类则应当较为疏远,典型的例子如下:

instace-wise对比学习倾向于学到的是左边的的特征空间,但对于同类“狗”样本而言,即使是负样本,也应该和正样本更为亲密,由此诞生出了聚类对比学习。由于没有先验标签指导,只能通过聚类的形式来判断样本在语义上的一致性,进行有偏好的特征空间构造。而另一方面,针对于反例构造中性能与开销的抉择问题,聚类对比学习可以通过计算group层面的相似性来减少instance层面的开销,便于模型训练。

SCCL

 SCCL其实并不算是完全的聚类对比学习,而是对比监督学习,也就是利用对比学习的范式来完成聚类问题,其思路也非常的简单粗暴。既然instance-wise 对比学习可以实现将每个样本推开,同时又隐式的将相似样本的距离拉近(这一点存疑),那么完全可以借助这一特性来将那些较为重叠(集群)的样本们分散开来,从而形成簇。实现方式也非常的直接,就是在simCLR的框架上额外增加了一个聚类头,如下图所示:

同样是在 N N N张图片组成的batch内,针对每个样本都产生1个正例和 2 N − 1 2N-1 2N−1个反例,利用infoNCELoss来训练模型。不同之处就在于Clustering Head的设计,实际上这个聚类头也是比较典型的设计,常见于深度聚类算法之中,意图用用可训练的方式来寻找数据数据的潜在分布。具体而言是先假定数据可以被划分为 K K K类,并且初始化 K K K个聚类中心,然后利用假定每个簇内的数据分布都符合 t t t分布,由此计算样本 e j e_j ej​从属于第 k k k类的概率如下:
q j k = ( 1 + ∣ ∣ e j − μ k ∣ ∣ 2 2 / α ) − α + 1 2 ∑ k ′ = 1 K ( 1 + ∣ ∣ e j − μ k ′ ∣ ∣ 2 2 / α ) − α + 1 2 q_{jk}=\frac{(1+||e_j-\mu_k||^2_2/\alpha)^{-\frac{\alpha+1}{2}}}{\sum_{k'=1}^{K}(1+||e_j-\mu_k'||^2_2/\alpha)^{-\frac{\alpha+1}{2}}} qjk​=∑k′=1K​(1+∣∣ej​−μk′​∣∣22​/α)−2α+1​(1+∣∣ej​−μk​∣∣22​/α)−2α+1​​
由此就得到了条件概率(软分类) P ( K ∣ q j ) P(\bold{K}|q_j) P(K∣qj​)。传统的聚类方法如k-Means想要优化的是簇内聚类和簇间聚类,而在深度聚类里我们则希望实现分布的近似,想要加强簇的纯净程度,这一目标分布如下:
p j k = q j k 2 / f k ∑ k ′ q j k 2 / f k ′ p_{jk}=\frac{q^2_{jk}/f_k}{\sum_{k'}q^2_{jk}/f_{k'}} pjk​=∑k′​qjk2​/fk′​qjk2​/fk​​
其中 f k − ∑ j = 1 N q j k f_k-\sum_{j=1}^{N}q_{jk} fk​−∑j=1N​qjk​,聚类头只对原始的输入进行计算,不对变换后的图片进行计算。这一目标分布具有三个特点:

  1. strengthen predictions
  2. 更加强调高置信度的数据点
  3. 使得每个聚类中心对于模型训练都有贡献

首先通过抬升概率的阶数使得分布更加的尖锐,然后通过簇置信度的归一化来消除大簇对于小簇的影响(实际上这一函数的具体数学原理真没看懂)。而后通过优化 q j k , p j k q_{jk},p_{jk} qjk​,pjk​的KL散度,使得前者逼近后者我们就可以使得模型学到一个更高置信度的分配方案,也就是:
l j C = K L [ p j ∣ ∣ q j ] = ∑ k = 1 K p j k l o g p j k q j k l^C_j=KL[p_j||q_j]=\sum_{k=1}^Kp_{jk}log \frac{p_{jk}}{q_{jk}} ljC​=KL[pj​∣∣qj​]=k=1∑K​pjk​logqjk​pjk​​
将聚类损失和对抗损失结合一起来优化网络训练即可得到一个不错的聚类模型。文章后面也讨论了是否要将聚类和对抗结合在一起joint 训练还是先用对抗损失训练再用聚类损失训练,实验证明前者效果更好
 实际上这块聚类头的意思感觉上有点像semi-supervised learning里的pseduo-labeling策略,反倒和聚类没有那么的类似,具体可以去看看UDA以及SSL领域的的文章Unsupervised Domain Adaption (UDA)及domain shift介绍。虽然这个聚类头在很多深度聚类文章里都有应用,但总感觉不是很像聚类。

SwAV

 SwAV的motivation来自于聚类对比学习的第二个优点,即利用group层面的prototype来减小过多负例计算带来的开销。更精确来说,SwAV里其实完全去除了负例的概念,仅仅使用来正例来进行模型的训练,但正例训练的目标不再是简单的拉近正例对在特征空间中的距离,而是拉近二者在标签上的分布,用文章的表述来说,“从图像的一个增强版本中计算一个代码,再利用图像的其他增强版本来预测这个代码”,这里“代码”的物理含义就是图像从属于不同簇的软标签。

online clustering

 具体而言,首先从给定的一张图片得到 N N N张变换后的图片,然后对于某张图片,经特征提取后我们从特征相似性的角度可以计算其某一变换图 x t x_t xt​从属于不同簇的概率分布情况:
p t k = e x p ( 1 τ z t T c k ) ∑ k ′ = 1 K e x p ( 1 τ z t T c k ′ ) p^{k}_t=\frac{exp(\frac{1}{\tau}z_t^Tc_k)}{\sum_{k'=1}^{K}exp(\frac{1}{\tau}z_t^Tc_k')} ptk​=∑k′=1K​exp(τ1​ztT​ck′​)exp(τ1​ztT​ck​)​
同时先前图像一个增强版本的代码则通过设计一个最优化分配方案得到,这一最优化分配方案要求同一个BATCH内的样本能够被较为均匀的的分配到不同的簇中,避免出现平凡解。假定输入BATCH的图像特征可以通过一个mapping Q Q Q转换到簇空间,这样我们的目的就变成了优化 Q Q Q来最大化特征和簇之间的距离:
m a x Q ∈ Q T r ( Q T C T Z ) + ϵ H ( Q ) \underset{Q\in\mathbb{Q}}{max}\ Tr(Q^TC^TZ)+\epsilon H(Q) Q∈Qmax​ Tr(QTCTZ)+ϵH(Q)
其中 H ( Q ) = − ∑ i j Q i j l o g Q i j H(Q)=-\sum_{ij}Q_{ij}logQ_{ij} H(Q)=−∑ij​Qij​logQij​是熵正则项,而对于 Q Q Q的选取有一额外约束,要求BATCH中每个样本要被利用一次,每个簇也要被选中一次1,即:
Q = Q ∈ R + K × B ∣ Q l B = 1 K l K , Q l K = 1 B l B \mathbb{Q}={Q\in R_+^{K\times B}|Q\mathbf{l}_B=\frac{1}{K}\mathbf{l}_K,Q\mathbf{l}_K=\frac{1}{B}\mathbf{l}_B} Q=Q∈R+K×B​∣QlB​=K1​lK​,QlK​=B1​lB​
这一问题其实是最优化运输里常见的问题,可以通过sinkhron算法来解决2,解得Q的最优可行解为一迭代形式,即对如下式进行不断迭代直到收敛:
Q ∗ = D i a g ( u ) e x p ( C T Z ϵ ) D i a g ( v ) Q^*=Diag(u)exp(\frac{C^TZ}{\epsilon})Diag(v) Q∗=Diag(u)exp(ϵCTZ​)Diag(v)
其中 D i a g ( u ) , D i a g ( v ) Diag(u),Diag(v) Diag(u),Diag(v)实际上就是在对矩阵进行行、列归一化。
 总体而言,SwAV的计算可以规范为如下几个步骤:

  1. 选取一张图片的两张变换后图片并进行特征提取得到 z t , z s z_t,z_s zt​,zs​
  2. 在BATCH层面内依据前述优化约束问题的解求得图像 x s x_s xs​的code, q s q_s qs​
  3. 计算簇和图像特征的相似性来计算 x t x_t xt​的code, p t p_t pt​
  4. 优化 q t q_t qt​和 q s q_s qs​间的距离(以 q s q_s qs​为标签计算交叉熵): l ( z t , q s ) = − ∑ k q s k l o g ( p t k ) l(z_t,q_s)=-\sum_{k}q_s^klog(p_t^k) l(zt​,qs​)=−∑k​qsk​log(ptk​)
  5. 交换 x t , x s x_t,x_s xt​,xs​的code计算方式,重复2~4
     实际上笔者也没太明白为什么要用两种不同的方式来计算code,而且从计算方式来看,明显是决定通过优化方案计算得到的code更为靠谱,更适合作为一个pseduo label来指导聚类的进行。

Multi Crop

 除了online clustering之外,SwAV还提出了一种图像增强的方式,mutli crop,也就是从原图中截取一系列低分辨率的局部图像作为一种补充view。在此基础之上,SwAV隐性的将不同增强图进行了划分,2张全分辨率的corp信息更多,用于计算优化得到code;V张低分辨率crop信息少,只计算聚类crop,因此总的损失函数变为:
L ( z t 1 , z t 2 , . . . , z t v + 2 ) = ∑ i ∈ 1 , 2 ∑ v = 1 V + 2 l v ≠ i l ( z t v , q s ) L(z_{t1},z_{t2},...,z_{t_{v+2}})=\sum_{i\in{1,2}}\sum_{v=1}^{V+2}\mathbf{l}_{v\neq i}l(z_{tv},q_s) L(zt1​,zt2​,...,ztv+2​​)=i∈1,2∑​v=1∑V+2​lv=i​l(ztv​,qs​)

小结

 总得来看,SwAV的思路是很优秀的,巧妙的解决了传统聚类需要利用全部样本进行的不足,用一种类似于pseduo labeling的方式实现了每个BATCH内的聚类。但这里通过解决最优分配问题求得code存在一个很强的先验–同一个BATCH内的样本应当被均匀分配到clusetr中,即簇的大小应当是接近的,但在实际存在长尾分布问题的数据集中,这一assumption显然是不成立的,求得code能否再指导聚类也存疑。

PCL

 PCL的设计思路就是聚类对比学习的另一条方向,希望能够利用语义信息来帮助模型更好的进行特征提取。其目的就是利用聚类作为某种程度的正则项来保证样本在语义空间上的结构不被破坏,相似类的样本仍然相近。其基本框架仍然是MOCO,只是附加了聚类约束:

首先从EM算法入手,最大似然角度出发,优化的目的是最大化已观测样本的出现概率,再假定样本背后存在着隐变量(原型)的情况下,可以写成:

由jensen不等式可得其下界满足:

忽略掉常数项,我们最终的优化目标是:

E-step

 E-step中我们要对momentum encoder得到的图像特征向量进行k-means聚类,得到 k k k个聚类中心,并且记录下每个样本的“硬类别”也就是 p ( x i ; c i , θ ) p(x_i;c_i,\theta) p(xi​;ci​,θ)

M-step

 M-step中我们在E-step求得的条件分布基础之上优化最大似然函数:

给出两个强先验:

  1. 簇选取的先验分布是均匀的

  2. 已知簇后,样本的条件分布是各项同性高斯分布;

同时假定提取出的图像特征和聚类中心都已经经过了归一化,我们的最优解可以写做:

感性上理解仍然是类似于softmax函数,对于给定的图像 x i x_i xi​以及由聚类得到的类别 s s s,我们希望最小化其交叉熵, j j j为其余类别。

 实践中为了得到不同层次的聚类效果,我们进行 M M M次不同簇数目的聚类,得到M个聚类正则项以保证图像语义空间的临近结构;将这一目标和infoCEloss结合以保证特征空间的局部平滑并促进聚类进程,我们可以得到如下损失函数ProtoNCE:

其中的 r r r为从memory bank里抽取的负样本数目, c j m c^m_j cjm​为对应负样本在当前聚类策略下的聚类中心。

concentration estimation

 ProtoNCE中有一个温度项 ϕ \phi ϕ,用于衡量簇的紧密程度,值越小表面对应的簇越紧密,通过该簇中包含样本特征到聚类中心距离得到:

这一参数的加入使得簇的大小更加的平均,实验也证明了这一点。

小结

 其实感觉上这篇论文写的不是很连贯,聚类和最大似然的联系在哪解释的不是很清楚(可能是EM算法的原理), M-step里 p ( x i ; c i ) p(x_i;c_i) p(xi​;ci​)怎么得到的也没太懂,后续为什么随机采集 r r r个负样本对应的聚类中心也可以计算这个式子也不懂。只能大概理解算是给infoNCE加了个聚类的正则项来保留语义空间的结构。

有监督对比学习

 有监督对比学习在聚类对比学习的基础上再往前走了一步,由于我们可以显式的获取标签,那么直接使用标签来约束特征空间的结构,使得同类样本更为接近即可。一个较为简单的方式就是将同类样本也视作为正例,而不再和instance wise一般将除样本本身之外的instance都认为是负样本,这样就可以得到supervised contrastive loss:

其中 P ( i ) = { p ∈ A ( i ) ; y ^ p = y ^ i } P(i)={p\in A(i);\hat{y}_p=\hat{y}_i} P(i)={p∈A(i);y^​p​=y^​i​},也就是Batch内的同类样本,这两种形式的有监督对比损失区别在于log运算的顺序,考虑到log本身是个凹函数,这两个损失并不等价,由jensen不等式可知 L i n s u p ≤ l s u p o u t L_{in}^{sup}\leq l_{sup}^{out} Linsup​≤lsupout​,实验也证明了后者会是个更好的损失函数。
 这一篇论文其实改进不大,但在ImageNet上也算有用,涨了个点。

论文

Supporting Clustering with Contrastive Learning
Unsupervised Learning of Visual Features by Contrasting Cluster Assignments
Prototypical Contrastive Learning of Unsupervised Representations
Supervised Contrastive Learning

参考


  1. 【研一小白论文精读】SwAV ↩︎

  2. Notes on Optimal Transport ↩︎

自监督对比学习系列论文(二):有引导对比学习--SCCL,SwAV,PCL,SupervisedCon相关推荐

  1. Java命令学习系列(二)——Jstack

    转载自 Java命令学习系列(二)--Jstack jstack是java虚拟机自带的一种堆栈跟踪工具. 功能 jstack用于生成java虚拟机当前时刻的线程快照.线程快照是当前java虚拟机内每一 ...

  2. oracle用dual创建临时表,Oracle 学习系列之二(会话与事务级临时表和dual表 )

    一. 会话临时表 --创建会话临时表 create global temporary table tmp_user_session(user_id int, user_name varchar2(20 ...

  3. libev学习系列之二:libev下载

    libev学习系列之二:libev下载 版本说明 版本 作者 日期 备注 0.1 ZY 2019.5.31 初稿 目录 文章目录 libev学习系列之二:libev下载 版本说明 目录 官网 GitH ...

  4. 软考高级系统架构设计师系列论文二:论软件的性能优化设计

    软考高级系统架构设计师系列论文二:论软件的性能优化设计 一.摘要 二.正文 三.总结 一.摘要 本文结合我2008年在某人民银行实施的E户通电子转账系统的经历,就软件的性能优化设计进行了详细讨论.在系 ...

  5. 强化学习系列文章(二十七):VPG+Beta分布在CartPoleContinuous环境中的应用

    强化学习系列文章(二十七):VPG+Beta分布在CartPoleContinuous环境中的应用 在第七篇笔记(https://blog.csdn.net/hhy_csdn/article/deta ...

  6. 强化学习系列文章(二十三):AirSim Python API图像与图像处理

    强化学习系列文章(二十三):AirSim Python API图像与图像处理 参考网址:https://microsoft.github.io/AirSim/image_apis/#segmentat ...

  7. 强化学习系列文章(二十八):进化强化学习EvoRL的预实验

    强化学习系列文章(二十八):进化强化学习EvoRL的预实验 最近在研究强化学习解决离散空间的组合优化问题时,接触到了很多进化算法,实际体验也是与RL算法不相上下.进化算法也常用于优化神经网络的参数,C ...

  8. 强化学习系列(1):强化学习(Reinforcement Learning)

    强化学习前世今生 也可以直接查看本博主强化学习专栏的简介: https://blog.csdn.net/gsww404/article/details/79763003 [直接点击查看完整版] 如今机 ...

  9. 强化学习系列(一):强化学习简介

    一.强化学习是什么? 首先,我们思考一下学习本身,当一个婴儿在玩耍时可能会挥舞双手,左看右看,没有人来指导他的行为,但是他和外界直接通过了感官进行连接.感知给他传递了外界的各种信息,包括知识等.学习的 ...

最新文章

  1. 瀑布式开发与敏捷开发的区别是什么
  2. KOFLive Beta Daily-Scrum 8
  3. iOS Hacker 越狱后开发和逆向工具准备
  4. Activity内嵌Fragment,当Activity recreate时Fragment被添加多次,造成相互遮盖
  5. 数据结构——绪论以及线性表的顺序表示
  6. 如何获取codeforces的完整数据
  7. android5.1 投影显示器,5.1.1投影—投影与中心投影(一).ppt
  8. 计算机应用操作题word,计算机应用基础网考模拟练习题Word部分操作题
  9. python循环绘制六角星_《Python游戏趣味编程》 第3章 美丽的圆圈画
  10. 【报告分享】2021企业营销数字化转型研究报告.pdf(附下载链接)
  11. iis6 服务器做301跳转返回状态码200解决方法。
  12. 20160220 - JavaScript for OS X Automation 调试技巧
  13. Java UDP 客户端服务器程序示例
  14. 高维数据可视化之t-SNE算法
  15. SpringMVC学习日记总结
  16. 程序员持续记录开始赚钱之旅 (第二十一篇)
  17. 趣商宝微信招生方案 ,线上招生难,十大绝招帮您搞定微信吸粉!
  18. qq邮箱中的发件服务器是什么格式,qq邮箱的SMTP服务器是什么
  19. 科学论文类型分类(letter, perspective, focus, article)以及影响引子,SCI、EI等
  20. Android防劫持

热门文章

  1. GroundTrue和里程计输出的位姿的参考坐标系不一致的情况
  2. din70121、ISO15118、SAE J1772、充电桩方案、欧标充电桩、V2G
  3. 洛谷P4390 [BOI2007]Mokia 摩基亚 题解
  4. React Native: Unexpected token ‘:‘. Expected a ‘)‘ or a ‘,‘ after a parameter declaration
  5. 单纯形法解下列线性规划问题_用单纯形法求解下列线性规划问题 线性规划单纯形法教学策略探求...
  6. Dcat-Admin提示上传文件过大
  7. OLAP 数据分析系统实现方案
  8. 【Angular】—— TypeScript问号的奇特用法
  9. Play with MAAS (by quqi99)
  10. Docker可视化工具:Portainer可视化面板安装