论文阅读 (68):Self-Contrastive Learning: An Efficient Supervised Contrastive Framework with Single...
文章目录
- 1 引入
- 1.1 题目
- 1.2 摘要
- 1.3 Bib
- 2 自对比学习
- 2.1 SupCon损失
- 2.2 SelfCon损失
1 引入
1.1 题目
2021自对比学习:单视图和子网络下的高效有监督对比框架 (Self-contrastive learning: An efficient supervised contrastive framework with single-view and sub-network)
1.2 摘要
提出了一个高效的有监督对比学习框架,称为自对比学习 (Self-contrastive (SelfCon) learning),以在来自多输出网络 (Multi-exit network) 的不同级别的多个输出中进行自对比。单视角下的自对比学习无需额外的增强样本,这使得它解决了多视图下批处理的一些问题,例如,高计算成本和泛化错误。与先前基于无监督学习多视图之间互信息 (Mutual information, MI) 的方法不同:
1)在有监督单视图框架下证明了SelfCon损失的MI界限;
2)实证分析了自对比学习的成功与来自单视图和子网络下的正则化效果有关。
1.3 Bib
@article{Bae:2021:self,
author = {Sangmin Bae and Sungnyun Kim and Jongwoo Ko and Gihun Lee and Seungjong Noh and Se-Young Yun},
title = {Self-contrastive learning: {A}n efficient supervised contrastive framework with single-view and sub-network},
journal = {arXiv:2106.15499},
year = {2021}
}
2 自对比学习
首先定义编码器结构,令 F F F表示骨架网络; G G G表示子网络,其将骨架的参数共享到某个中间层。令 T T T表示产生中间特征的共享层。注意 F F F和 G G G包括编码器后的投影头。如图1所示,锚样本 (Anchor sample) 的正负对分别使用绿色和红色突出显示。
图1:不同学习框架在增强和架构方面的比较。SubCon和SelfCon均使用与正对具有相同真实标签的所有样本。在三种方法中,每个输出看作是锚特征。特别地,在 (b) 和 (c) 中,来自主干网络的锚点与来自主干网络的其他特征以及来自子网络的特征进行对比
2.1 SupCon损失
为了缓解交叉熵损失的不足,例如泛化性能降低和利润率不佳的可能性,Khosla等人提出了一个对比损失的有监督版本,其定义正对为具有相同真实标签的样本。重新制定的SubCon损失如下:
L s u p = ∑ i ∈ I [ − 1 ∣ P i ∣ ∑ p ∈ P i F ( x i ) T F ( x p ) + log ( ∑ p ∈ P i e F ( x i ) T F ( x p ) + ∑ n ∈ N i e F ( x i ) T F ( x n ) ) ] I ≡ { 1 , … , 2 B } , P i ≡ { p ∈ I ∖ { i } ∣ y p = y i } , N i ≡ { n ∈ I ∣ y n ≠ y i } (1) \tag{1} \begin{array}{ll} \mathcal{L}_{sup}=& \sum\limits_{i\in I}\Bigg[-\frac{1}{|P_i|}\sum\limits_{p\in P_i}F(x_i)^TF(x_p)\\ &+\log\left(\sum\limits_{p\in P_i}e^{F(x_i)^TF(x_p)}+\sum\limits_{n\in N_i}e^{F(x_i)^TF(x_n)}\right)\Bigg]\\ &I\equiv\{1,\dots,2B\},\\ &P_i\equiv\{p\in I\setminus\{i\}|y_p=y_i\},\\ &N_i\equiv\{n\in I|y_n\neq y_i\} \end{array} Lsup=i∈I∑[−∣Pi∣1p∈Pi∑F(xi)TF(xp)+log(p∈Pi∑eF(xi)TF(xp)+n∈Ni∑eF(xi)TF(xn))]I≡{1,…,2B},Pi≡{p∈I∖{i}∣yp=yi},Ni≡{n∈I∣yn=yi}(1)其中 B B B是批次大小。为了简洁,温度参数 τ \tau τ被省略,其用于软化或者硬化softmax值,以及省略了锚样本求和的除数常量 1 / ∣ I ∣ 1/|I| 1/∣I∣。 I I I表示用于多时间批处理的索引的集合,其连接了原始的 B B B个图像和增量图像,即 x B + i x_{B+i} xB+i是 x i x_i xi的一个增量对。 P i P_i Pi和 N i N_i Ni是屈服于锚点 i i i的正负对索引的集合。公式1是分类交叉熵的一种,第一项包含正对,第二项包含所有的正负对。当 P i ≡ { ( i + B ) m o d 2 B } P_i\equiv\{(i+B)mod\ 2B\} Pi≡{(i+B)mod 2B}时该公式等价于NT-Xent损失。
2.2 SelfCon损失
我们的目标是最大化骨架网络与子网络输出之间的相似性。因此定义了SelfCon损失,它为每个输出形成一个自对比任务,包括来自子网络的特征。
L self = ∑ i ∈ I , ω ∈ Ω [ − 1 ∣ P i 1 ∣ ∣ Ω ∣ ∑ p 1 ∈ P i 1 , ω 1 ∈ Ω ω ( x i ) ⊤ ω 1 ( x p 1 ) + log ∑ ω 2 ∈ Ω ( ∑ p 2 ∈ P i 2 e ω ( x i ) ⊤ ω 2 ( x p 2 ) + ∑ n ∈ N i e ω ( x i ) ⊤ ω 2 ( x n ) ) ] I ≡ { { 1 , … , B } (SelfCon-S) { 1 , … , 2 B } (SelfCon-M) , P i j ≡ { p j ∈ I \ { i } ∣ y p j = y i } , N i ≡ { n ∈ I ∣ y n ≠ y i } (2) \tag{2} \begin{aligned} &\mathcal{L}_{\text {self }}=\sum_{\substack{i \in I, \boldsymbol{\omega} \in \Omega}}\left[-\frac{1}{\left|P_{i 1}\right||\Omega|} \sum_{\substack{p_{1} \in P_{i 1}, \boldsymbol{\omega}_{1} \in \Omega}} \omega\left(x_{i}\right)^{\top} \boldsymbol{\omega}_{1}\left(x_{p_{1}}\right)\right.\\ &\left.+\log \sum_{\boldsymbol{\omega}_{2} \in \Omega}\left(\sum_{p_{2} \in P_{i 2}} e^{\boldsymbol{\omega}\left(x_{i}\right)^{\top} \boldsymbol{\omega}_{2}\left(x_{p_{2}}\right)}+\sum_{n \in N_{i}} e^{\boldsymbol{\omega}\left(x_{i}\right)^{\top} \boldsymbol{\omega}_{2}\left(x_{n}\right)}\right)\right]\\ &I \equiv\left\{\begin{array}{ll} \{1, \ldots, B\} & \text { (SelfCon-S) } \\ \{1, \ldots, 2 B\} & \text { (SelfCon-M) } \end{array},\right.\\ &P_{i j} \equiv\left\{p_{j} \in I \backslash\{i\} \mid y_{p_{j}}=y_{i}\right\}, N_{i} \equiv\left\{n \in I \mid y_{n} \neq y_{i}\right\} \end{aligned} Lself =i∈I,ω∈Ω∑⎣ ⎡−∣Pi1∣∣Ω∣1p1∈Pi1,ω1∈Ω∑ω(xi)⊤ω1(xp1)+logω2∈Ω∑⎝ ⎛p2∈Pi2∑eω(xi)⊤ω2(xp2)+n∈Ni∑eω(xi)⊤ω2(xn)⎠ ⎞⎦ ⎤I≡{{1,…,B}{1,…,2B} (SelfCon-S) (SelfCon-M) ,Pij≡{pj∈I\{i}∣ypj=yi},Ni≡{n∈I∣yn=yi}(2)其中 Ω = { F , G } \Omega=\{F,G\} Ω={F,G}是骨架网络和子网络的一个函数集合。 ω 1 \omega_1 ω1是用于生成正对的函数, ω 2 \omega_2 ω2是用于从多输出网络生成对比对的函数。当输出特征来自于不同的输出路径时,我们包含了一个锚样本到正集合中,即 P i j ← P i j ∪ { i } P_{ij}\leftarrow P_{ij}\cup\{i\} Pij←Pij∪{i}。例如, G ( x i ) G(x_i) G(xi)是关于 F ( x i ) F(x_i) F(xi)的一个正对。这里依然省略了 τ \tau τ和除数常量。
尽管流行的对比方法强制通过数据增强生成多视图批次,但SelfCon学习中的子网络起着增强的作用,并提供了特征空间的替代视图。因此,在没有额外的增强样本的情况下,我们使用单视图批次 (SelfCon-S) 和多视图批次 (SelfCon-M) 来制定SelfCon损失函数。
论文阅读 (68):Self-Contrastive Learning: An Efficient Supervised Contrastive Framework with Single...相关推荐
- 论文阅读笔记:SCAN: Learning to Classify Images without Labels
论文阅读笔记:SCAN: Learning to Classify Images without Labels 摘要 简介和相关工作 方法 表征学习 语义聚类损失 2.3 通过自标记进行微调 3 实验 ...
- Zero-shot Learning零样本学习 论文阅读(一)——Learning to detect unseen object classes by between-class attribute
Zero-shot Learning零样本学习 论文阅读(一)--Learning to detect unseen object classes by between-class attribute ...
- 年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity
论文阅读--Deep Label Distribution Learning With Label Ambiguity 版权声明:本文为博主原创文章,未经博主允许不得转载.https://blog.c ...
- 论文阅读|node2vec: Scalable Feature Learning for Networks
论文阅读|node2vec: Scalable Feature Learning for Networks 文章目录 论文阅读|node2vec: Scalable Feature Learning ...
- 论文阅读【ACM_2020】SimSwap: An Efficient Framework For High Fidelity Face Swapping
论文阅读[ACM_2020]SimSwap: An Efficient Framework For High Fidelity Face Swapping 论文的缩写全拼 一.摘要(问题,贡献,效果) ...
- 从对比学习(Contrastive Learning)到对比聚类(Contrastive Clustering)
从对比学习(Contrastive Learning)到对比聚类(Contrastive Clustering) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailug ...
- 【论文阅读】Neural Transformation Learning for Deep Anomaly Detection Beyond Images 异常检测,可学习变换,时间序列,表格数据
本博客系博主阅读论文之后根据自己理解所写,非逐字逐句翻译,预知详情,请参阅论文原文. 论文标题:Neural Transformation Learning for Deep Anomaly Dete ...
- 【论文阅读】Occupancy Networks: Learning 3D Reconstruction in Function Space
论文题目:Occupancy Networks: Learning 3D Reconstruction in Function Space(占据网络:在函数空间内学习三维重建,简称ONet) 论文作者 ...
- 【论文阅读】Online Attention Accumulation for Weakly Supervised Semantic Segmentation
一篇弱监督分割领域的论文,其会议版本为: (ICCV2019)Integral Object Mining via Online Attention Accumulation 论文标题: Online ...
最新文章
- 线性布局上的一个小错误
- 【译】Jumping into Solidity —The ERC721 Standard (Part 1)
- 如何为你的回归问题选择最合适的机器学习方法?
- ajax datatype_Ajax的基本使用
- 测试丢包_入行游戏测试之弱网测试工具
- [译]编写高性能对垃圾收集友好的代码
- 华为云联合浙江大学构建新冠科研开放知识图谱
- MongoDB之Shard初步认识
- Linux命令解释之fdisk
- Ubuntu的常识使用了解2
- Serverless Computing:现状与基础知识
- Java单元测试用例的编写
- 联想7400打印机如何与手机连到一起_想买一台打印机自己印书看,是买激光的还是喷墨的?...
- windows ping不通虚拟机ip地址
- 细胞衰老——酪氨酸激酶抑制剂
- 使用批处理解决U盘内出现的同名文件夹EXE病毒问题
- Excel文本自动换行
- Java 微服务架构
- 使用Python操控手机微信app(最新教程)
- 镜像在国外仓库,拉取不了怎么办