通过超球面的对齐和均匀性理解对比表示学习

paper题目：Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

paper是MIT发表在ICML 2020的工作

paper地址：链接

5. Experiments

在本节中，我们凭经验验证对齐和均匀性是表示所需的属性的假设。回想一下，我们的两个指标是
Lalign (f;α)≜E(x,y)∼ppos [∥f(x)−f(y)∥2α]Luniform (f;t)≜log⁡Ex,yi.i.d. pdata [e−t∥f(x)−f(y)∥22]\begin{aligned} \mathcal{L}_{\text {align }}(f ; \alpha) & \triangleq \mathbb{E}_{(x, y) \sim p_{\text {pos }}}\left[\|f(x)-f(y)\|_{2}^{\alpha}\right] \\ \mathcal{L}_{\text {uniform }}(f ; t) & \triangleq \log \mathbb{E}_{x, y}{ }^{\text {i.i.d. }} p_{\text {data }}\left[e^{-t\|f(x)-f(y)\|_{2}^{2}}\right] \end{aligned} Lalign (f;α)Luniform (f;t)≜E(x,y)∼ppos [∥f(x)−f(y)∥2α]≜logEx,yi.i.d. pdata [e−t∥f(x)−f(y)∥22]
我们在不同类型下游任务的四种流行的表示学习基准上对基于卷积神经网络 (CNN) 和循环神经网络 (RNN) 的编码器进行了广泛的实验：

基于 AlexNet 的编码器输出或中间激活的 STL-10 分类，使用线性或 k 近邻 (k-NN) 分类器。
卷积层后 CNN 编码器中间激活的 NYU-DEPTH-V2 深度预测。
使用线性分类器对 CNN 编码器倒数第二层激活进行 IMAGENET-100（从 IMAGENET 中随机选择的 100 个类）分类。
BOOKCORPUS RNN句子编码器的输出结果用于Moview Review Sentence Polarity (MR)和Customer Product Review Sentiment (CR)的二元分类任务，并使用logisitc分类器。

对于图像数据集，我们遵循标准做法并选择正对作为同一图像的两个独立增强。对于 BOOKCORPUS，选择正对作为相邻句子，遵循Quick-Thought Vectors。

我们对 STL-10 和 NYUDEPTH-V2 编码器进行了大量分析，其中我们按照标准做法计算Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive ，其中负数是小批量内的其他样本，Luniform \mathcal{L}_{\text {uniform }}Luniform 作为小批量内平均成对特征潜力的对数。由于形式简单，这两个损失可以在 PyTorch 中用不到 10 行代码实现，如图 5 所示。

图 5：Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 的 PyTorch 实现。

为了研究最近对比表征学习变体和更大数据集的对齐和均匀性特性，我们还分析了使用动量对比（MoCo）训练的IMAGENET-100编码器和使用Quick-Thought向量训练的BOOKCORPUS编码器，并对这些方法进行了修改，以允许Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 。

我们总共优化了306个STL-10编码器、64个NYUDEPTH-V2编码器、45个IMAGENET-100编码器和108个BOOKCORPUS编码器，无需监督。编码器是Lcontrastive ,Lalign \mathcal{L}_{\text {contrastive }}, \mathcal{L}_{\text {align }}Lcontrastive ,Lalign 和/或Luniform, with varying \mathcal{L}_{\text {uniform, with varying }}Luniform, with varying 的优化关于加权组合，具有不同的性能

（可能为零）对三次损失的权重，
损失超参数：τ\tauτ表示Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive ，α\alphaα表示Lalign \mathcal{L}_{\text {align }}Lalign ，ttt表示Luniform \mathcal{L}_{\text {uniform }}Luniform ，
批量大小（影响Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive 和Luniform )\left.\mathcal{L}_{\text {uniform }}\right)Luniform )的（负）对数），
嵌入维度，
训练次数和学习率，
初始化（从零开始，与预训练编码器相比）。

Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 都非常认同下游任务绩效。对于每个编码器，我们测量下游任务性能，以及验证集上的Lalign ,Luniform \mathcal{L}_{\text {align }}, \mathcal{L}_{\text {uniform }}Lalign ,Luniform 度量。图6显示了度量和表示质量之间的趋势。我们观察到，这两个指标在总体上与表示质量非常一致。特别是，性能最好的编码器正是那些具有低Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 的编码器，即图6中的左下角。我们观察到，只要Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 上的权重之比不太大（例如，<4），表示质量仍然相对较好，并且对精确的权重选择不敏感。

图6:STL-10和NYU-DEPTH-V2实验的指标和性能。每个点代表一个训练有素的编码器，其x坐标和y坐标显示Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 度量，颜色显示验证集上的性能。蓝色对两种任务都更好。Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 较低的编码器始终是性能更好的编码器（左下角）。

直接优化Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 可以获得更好的表现。如表1所示，在这两项任务中，仅使用Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 训练的编码器始终优于经过Lcontrastive\mathcal{L}_{\text {contrastive}}Lcontrastive训练的编码器。从理论上讲，定理1表明Lcontrastive\mathcal{L}_{\text {contrastive}}Lcontrastive在无限个负样本的情况下渐近优化对齐和均匀性。这种经验性能差距表明，当我们只能有有限的负面影响时，直接优化这些特性在实践中可能会更优越。

表1：编码器评估。STL-10：数字显示线性和5近邻（5-NN）分类精度。最好的结果是通过编码器输出线性分类器精度从5倍训练集交叉验证中挑选出来的，在所有150个编码器中，从零开始训练，具有128维输出和768个批次大小。NYU-DEPTH-V2：数字显示深度预测均方误差（MSE）。最好的结果是基于conv5层MSE从5倍训练集交叉验证中挑选出来的，在所有64个编码器中，从零开始训练，具有128维输出和128个批量大小。

Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 会对下游任务绩效产生因果影响。我们使用次优温度τ=2.5\tau=2.5τ=2.5，使用Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive 训练编码器，并根据Lalign \mathcal{L}_{\text {align }}Lalign 和/或Luniform. \mathcal{L}_{\text {uniform. }}Luniform. 对其进行微调。图7显示了微调轨迹。当只优化了对齐和均匀性中的一个时，相应的度量会提高，但其他度量和性能都会降低。然而，当这两个属性都得到优化时，表示质量会稳步提高。这些趋势证实了对齐和一致性对表示质量的因果影响，并表明直接优化它们是一个合理的选择。

图7：使用次优温度τ=2.5\tau=2.5τ=2.5，使用Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive 训练的STL-10编码器的微调轨迹。微调目标是Lalign (α=2)\mathcal{L}_{\text {align }}(\alpha=2)Lalign (α=2)和Luniform (t=2)\mathcal{L}_{\text {uniform }}(t=2)Luniform (t=2)的加权组合。对于每个中间检查点，我们测量Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 度量，以及在编码器输出上从头开始训练的线性分类器的验证精度。Luniform \mathcal{L}_{\text {uniform }}Luniform 指数化用于绘图。左和中：如果只优化对齐和均匀性中的一个，性能会下降。右图：当两者都优化时，性能会提高。

在其他对比表征学习变体中，对齐性和均匀性也很重要。MoCo和Quick Thinking Vectors是对比表征学习变体，与直接优化等式（1）中的Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive 有着不寻常的差异。MoCo引入了内存队列和动量编码器。Quick Think V Vectors使用两个不同的编码器将每个句子编码为正对，在评估过程中只对编码器输出进行规范化，不使用随机抽样来获得小批量。在修改它们以允许Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 之后，我们分别在IMAGENET-100和BOOKCORPUS上训练这些方法。图8显示Lalign \mathcal{L}_{\text {align }}Lalign 和$ \mathcal{L}_{\text {uniform }}$指标仍然与下游任务绩效相关。表2显示，直接优化它们也可以获得类似或更好的表示质量。这些结果表明，对于图像和文本模式而言，对齐和均匀性确实是理想的表征属性，并且可能与一般的对比表征学习方法有关。

图8:IMAGENET-100和BOOKCORPUS实验的指标和性能。每个点代表一个训练有素的编码器，其xxx和yyy坐标显示Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 度量，颜色显示验证精度。蓝色更好。尽管训练方法（基于MoCo和快速思维向量）不同于直接优化等式（1）中的对比损失，但具有较低Lalign \mathcal{L}_{\text {align }}Lalign 和Luniform \mathcal{L}_{\text {uniform }}Luniform 的编码器始终表现良好（左下角）。

表2：编码器评估。IMAGENET-100：数字显示编码器倒数第二层激活的线性分类器精度。最好的结果是根据3倍训练集交叉验证中的top1精度挑选出来的，在所有45个从头开始训练的编码器中，有128维输出和128个批量。图书语料库：数字显示了编码器输出上符合逻辑分类器的电影评论句子极性（MR）和客户产品情感（CR）分类精度。最佳结果是根据5倍训练集交叉验证的准确度来选择的，分别针对MR和CR，在所有108个从头开始训练的编码器中，具有1200维输出和400批次大小。

6. Discussion

对齐性和均匀性通常被暗指为表征学习方法的动机（见图1）。然而，文献中缺乏对这些性质的透彻理解。

它们实际上与表征学习方法有关吗？他们是否真的同意表达质量（通过下游任务绩效衡量）？

在这项工作中，我们详细研究了这些特性与对比表征学习的流行范式之间的关系。通过理论分析和大量实验，我们能够将对比损失与对齐和均匀性特性联系起来，并确认它们与下游任务性能之间的紧密联系。值得注意的是，我们已经发现，直接优化我们提出的指标通常会导致更好的质量表示。

单位超球面的精确性。我们的分析基于实证观察，即表征通常是ℓ2\ell_{2}ℓ2正则化。现有的工作从流形映射的角度和计算稳定性出发，激发了这种选择。然而，据我们所知，为什么单位超球面是一个很好的特征空间这个问题还没有得到严格的回答。一个可能的方向是形式化具有光滑边界的连通集在超球面几何中几乎线性可分的直觉（见图2），因为线性可分性是表示质量最广泛使用的标准之一，并且与解纠缠的概念有关。

超越对比学习。我们的分析侧重于对比学习与单位超球面上的对齐和一致性之间的关系。然而，无处不在的ℓ2\ell_{2}ℓ2表征学习文献中的规范化表明，这种联系可能更为普遍。事实上，现有的几种经验方法与超球面上的均匀性直接相关。我们相信，将更广泛类别的表示与超球面上的均匀性和/或对齐联系起来，将提供新的见解，并带来更好的经验算法。

（ICML-2020）通过超球面的对齐和均匀性理解对比表示学习（二）相关推荐

（ICML-2020）通过超球面的对齐和均匀性理解对比表示学习（一）
文章目录通过超球面的对齐和均匀性理解对比表示学习 Abstract 1. Introduction 2. Related Work 3.无监督对比表征学习的初步研究 4. Feature Distr ...
ICML 2020: 从Alignment 和 Uniformity的角度理解对比表征学习
Title: <Understanding Contrastive Representation Learning through Alignment and Uniformity on the ...
ICML 2020论文贡献榜排名出炉：Google单挑斯坦福、MIT、伯克利；清华进TOP 20
来源:新智元本文约2800字,建议阅读6分钟. ICML 2020论文贡献榜排名出炉,斯坦福则获高校第一.国内高校.企业上榜. [ 导读 ] ICML 2020论文贡献榜排名出炉,Google在众多 ...
【时间序列】ICML 2020 时间序列相关论文总结（附原文源码）
ICML 是 International Conference on Machine Learning的缩写,即国际机器学习大会.ICML如今已发展为由国际机器学习学会(IMLS)主办的年度机器学习国 ...
清华大四本科生2篇一作论文入选ICML 2020，后浪果然翻涌
白交发自凹非寺量子位报道 | 公众号 QbitAI ICML 2020放榜了. 入选论文创新高,共有1088篇论文突出重围. 然而,接收率却是一年比一年低,这次仅为21.8%(去年为22.6 ...
打开深度神经网络黑箱：竟是模块化的？图聚类算法解密权重结构 | ICML 2020
十三发自凹非寺量子位报道 | 公众号 QbitAI 深度神经网络这个黑箱子,似乎有了更清晰的轮廓. 我们都知道深度神经网络性能十分强大,但具体效果为什么这么好,权重为什么要这么分配,可能连&q ...
ICML 2020 | Google提出最强生成式摘要预训练模型——天马
©PaperWeekly 原创 · 作者|蔡杰学校|北京大学硕士生研究方向|QA 论文标题:PEGASUS: Pre-training with Extracted Gap-sentences f ...
ICML 2020 | 基于类别描述的文本分类模型
论文标题: Description Based Text Classification with Reinforcement Learning 论文作者: Duo Chai, Wei Wu, Qing ...
阿里 AI 研究成果入选国际顶会 ICML 2020，AI 推理速度提升 3 倍
近日,人工智能国际顶会ICML 2020公布了论文收录结果,阿里巴巴7篇论文入选,是入选论文数量最多的中国科技公司.ICML是机器学习领域全球最具影响力的学术会议之一,今年接受率仅为21.8%. 根据 ...

（ICML-2020）通过超球面的对齐和均匀性理解对比表示学习（二）

文章目录

通过超球面的对齐和均匀性理解对比表示学习

5. Experiments

6. Discussion

（ICML-2020）通过超球面的对齐和均匀性理解对比表示学习（二）相关推荐

最新文章

热门文章