Intriguing Properties of Contrastive Losses

题目：对比损失的有趣特性

1. 概要

本文对目前广泛使用的标准对比损失进行了推广，并研究了广义对比损失在参数和数据分布上的一些性质。
本文通过实验发现，对比损失倾向于学习简单特征，并且少量简单特征即可压制甚至完全消除图像更为复杂且本质的特征的作用，进而影响模型表现。

2. 广义对比损失

2.1 广义对比损失的定义

本文在目前广泛使用的对比损失的基础之上，提出了广义对比损失的表达形式，并研究了其中的一些性质。

作者提出了一种广义对比损失的表达形式如下:
Lgeneralizedcontrastive=Lalignment+λLdistribution\mathcal{L}_{\mathrm{generalized\ contrastive}}=\mathcal{L}_{\mathrm{alignment}}+λ\mathcal{L}_{\mathrm{distribution}} Lgeneralized contrastive=Lalignment+λLdistribution
第一项为**Lalignment\mathcal{L}_{\mathrm{alignment}}Lalignment，其作用是拉近正对之间的距离**；第二项为Ldistribution\mathcal{L}_{\mathrm{distribution}}Ldistribution，作用是让负样本服从于给定的先验分布。

2.2 标准对比损失是广义对比损失的一个特例

那么，我们常用的交叉熵损失是否符合上述表达式呢？

一个标准的基于交叉熵的对比损失表达式如下：

其中，sim\mathrm{sim}sim代表余弦相似度。

将对数项进行分解，转化为如下形式：

上式第一项的作用非常明确，即拉近正对之间的相似性，最小化第二项的作用是拉远负样本与负样本之间的距离，最终将使得隐藏表征zzz趋近于超球面中的均匀分布，因此可以视为是一种分布匹配损失。因此，基于交叉熵的标准对比损失属于广义对比损失的一个特例，最终将使负样本趋近于均匀分布。

在上式右侧，温度参数τττ出现在第二项的两个地方，其中一个代表的是Ldistribution\mathcal{L}_{\mathrm{distribution}}Ldistribution的权重，另一处代表的是高斯核的宽度，作者认为这两处的值不一定非要相等，可以解耦，用λλλ表示代表权值的一处，得到τττ解耦的广义交叉熵对比损失：

温度参数τττ和尺度参数λλλ的关系：

解耦之后的标准交叉熵损失具有两个可调参数τττ和λλλ，作者研究了设置不同值的情况下，二者对用标准对比损失所训练出来的分类模型线性评估结果的影响：

从上图中可以发现，τττ和λλλ对线性评估结果呈现负相关关系，在设置参数时应从左下和右上端取值。

2.3 广义对比损失和互信息的关系

有研究已经证明，基于交叉熵的标准对比损失是互信息的一个下界，本文认为广义对比损失与互信息仍然保持这种关系。

两个潜在变量UUU与VVV的互信息可以写为：
I(U;V)=H(U)−H(U∣V)I(U;V)=H(U)-H(U|V) I(U;V)=H(U)−H(U∣V)
将其与广义对比损失相比较：
Lgeneralizedcontrastive=Lalignment+λLdistribution\mathcal{L}_{\mathrm{generalized\ contrastive}}=\mathcal{L}_{\mathrm{alignment}}+λ\mathcal{L}_{\mathrm{distribution}} Lgeneralized contrastive=Lalignment+λLdistribution
Lalignment\mathcal{L}_{\mathrm{alignment}}Lalignment的作用在于拉近正类内部的相似性，即减少不同类之间的不确定性，与互信息中的第二项相对应，而

Ldistribution\mathcal{L}_{\mathrm{distribution}}Ldistribution的作用在于尽量使负类之间趋近于先验分布，这一损失将会尽量使得样本的熵最大，故而可以看作H(U)H(U)H(U)在表征中的代理，当先验分布是均匀分布时，熵最大。不过广义对比损失比互信息在第二项多了一个可调参数λλλ。

2.4 使用不同先验分布对对比损失表现的影响

标准正态分布使用的是交叉熵损失，使得Ldistribution\mathcal{L}_{\mathrm{distribution}}Ldistribution趋近于超球面上的均匀分布。为了研究其他的先验分布对于对比损失的表现是否有影响，本文根据最优运输理论，构造出了基于Sliced Wasserstein Distance(SWD)距离的均匀超球面(Uniform hypersphere)分布、均匀超立方分布(Uniform hypercube)和高斯分布(Normal distribution):

在使用SWD Loss时，首先根据最优运输算法将样本进行有序排列，对于1维样本直接计算排列后的1维Wasserstein距离，对于n维样本，先将其投影到n个1维正交子空间中，在计算并求和所有子空间的1维Wasserstein距离。（粗略介绍，详细方法可以查看论文）。

使用最优运输方法构造出符合不同先验分布的SWD Loss之后，评估给出的Loss在Cifar10、ImageNet（线性投影头为2层和3层）下的线性评估结果，如下图所示：

最终发现，对于CIFAR10，随着epoch的增大，不同先验分布对线性评估影响不大；对于使用2层线性投影头的ImageNet，解耦标准交叉熵损失和服从均匀超球面先验的SWD表现更好一些，但是一旦把线性投影头换成3层的，不同先验分布之间就没有很明显的区别。

3. 特征压制

如下图所示，SimCLR在进行数据增强时发现，相比于裁剪和旋转等不改变图像内容的操作，对图像进行颜色增强会提升模型的表现：

这可能说明，在模型利用对比损失学习表征时，可能更倾向于学习图像之间共享的颜色信息，意味着颜色特征压制了其他特征的表现。为了研究这一现象，作者在两个数据集上进行了不同实验进行探究。

3.1 在DigitOnImageNet dataset上的实验

DigitOnImageNet dataset以ImageNet为基础，给每一张图片添加一个MNIST数据集中的数字，并将这一数字复制到图片中的九个位置，之后使用SimCLR的数据增强方法进行增强，再进行训练。本文认为额外添加的MNIST数字特征与图像原始特征是竞争关系。

使用batch_size为1024，2层线性投影头的SimCLR模型训练上述数据集，线性评估结果如下：

可以看到，对于有监督学习方法，额外的数字特征没有对分类线性评估结果造成干扰，而对对比学习方法具有较大影响，随着温度参数和添加的数字种类增加，线性评估结果均变差了。由此认为，对比学习学习到了更为简单的数字特征，而没有学习到占大部分的更为复杂的图像特征。

3.2 在RandBit dataset数据集上的实验

上一个实验说明了简单特征可以抑制复杂特征在对比学习中的影响，在此基础上，作者设计了一种更为极端的数据集进行实验。

对于一幅RGB图像，先额外从[1,log2(n)][1, log_2(n)][1,log2(n)]范围中采样一个整数，将其表示为nnn个二进制通道，这意味着给这张图象增加了nnn个通道的数据，之后只对RGB图像部分进行数据增强操作，额外增加的部分不进行数据增强。示意图如下图所示：

本文构建了基于CIFAR10，MNIST和ImageNet三个数据集的RandBit dataset，使用不同的模型进行分类训练，评估其分类精度：

在CIFAR10上的表现如下：

在MNIST上的表现如下：

在ImageNet上的表现如下：

横坐标为nnn的值，可以看出，在三个数据集上，对比学习方法在不同模型上的表现均显著变差，意味着即使是非常少量共享信息（几个比特）的简单特征对对比损失的表现都可能产生主导性影响。