再探视觉表示无监督学习的对比方法

Van Gansbeke W, Vandenhende S, Georgoulis S, et al. Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations[J]. arXiv preprint arXiv:2106.05967, 2021.

摘要

对比自监督学习在许多下游任务上，如分割和目标检测，都优于监督前训练。然而，目前的方法仍然主要应用于像ImageNet这样的精选数据集。在本文中，我们首先研究数据集中的偏差如何影响现有的方法。我们的结果表明，MoCo[22]这样的方法在以下方面出奇地有效:(i)以对象为中心的与以场景为中心的，(ii)统一的与长尾的，(iii)一般的与特定领域的数据集。其次，鉴于该方法的一般性，我们试图通过较小的修改实现进一步的增益。我们证明学习额外的不变性-通过使用多尺度裁剪，更强的增广和最近邻-改善了表示。最后，我们观察到MoCo在使用多剪切策略训练时能够学习空间结构的表示。该方法可用于语义段检索和视频实例分割，无需优化。此外，其结果与专门的模型相当。我们希望这项工作将为其他研究人员提供有益的研究。

1 引言

自我监督学习(SSL)[28]旨在学习强大的表示，而不依赖人类注释。这些表示可以用于各种目的，包括迁移学习[22]、聚类[1,51,52]或半监督学习[8]。最近的自监督方法[5,7,20,22]通过对各种数据转换施加不变性来学习视觉表示。形成这一想法的一种流行的方法是通过实例识别任务[58]——该任务将每个图像视为一个单独的类。同一图像的增强被认为是该类的正样本，而其他图像则被认为是负样本。为了处理大量的实例类，该任务被表示为使用对比损失的非参数分类问题[21,38]。

尽管最近取得了一些进展，但大多数方法仍然使用来自ImageNet[14]的图像进行训练。该数据集具有以下特性:(1)图像描述了图像中心的单个对象，(2)类遵循均匀分布，(3)图像具有区别性的视觉特征。为了将自我监督学习推广到野外，我们需要量化对这些特性的依赖程度。因此，在本文中，我们首先研究数据集偏差对表示的影响。我们采取功利主义的观点，并将不同的表现形式转移到各种下游任务中。

我们的结果表明，像MoCo[22]这样的方法对以对象和场景为中心的数据集都很有效。我们深入研究以了解这些结果。一个关键组成部分是涉及随机种植的增强策略。对于像ImageNet这样的以对象为中心的数据集，来自同一图像的两次裁剪将显示同一对象的一部分，而不显示其他对象。然而，当存在多个对象时，正对的非重叠作物可能导致不同对象的特征表示错误匹配。这一思路使最近的研究[44,46]相信，对比SSL受益于以对象为中心的数据。

那么，在应用于更复杂、以场景为中心的图像时，对比方法如何学习有用的表示呢?我们提出了一个双重假设。首先，数据增强策略的默认参数化避免了非重叠视图。因此，正对将共享信息，这意味着我们可以匹配它们的表示。其次，当采用更正的裁剪时，我们只观察到迁移学习性能的小幅下降。由于同一幅图像中的patches是强相关的，最大化非重叠视图之间的一致性仍然是一个有用的学习信号。结果表明，在视觉前训练中，将实例识别任务与随机裁剪任务相结合是普遍适用的。

最近进展的共同主题是学习对不同转换不变的表示。从这个原则出发，我们尝试改进现有框架[22]所获得的结果。更具体地说，我们研究了三种产生更多样化的正对的方法。首先，回顾[5]的多剪变换。其次，我们研究了更强有力的增强政策的使用。第三，我们利用训练期间在线挖掘的最近邻居作为正视图。后者强加了难以使用手工图像转换学习的不变性。提出的实现只需要几行代码，提供了一种简单而有效的基于聚类的方法[5,33]。研究发现，在迁移学习设置下，每一种建议的添加都能提高表示的性能。

多剪切变换取得显著成效。我们探究网络学习了什么来解释这些改进。多剪切变换使较小的(局部)作物和较大的(全局)图像之间的一致性最大化。这迫使模型学习一个更具空间结构的场景表示。结果表明，该表示可以直接用于解决多个密集的预测任务，而无需进行任何微调。特别地，我们注意到表示已经对类语义和密集通信进行了建模。此外，这些表示与专门的方法是竞争的[27,64]。总之，多剪切设置为学习密集表示提供了一种可行的替代方案，而无需依赖视频数据[27,32]或手工先验[26,52,64]

2 框架

我们简要介绍对比学习框架。其思想是生成使相似(正)图像之间的一致性最大化，并使不同(负)图像之间的一致性最小化的特征表示。设x是一幅图像。假设可以得到x的一组正数，用x +表示。类似地，定义了一组负X－。我们学习了一个嵌入函数f，它将每个样本映射到一个归一化超球上。对比损失[21,38]的形式如下

τ是一个温度超参数。我们将进一步将图像x称为锚

SSL方法通过将每个图像作为一个单独的类[58]来获取正负信息。更具体地说，同一图像的增强视图被认为是正片，而其他图像被用作负片。数据增强策略是一个重要的设计选择，因为它决定了将要学习的不变性。如今，大多数作品都依赖于一套类似的增强技术，包括(1)裁剪、(2)颜色失真、(3)水平翻转和(4)高斯模糊。

在本文中，我们建立在MoCo[22] -一个众所周知的和有竞争力的框架之上。然而，我们的发现也同样适用于其他相关方法(如SimCLR[7])。参数θ的嵌入函数f f由骨干g(例如ResNet[23])和投影MLP h。投影后的对比应用损失负责人h。墨客使用一个队列和一个moving-averaged编码器f 0保持一个大的和一致的负样本。θf0的参数更新为:m为动量超参数的θf0 = mθf0 + (1 m)θf。动量平均编码器f0以锚点x作为输入，而编码器f对正样本负责。队列将编码的锚保留为负数。详情请参阅[22]。

3 Contrastive Learning in the Wild

大多数对比自监督方法都是在来自ImageNet[14]的未标记图像上训练的。这是一个具有独特特征的精选数据集。首先，图像是以对象为中心的，即它们只描绘图像中心的单个对象。这与其他数据集[31,34]不同，后者包含了包含多个对象的更复杂的场景。其次，底层类是均匀分布的。第三，图像具有明显的视觉特征。例如，ImageNet覆盖了各种鸟类，这些鸟类可以通过几个关键特征加以区分。相比之下，领域特定的数据集(例如BDD100K[63])包含较少区别的风景，显示相同的对象，如汽车、行人等。在本节中，我们研究数据集偏差对对比自我监督方法的影响。

设置。我们在各种数据集上训练MoCo-v2[9]。表1给出了概述。在线性分类、语义分割、目标检测、视频实例分割和深度估计等6个下游任务上进行了表征评价。我们采用以下目标数据集进行线性分类:CIFAR10 [30]， Food-101 [29]， Pets [40]， Places365 [67]， Stanford Cars [29]， SUN397[59]和VOC 2007[19]。在Cityscapes[12]、PASCAL VOC[19]和NYUD[47]上对语义分割任务进行了评价。我们使用PASCAL VOC[19]进行目标检测。DAVIS- 2017基准[43]用于视频实例分割。最后，在NYUD[47]上进行深度估计。该模型，即一个ResNet-50骨干，使用大小为256的批次进行400个纪元的预训练。初始学习率设置为0:3，并使用余弦计划衰减。我们使用温度(τ = 0:2)和动量(m = 0:999)超参数的默认值

3.1 目标为中心VS场景为中心

我们将在以对象为中心的数据集ImageNet (IN-118K)上训练的表示与从两个以场景为中心的数据集COCO和OpenImages (OI-118K)上获得的表示进行比较。表2-3显示了线性分类和迁移学习设置下的结果。

结果。线性分类模型在ImageNet上对表示进行预训练时，在CIFAR10、Cars、Food和Pets上获得了较好的结果。不同的是，在处理Places、SUN和VOC的分类任务时，来自COCO和OpenImages的表示更适合。第一组目标基准包含以单个对象为中心的图像，而第二组包含以场景为中心的具有多个对象的图像。我们得出结论，对于线性分类，预训练数据集应该与目标数据集匹配，以目标为中心或以场景为中心。

接下来，我们考虑微调。也许令人惊讶的是，当使用来自COCO或OpenImages的更复杂的图像进行预训练时，我们没有观察到任何显著的缺点。特别是，对于报告的任务，COCO预训练模型甚至优于ImageNet模型。当增加训练前数据集的大小时，我们也做了类似的观察。材料)。

讨论。与之前的信念相比[44,46]，我们的结果表明，对比的自我监督方法不会受到场景中心数据集的预训练影响。我们如何解释这种与早期研究的不一致呢?首先，[44]中的实验设置只考虑了以对象为中心的数据集(即PASCAL裁剪框)的线性评估协议。这个分析[44]并没有向我们展示全貌。其次，作者得出结论，由于涉及随机裁剪的增强策略，现有的方法难以使用以场景为中心的数据集。他们认为，激进的crop可以产生包含不同对象的不重叠的观点。在这种情况下，最大化特征相似度对目标识别任务是不利的。然而，默认的裁剪策略几乎不会产生不重叠的视图3。这一点通过绘制成对作物之间并并(IoU)的交点(见图1)得到验证。我们得出结论，使用的非重叠作物的例子[44,46]很少发生。

上述观察促使我们重新考虑使用重叠观点的重要性。我们对COCO进行预训练，同时迫使视图之间的IoU小于预定义的阈值。图2-3显示了不同阈值下的传输性能和训练曲线。当采用更激进的crop时，优化目标更难满足(即当降低IoU时，训练损失增加)。然而，图2显示了迁移性能保持稳定。在同一图像的同一时间和空间点上观察，这意味着它们将共享相机视角、颜色、形状等信息。因此，学习信号仍然是有意义的，即使是使用重叠较少的crop为正的。

3.2 平均Versus 长尾

接下来，我们研究MoCo是否受益于使用统一(IN-118K)和长尾(IN-118KLT)数据集。我们采用[35]的采样策略来构造长尾版本的ImageNet。这些类遵循幂值α = 6的帕累托分布。表2-3表明MoCo对数据集的类分布变化具有鲁棒性。特别是，In - 118k - lt在所有任务上的表现与In - 118k相当，甚至更好。我们得出结论，使用均匀分布的数据集进行预训练是不必要的。

6. 结论

我们从实验研究中得出了几个结论。首先，我们没有观察到任何迹象表明使用以场景为中心的图像会影响对比前训练。此外，与之前的想法相反，默认的裁剪策略也可以直接应用于更复杂的、以场景为中心的数据集。其次，当采用多尺度crop为正时，模型学习空间结构的表示。因此，该表示可以用于语义段检索和视频实例分割而无需任何微调。最后，成功地探索了增强增广和最近邻等附加不变量来提高性能。该代码将公开。

翻译: Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations相关推荐

自监督学习（十）Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles
Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles Introduction Method 排列选择 p ...
ECCV2016【论文笔记】Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles
1.INTRO 本文作者旨在通过解决拼图问题来进行self-supervised learning,这样可以训练一个网络去识别目标的组成部分. 2.Solving Jigsaw Puzzles 当前一 ...
翻译-A Simple Framework for Contrastive Learning of Visual Representations
推荐文章 A Simple Framework for Contrastive Learning of Visual Representations 摘要这篇文章提出了SimCLR, 一种简单的.用 ...
A Simple Framework for Contrastive Learning of Visual Representations
A Simple Framework for Contrastive Learning of Visual Representations Abstract 本文提出了一个简单的视觉表征对比学习框架- ...
facebook新无监督论文-Unsupervised Learning of Visual Features by Contrasting Cluster Assignments
最近比较关注无监督论文,因此只要发现有新的文章都会读一遍,facebook近期刚出了一篇Unsupervised Learning of Visual Features by Contrasting ...
PULT：Progressive Unsupervised Learning for Visual Object Tracking（用于视觉目标跟踪的渐进式无监督学习）
Progressive Unsupervised Learning for Visual Object Tracking(用于视觉目标跟踪的渐进式无监督学习 ) 因为是无监督学习,所以需要对样本数据充 ...
Unsupervised Learning of Visual Features by Contrasting Cluster Assignments（SwAV）---论文阅读笔记
Unsupervised Learning of Visual Features by Contrasting Cluster Assignments 文章目录摘要介绍方法数据增强方法总结 ...
【ICML 2020对比学习论文解读】SimCLR: A Simple Framework for Contrastive Learning of Visual Representations
一.写在前面对比学习(Contrastive Learning) 对比学习是一种自监督学习方法,在无标签数据集上仍可以学习到较好的表征. 对比学习的主要思想就是相似的样本的向量距离要近,不相似的要远 ...
A Simple Framework for Contrastive Learning of Visual Representations[论文学习] SimCLR
We simplify recently proposed contrastive self-supervised learning algorithms without requiring spec ...
[ICML19] Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations
谷歌等一篇名为<挑战无监督分离式表征的常见假设>的论文,表明 (没有归纳偏置的) 无监督方法学不到可靠的分离式表征 (Disentangled Representations) .本篇是I ...

翻译: Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations