华人博士提出原型对比学习，非监督学习效果远超MoCo和SimCLR

点上方蓝字视学算法获取更多干货

在右上方 ··· 设为星标 ★，与你不见不散

仅作分享，不代表本公众号立场，侵权联系删除

转载于：新智元

继MoCo和SimCLR之后非监督学习的又一里程碑！Salesforce的华人科学家（Junnan Li）介绍了一种新的非监督式神经网络学习方法，这种方法能够从数百万个未标记的图像中训练深层神经网络，让我们离机器智能又进了一步。

本文提出的原型对比学习(PCL) ，统一了非监督式学习的两个学派: 聚类学习和对比学习。PCL 推动了机器学习和人工智能的圣杯--非监督式学习技术的进步，并向无需人类指导的机器智能迈出了重要的一步。

为什么是非监督学习

深层神经网络在许多方面取得了前所未有的进展，比如图像分类和目标检测。大部分的进步都是由监督式学习 / 标签模式驱动的，得到这么好的性能很大程度上依赖于大量带有人工注释的标签(例如 ImageNet)。

然而，手工标注的成本是十分昂贵的，很难扩大规模。另一方面，互联网上存在着几乎无限量的未标记图片。非监督式学习是唯一适合开发未标记数据这个大金矿的方法。

首先，让我们来谈谈两个流行的非监督式学习算法学派: 聚类和对比学习。

聚类:机器学习中最常见的非监督式学习任务之一。

它是将数据集划分为若干个组的过程，聚类算法将相似的数据点组合在一起，而不同的数据点组合在不同的组中。

在所有的聚类方法中，K 均值是最简单和最流行的方法之一。它是一个迭代算法，目的是将数据集划分为 k 组(聚类) ，其中每个数据点只属于一类，聚类中每个数据点和聚类质心(属于该聚类的所有数据点的算术平均值)平方距离之和最小。

对比学习: 非监督式学习的一个新兴学派

随着深层神经网络的出现，对比非监督式学习已经成为一个流行的方法学派，它训练深层神经网络而不用标签。经过训练的网络能够从图像中提取有意义的特征(表示) ，这将提高其他下游任务的性能。

对比非监督式学习主要是从数据本身学习有用的表征，所以也称为对比自我监督学习。

许多最先进的对比学习方法(例如 MoCo 和 SimCLR )都是基于实例辨别的任务。

实例鉴别训练一个网络来分类两个图像是否来自同一个源图像，如图 1(a)所示。该网络(例如 CNN 编码器)将每个图像裁剪投影到一个嵌入中，并将同源的嵌入彼此拉近，同时将不同源的嵌入分开。通过解决实例识别任务，期望网络学习到一个有用的图像表示。

实例鉴别在无监督表征学习中表现出了良好的性能。然而，它有两个局限性。

首先，利用低层线索就可以区分不同的实例，因此网络不一定学习到有用的语义知识。

其次，如图 1(b)所示，来自同一个类(cat)的图像被视为不同的实例，它们的嵌入被推开。这是不可取的，因为具有相似语义的图像应该具有相似的嵌入。为了解决上述缺点，我们提出了一种无监督表征学习的新方法: 原型对比学习(PCL)。

原型对比学习: 统一对比学习和聚类学习

原型对比学习是无监督表征学习的一种新方法，它综合了对比学习和聚类学习的优点。

在 PCL 中，我们引入了一个「原型」作为由相似图像形成的簇的质心。我们将每个图像分配给不同粒度的多个原型。训练的目标是使每个图像嵌入更接近其相关原型，这是通过最小化一个 ProtoNCE 损失函数来实现的。

在高层次上，PCL 的目标是找到给定观测图像的最大似然估计(MLE)模型参数：

我们引入原型 c 作为与观测数据相关的潜在变量，提出了一种期望最大化算法来求解最大似然估计。在 E-step 中，我们通过执行 K 平均算法估计原型的概率。在 m 步中，我们通过训练模型来最大化似然估计，从而最小化一个 ProtoNCE 损失:

在期望最大化框架下，我们可以证明以前的对比学习方法是 PCL 的一个特例。

通常情况下我们是通过将预先训练的模型转移到下游任务来评估非监督学习的效果，类似于 ImageNet 预先训练的模型已经广泛应用于许多计算机视觉任务。一个好的预训练模型应该在有限的训练数据和有限微调的新任务上产生良好的表现。

PCL 的表现如何？

我们在三个任务上对 PCL 进行评估，在所有情况下，它都达到了最先进的性能。

1、少样本迁移学习

首先，将未标记的 ImageNet 数据集上训练 ResNet 模型的任务转化为两个: VOC07 数据集上的目标识别和 Places205 数据集上的场景分类。对于每个任务，我们只得到很少(k)标记的样本。我们使用无监督学习训练一个线性支持向量机。如下表所示，PCL 在 VOC 上取得 10% 左右的性能改善。

2、半监督学习

接下来，我们评估 PCL 在半监督图像分类中的作用。在这个任务中，我们在未标记的 ImageNet 图像预先训练 ResNet 模型，并使用 1% 或 10% 带有标签的 ImageNet 图像微调分类模型。PCL 同样优于其他方法，将 Top-5 准确率提高了 18% 。

3、目标检测

我们进一步评估了目标检测学习表征的泛化能力。我们在 VOC07 或 VOC07 + 12 上训练了一个更快的 R-CNN 模型，并在 VOC07 的测试集上进行了评估。如下所示，PCL 实质上缩小了自监督方法和监督方法之间的差距，他们之间只有 1% 的差异。

学到的表征是什么样子的？

为了更好地理解 PCL 学习到的表征，我们绘制了来自 ImageNet 前 40 类图像的 t-SNE 可视化图像。我们可以看到，PCL 学习的表示方法可以将来自同一类的图像聚在一起。

结果已经证明 PCL 有巨大的潜力，在深层神经网络中使用纯粹的非标记图像就可以训练。

我们希望 PCL 可以扩展到视频，文本，语音等领域，让 PCL 激励更多有前途的非监督式学习领域的研究，推动未来人工智能的发展，使人工标注不再是模型训练的必要组成部分。

作者简介：Junnan Li，Salesforce亚洲研究院科学家，香港大学电子工程学学士，新加坡国立大学计算机博士，主要研究方向计算机视觉和深度学习、非监督式学习，弱监督学习，迁移学习和社交场景理解。

参考链接：

https://blog.einstein.ai/prototypical-contrastive-learning-pushing-the-frontiers-of-unsupervised-learning/

https://sites.google.com/site/junnanlics/

end

点个在看支持一下吧