任何接触过机器学习的人都肯定听说过监督学习和无监督学习。这些实际上是机器学习的两种重要的可能方法，已被广泛使用多年。然而，直到最近，一个新术语“自我监督学习”出现了爆炸式增长！但是让我们一步一步来，一一看看各种方法，试图找到与人脑的类比。

监督学习

就像“基于标记示例的学习”。该模型使用标记数据进行训练，因此它们已被仔细标记，使每个示例都与特定类别相关联。通过研究每个类的各种示例的特征，该模型学会了泛化，甚至能够对它从未见过的数据进行分类。

为了应用这种方法，因此需要标记良好的数据，但并不总是可用的，并且该模型可能会根据标记的进行方式产生偏差。

通过向您展示大量标记的例子，明确告诉您什么是狗和什么是猫。

无监督学习

相反，无监督学习 包括在未标记的数据中搜索具有共同特征的示例组。在大多数情况下，这些方法与聚类有关。无监督方法不需要标记数据集，但需要许多示例、计算资源和定义的函数来描述两者之间的差异，这并不总是那么容易。

观察大量跑来跑去的狗和猫，找出哪些是狗，哪些是猫，将它们分成两组。

自监督学习

自监督学习 是一种创新的无监督方法，取得了巨大的成功，现在被许多人认为是机器学习的未来。

主要方法是在数据集上进行训练，例如图像，但每个数据集都以其原始形式和转换版本作为输入提供。这些变换可以是任何类型的，例如裁剪或旋转。

该模型必须设法将输入原始图像并因此具有完整且不变的输入视觉的内部网络与接收转换图像的网络所做的预测之间的预测差异最小化.

使用这种方法，已经看到生成的模型可以学习以极好的方式进行泛化，无需标签，生成高质量的输入表示，在某些情况下甚至比监督方法更好！用这种方法训练的模型将自己学习一个表示系统，其中从相似对象获得的转换图像将接近。

与人类大脑的类比：想象你所观察到的事物中不存在的东西。例如，想象一支钢笔在你看到它滚向桌子边缘时会掉下来，或者想象一只猫尾巴的末端，即使它隐藏在树后面。

为什么要在 Vision Transformers 中进行自我监督学习？

虽然 Vision Transformers 可以取得比其他传统架构更好的结果，但它们的成功取决于对数据的相当大的需求。因此，以受监督的方式训练这些模型需要大量的标记工作，这并不总是可行或可持续的。因此，实现 Vision Transformers 的自监督方法可能是使这些模型不仅强大而且更容易应用于更广泛问题的一种可能方法。

要了解这种方法有多么强大，让我们暂时转向自然语言处理领域，在那里自我监督的方法可以实现不可思议的结果。

GPT-3 是迄今为止最大的语言模型之一，拥有 1750 亿个参数，被认为是通向人工通用智能 (AGI) [7] 的第一步，能够翻译文本、总结文本、回答问题甚至编写基于文字描述！但是要训练这样一个大型模型，它也是基于 Transformers，你需要大量的数据，特别是 GPT-3 是用 570GB 的网络爬行收集的文本信息进行训练的。假设我们想以有监督的方式训练这个模型，这意味着手动标记所有这些数据，这太疯狂了！

也可以用其他更经典的无监督方法来克服这个障碍，但有必要定义一个合适的相似性度量（并考虑如果我们转向计算机视觉，这对图像意味着什么）并消耗更多计算资源，然后可能最终得到一个能力较差的模型！

在下面的段落中，Vision Transformers 的一些基本方面将被视为理所当然，

SiT：自我监督的视觉Transformer

鉴于以自监督方式训练模型的无可置疑的优势，提出的一种可能方法是自监督视觉Transformer (SiT)。这种方法的基本假设是，通过基于整个视野的上下文从未损坏的部分恢复图像的损坏部分，网络将隐含地学习视觉完整性的概念。

在这种方法中，

1. 输入图像会根据可用的策略之一进行破坏：随机丢弃、随机替换、颜色失真等。

图片来自 SiT：自我监督的视觉Transformer(https://arxiv.org/abs/2104.03602)

2. 然后将图像分成补丁并通过经典的 Vision Transformer 机制以及两个额外的标记，用于旋转预测的旋转标记和用于对比学习的对比标记。

3. 然后将来自Transformer编码器的结果表示转换回补丁并重新组合以获得重建的图像。该模型应尝试减少重建图像和原始图像之间的差异。

使用这种方法训练的网络的权重可以用作另一个任务的起点，例如图像分类、对象检测、分割等。

DINO：无标签自蒸馏

取得最惊人结果的方法之一当然是 DINO [2]，它通过一系列数据增强和使用知识蒸馏技术，已经能够以惊人的方式进行图像分割！

原始视频（左）、监督模型获得的分割（中）与 DINO 生成的分割（右）之间的比较。图片来自 Facebook AI(https://ai.facebook.com/blog/dino-paws-computer-vision-with-self-supervised-transformers-and-10x-more-efficient-training/)。

这是目前最有前途的方法之一，能够突出视觉Transformer和自我监督的结合所提供的可能性。

EsViT：高效的自监督视觉Transformer

DINO 最近被用作一种新的、更先进的视觉Transformer的基础，称为高效自监督视觉Transformer (EsViT) [8]。EsViT 还利用固定教师网络和不断更新的学生网络来利用知识蒸馏，以尽量减少损失函数。在这种情况下，一个有趣的特点是它采用了多级Transformer而不是单片Transformer，并利用稀疏Attention来减少计算。整个模型的损失函数由两个不同的损失（区域损失和视图损失）的组合给出。

EsViT 全局和本地令牌可视化。作者基于 Efficient Self-supervised Vision Transformers for Representation Learning 提供的图片(https://arxiv.org/abs/2106.09785)

给定输入图像，确实使用不同的数据增强技术生成了一组不同的视图。这些结果视图被配对以获得一组对。然后每一对都被转换成令牌并用于组成损失的第一个组成部分，即视图损失。

作者强调：“在 DINO 中，损失函数仅在粗略级别鼓励“局部到全局”对应：大裁剪和小裁剪在视图级别匹配，未指定区域到区域的对应关系”[8 ]。当移动到区域级别时，可以看到 EsViT 解决这个问题的一个重要特性。事实上，所考虑的图像对的两个图像都被分成块，然后由一种特殊的密集自监督学习方法加以利用，该方法直接在局部特征的级别上工作，同时考虑到它们的对应关系。

从Attention图可以看出 DINO 倾向于自动学习特定于类的Attention图导致前景对象分割，无论其查询位于前景还是背景，而 EsViT 的各个负责人学习的Attention图更加多样化。

来自 DINO（左）和 EsViT（右）的不同头部的Attention图。作者基于 Efficient Self-supervised Vision Transformers for Representation Learning 提供的图片(https://arxiv.org/abs/2106.09785)

这种不同的方法使 EsViT 在 ImageNet 上取得了非常好的结果，并使用了更轻、更高效的模型！

结论

人类产生的数据量是惊人的，而且是前所未有的。据估计，每天产生 2.5 quintillion 字节，而且这个数字还会上升 [11]。物联网系统正变得越来越普遍，传感器在任何特定时刻收集数据，社交网络的大量使用及其可访问性允许任何人在短时间内在网络上输入信息，卫星收集我们星球上的各种数据.

试想，仅在过去的两年里，世界上 90% 的数据都是生成的！

这些数据实际上是机器学习的黄金，是任何模型的燃料，它的丰富性可以为我们今天甚至无法想象的无数应用打开大门。然而，相信这些模型可以以受监督的方式进行训练是不可想象的，因为这需要费力且不可持续的手动标记。

因此，无监督，尤其是自监督的方法将在该领域变得越来越重要和重要，并且与 Vision Transformers 等新架构相结合，它们将成为机器学习未来的主要参与者。

Vision Transformer中的自监督学习相关推荐

ICCV2021 | Vision Transformer中相对位置编码的反思与改进
前言在计算机视觉中,相对位置编码的有效性还没有得到很好的研究,甚至仍然存在争议,本文分析了相对位置编码中的几个关键因素,提出了一种新的针对2D图像的相对位置编码方法,称为图像RPE(IRPE). ...
Vision Transformer 综述
本文来自{A Survey on Vision Transformer} T-PAMI2022 目录 Abstract 1. Introduction 2. Formulation of Trans ...
【读点论文】A Survey on Vision Transformer,2022年华为诺亚最新综述研究，从发展到任务，整体到局部。ViT有研究价值在于有很多问题还没有解决，真理是阶段性的产物
A Survey on Vision Transformer Abstract transformer最早应用于自然语言处理领域,是一种主要基于自注意机制的深度神经网络.由于其强大的表示能力,研究人员 ...
ICCV 2021 | 视觉Transformer中的相对位置编码
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达本文转载自:将门创投相对位置编码(RelativePosition Encoding)能够显式地对Tran ...
【图像分类案例】(10) Vision Transformer 动物图像三分类，附Pytorch完整代码
大家好,今天和各位分享一下如何使用 Pytorch 构建 Vision Transformer 网络模型,并使用权重迁移学习方法训练模型并预测. Vision Transformer 的原理和 T ...
【读点论文】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows通过窗口化进行局部MSA，sw-MSA融合信息
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows abstract 本文提出了一种新的视觉transfor ...
Swin-Transformer:Hierarchical Vision Transformer using Shifted Windows详细解读
Swin-Transformer:Hierarchical Vision Transformer using Shifted Windows Swin Transformer是2021年微软研究院发表 ...
【论文笔记】Rethinking and Improving Relative Position Encoding for Vision Transformer
论文论文题目:Rethinking and Improving Relative Position Encoding for Vision Transformer 接收:ICCV 2021 论文地址 ...
Vision Transformer with Deformable Attention
DAT title: Vision Transformer with Deformable Attention 论文:https://arxiv.org/abs/2201.00520 代码:https ...

Vision Transformer中的自监督学习