来源:DeepHub IMBA
本文约2500字,建议阅读5分钟
自监督 ResNets 能否在 ImageNet 上没有标签的情况下超越监督学习?

在本文中将介绍最近一篇推动自监督学习状态向前发展的论文,该论文由 DeepMind 发表,绰号为 ReLICv2。

Tomasev 等人的论文“Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?”。提出了对 ReLIC 论文的技术的改进,该论文名为“Representation learning via invariant causal mechanisms”。他们方法的核心是增加了 Kullback-Leibler-Divergence 损失,这是使用经典对比学习目标的概率公式计算的。除此以外还引入了一种新颖的增强方案,并借鉴了其他相关论文的经验。

本文尽量保持简单,以便即使是没有先验知识的读者也可以跟进。

计算机视觉的自监督和无监督预训练

在深入研究论文之前,有必要快速回顾一下自监督预训练的全部内容。如果你对自监督学习有所了解,或者熟悉自监督预训练,可以跳过这一部分。

一般情况下计算机视觉模型一直使用监督学习进行训练。这意味着人类查看图像并为它们创建各种标签,模型可以学习这些标签的模式。例如,人工注释者会为图像分配类标签或在图像中的对象周围绘制边界框。但任何接触过标签任务的人都知道,创建足够的训练数据集的工作量很大。

相比之下,自监督学习不需要任何人工创建的标签,模型自己监督自己学习。在计算机视觉中,对这种自监督进行建模的最常见方法是对图像进行不同的裁剪或对其应用不同的增强,并将修改后的输入传递给模型。这样可以即使图像包含相同的视觉信息但看起来不一样,也就是说让模型知道这些图像仍然包含相同的视觉信息,即相同的对象,这样可以让模型学习相同对象的相似潜在表示(输出向量)。

然后可以在这个预训练模型上进行迁移学习。这些模型会在 10% 的带有标签的数据上进行训练,以执行目标检测和语义分割等下游任务。

论文的贡献

正如许多其他自监督预训练技术的情况一样,ReLICv2 训练过程的第一步也是关于数据增强。在论文中,作者首先提到了使用以前成功的增强方案。

第一个是 SwAV 中使用的增强。与之前的工作相反,SwAV 不仅创建了两种不同的输入图像裁剪,而且最多可以裁剪 6 次。这些可以制作成不同的尺寸,例如 224x244 和 96x96,最成功的数量是两个大尺寸和 6 个小尺寸。如果想了解更多有关 SwAV 增强方案的信息,请阅读原论文。

先前描述的第二组增强来自 SimCLR。这个方案现在几乎被这个领域的所有论文使用。通过应用随机水平翻转、颜色失真、高斯模糊和过度曝光来处理图像。如果您想了解有关 SimCLR 的更多信息,请阅读原论文。

但是 ReLICv2 还提供了一种新颖的增强技术:从图像中的对象中移除背景。为了实现这一点,他们以无监督的方式在一些 ImageNet 数据上训练一个背景去除模型。作者发现这种增强在以 10% 的概率应用时最有效。

一旦图像被增强并进行了多次裁剪,输出将通过编码器网络和目标网络。当编码器网络使用反向传播进行更新时,目标网络通过类似于 MoCo 框架的动量计算接收更新。

ReLICv2 的总体目标是学习编码器,以便为相同的类生成一致的输出向量。作者制定了一种新颖的损失函数。它们从标准的对比负对数似然开始,其核心具有相似性函数,将锚图像(主要输入图像)与正例(图像的增强版本)和负例(同一图像中的其他图像)进行比较。

ReLICv2 损失函数由负对数似然和锚视图和正视图的 Kullback-Leibler 散度组成。

这种损失通过对比目标的概率公式得到扩展:锚图像的可能性与正图像的可能性之间的 Kullback-Leibler 散度。这迫使网络学习相似的图像不要靠得太近,不相似图像可以离得远一些,避免发生可能导致学习崩溃的极端聚类,并在集群之间创建更平衡分布。所以这个额外的损失项可以看作类似于一个自监督的模式。对于这个损失函数包含了alpha 和 beta 两个超参数,分别可以对两个损失项进行单独加权。

所有这些的方法的加入被证明是成功的,让我们仔细看看论文中提出的结果。

结果展示

正如论文标题所述,ReLICv2 试图证明的要点是,自监督预训练方法只有在编码器网络都使用相同的网络架构时才具有可比性。对于他们的工作,选择使用经典的 ResNet-50。

在 ImageNet 下使用不同预训练 ResNet-50 的结果。

当使用相同的 ResNet-50 并在 ImageNet-1K 上训练其线性层同时冻结所有其他权重时,ReLICv2 比现有方法有相当大的优势。与原始 ReLIC 论文相比,引入的改进甚至带来了性能优势。

与不同数据集上的监督预训练模型相比,准确性有所提高。

在比较其他数据集上的迁移学习性能时,ReLICv2 与其他方法(如 NNCLR 和 BYOL)相比,继续表现出令人印象深刻的性能。这进一步表明 ReLICv2 是一种新的、先进的自监督预训练方法。其他论文中不经常提到对其他数据集的评估。

ReLICv2 和 BYOL 学习簇的可视化。点越蓝,越接近对应的类簇。

这个图表显示 ReLICv2 学习的类比其他框架(如 BYOL)更接近。这再次表明与其他方法相比,这些技术有可能创建更细粒度的簇。

最后总结

在本文中介绍了ReLICv2,这是一种新的自我监督预训练方法并显示出非常好的的实验结果。

通过结合对比学习目标的概率公式,并通过添加经过验证的新颖增强方案,该技术能够推动视觉自监督预训练的空间向前发展。

希望本文能让你对 ReLICv2 有一个很好的初步了解,但仍有很多东西需要发现。因此建议阅读原论文,即使您是该领域的新手。你必须从某个地方开始;)希望你喜欢这篇论文的解释。如果对文章有任何意见或发现任何错误,请随时发表评论。

引用:

[1] Mitrovic, Jovana, et al. “Representation learning via invariant causal mechanisms.” arXiv preprint arXiv:2010.07922 (2020).

[2] Tomasev, Nenad, et al. “Pushing the limits of self-supervised ResNets:  Can we outperform supervised learning without labels on ImageNet?.” arXiv preprint arXiv:2201.05119 (2022).

编辑:黄继彦

论文推荐:ReLICv2 ,新的自监督学习能否在ResNet 上超越监督学习?相关推荐

  1. #今日论文推荐# ICDE 2022 | 港大等提出:基于时空自监督学习的犯罪预测

    #今日论文推荐# ICDE 2022 | 港大等提出:基于时空自监督学习的犯罪预测 犯罪问题已成为许多城市关注的主要问题,准确的犯罪预测对于政府相关部门的事先决策至关重要.预测城市中每个地理区域的城市 ...

  2. #今日论文推荐# 陈天奇、王威廉等人推荐:ACL最佳论文奖得主给新入行研究者的一点建议

    #今日论文推荐# 陈天奇.王威廉等人推荐:ACL最佳论文奖得主给新入行研究者的一点建议 本文将对两篇篇博客的中心思想进行了编译整理(以第一人称转述),内容如下: 前提:扩展你的相邻可能 想法往往出现在 ...

  3. #今日论文推荐# 2名全色盲儿童部分恢复视锥细胞功能,新研究首次证明基因治疗可激活休眠视锥细胞通路

    #今日论文推荐# 2名全色盲儿童部分恢复视锥细胞功能,新研究首次证明基因治疗可激活休眠视锥细胞通路 色盲即色觉缺陷或色觉辨认障碍,通常是指看见颜色及辨别颜色的能力减退,无法看到某些颜色间的差异. 这是 ...

  4. #今日论文推荐#北大校友发现级联光学新效应,首次验证不同类型非线性过程在量子尺度上的干涉现象,为集成量子光学带来新可能

    #今日论文推荐#北大校友发现级联光学新效应,首次验证不同类型非线性过程在量子尺度上的干涉现象,为集成量子光学带来新可能 "该成果给可实时调控的光学非线性开创了一条可行性道路.对于光学频率梳来 ...

  5. #今日论文推荐# 用GNN做CV三大任务的新骨干,同计算成本性能不输CNN、ViT与MLP|中科院华为诺亚开源

    #今日论文推荐# 用GNN做CV三大任务的新骨干,同计算成本性能不输CNN.ViT与MLP|中科院&华为诺亚开源 用图神经网络(GNN)做CV的研究有不少,但通常是围绕点云数据做文章,少有直接 ...

  6. CV Papers|计算机视觉论文推荐周报20200504期

    五月第四周,推荐本周新出的几篇不错的CV论文,其中包含5篇最新综述,希望对大家有帮助.    图像检索 #CVPRW2020##衣服检索# [1].An Effective Pipeline for ...

  7. CV Papers|计算机视觉论文推荐周报20200502期

    五月第二周,推荐本周新出的 20 篇 CV 论文,其中 1 篇最新综述,含虚拟现实.自动驾驶.行人检测与计数.人脸检测与恢复等方向,部分有对应代码也把地址列出了,希望对大家有帮助.    虚拟现实数据 ...

  8. 必读论文 | 生成对抗网络经典论文推荐10篇

    生成式对抗网络(Generative adversarial networks, GAN)是当前人工智能学界最为重要的研究热点之一.其突出的生成能力不仅可用于生成各类图像和自然语言数据,还启发和推动了 ...

  9. 《强化学习周刊》第69期:ICLR2023强化学习论文推荐、MIT实现自动调整内在奖励的强化学习...

    No.69 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

最新文章

  1. 走进Java接口测试大门之测试框架TestNG
  2. JDBC连接执行MySQL存储过程报空指针或权限错误
  3. cocos2d-x编程之CCScale9Sprite典型用法
  4. 洛谷 P1294 高手去散步-邻接矩阵+dfs-求无向图的一条最长路径
  5. PageRank 算法
  6. Java形参的改变不会影响实参
  7. 安卓布局,GridLayout
  8. html怎么增加td的宽度,html td怎么设置宽度
  9. springCloud—Eureka知识点总结
  10. 常用激活函数(激励函数)理解与总结
  11. 新倩女幽魂服务器维护,《倩女幽魂Online》更新公告(版本1.0.23)
  12. 如何查找计算机主机地址,ip地址查询 怎么查询电脑IP地址?
  13. 硬件知识:视频分配器、画面分割器、矩阵、延长器相关知识介绍
  14. PKI密码学学习笔记
  15. html右侧下拉菜单怎么写,HTML中下拉菜单使用
  16. 点餐系统,餐厅点餐系统,外卖点餐系统python计算机毕业设计
  17. Android设置按钮不可点击
  18. 腾讯云服务器Ubuntu系统如何使用 root 用户远程登录
  19. 2维正态分布-矩阵表示-推导过程
  20. J4125小主机部署软路由笔记01

热门文章

  1. python人工智能计算器_招募:基于python的召唤师全时段全技能(含均值AI)计算器全程测试...
  2. 【机器学习】多项式回归原理介绍
  3. 机器人上岗,到了跟美女HR说拜拜的时候了?
  4. python操作excel之 模块 xlrd (详解)
  5. Nginx反向代理和负载均衡部署指南
  6. Codeforces Round #369 (Div. 2)
  7. 【BZOJ】3527: [Zjoi2014]力(fft+卷积)
  8. Informix执行onmonitor出错的解决办法
  9. Dictionary (Of (TKey, TValue)) Class Example
  10. IP 管理,几多欣喜几多忧