点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★,与你不见不散

编辑:Sophia
计算机视觉联盟  报道  | 公众号 CVLianMeng

转载于 :专知

AI博士笔记系列推荐:

博士笔记 | 周志华《机器学习》手推笔记“神经网络”

无监督学习再发力!Facebook AI 研究团队的陈鑫磊、樊昊棋、Ross Girshick、何恺明等人提出了第二版动量对比(MoCo)的无监督训练方法。使用一个MLP投影头和更多的数据增强——建立了比Hinton前一久的SimCLR更强的基准,并且不需要大量的训练。

对比式无监督学习最近取得了令人鼓舞的进展,例如动量对比(MoCo)和SimCLR。在本文中,我们通过在MoCo框架中实现SimCLR的两个设计改进来验证它们的有效性。通过对MoCo的简单修改——即使用一个MLP投影头和更多的数据增强——我们建立了比SimCLR更强的基准,并且不需要大量的训练。我们希望这将使最先进的无监督学习研究更容易获得。代码将被公开。

论文链接:https://arxiv.org/pdf/2003.04297.pdf

最近关于从图像中进行无监督表示学习的研究[16,13,8,17,1,9,15,6,12,2]都集中在一个中心概念上,即对比学习[5]。结果是非常有希望的:例如,动量对比(MoCo)[6]表明,在多个检测和分割任务中,无监督前训练可以超越其图像监督后,而SimCLR[2]进一步减少了无监督和监督前预训练表示之间的线性分类器性能的差距。

本文介绍在MoCo框架内建立了更强、更可行的基线。我们报告了SimCLR中使用的两个设计改进,即一个MLP投影头和更强的数据增强,与MoCo和SimCLR框架是正交的,当与MoCo一起使用时,它们会带来更好的图像分类和目标检测迁移学习结果。此外,MoCo框架可以处理大量的负样本,而不需要大量的训练批(图1)。与需要TPU支持的SimCLR的大4k∼8k批相比,我们的“MoCo v2”基线可以在典型的8-GPU机器上运行,并且获得比SimCLR更好的结果。我们希望这些改进的基线能够为未来的无监督学习研究提供参考。

图1:对比学习的两种优化机制的批处理透视图。图像被编码到一个表示空间中,在这个表示空间中计算成对的相似度。

方法

对比学习及其最新进展可以看做是为查词典任务训练一个编码器。

假设有一个编码的查询 q 和一组编码的样本 {k0, k1, k2, ...},它们都是词典的键。词典中有一个键(k+)与 q 相匹配。对比损失是一个函数,该函数的值在 q 类似于其正键 k+且不同于其他所有键(q 的负键)时很低。研究者使用点积的相似度度量,这是一种对比损失函数的形式,名为 InfoNCE。本文采用了这个函数:

这一对比损失函数充当一个无监督目标函数,用于训练表征查询和键的编码器网络。总体来说,查询表征是 q = f_q(x^q ),其中的 f_q 是一个编码器网络,x^q 是查询样本。

改进设计

SimCLR[2]在三个方面改进了实例识别的端到端变体:(i)能够提供更多负样本的更大的批处理(4k或8k);(ii)将输出的fc投影头[16]替换为MLP头;(三)数据扩充能力增强。

在MoCo框架中,大量的负样本是现成的;MLP头和数据扩充与对比学习的实例化方式是正交的。接下来,我们研究MoCo中的这些改进。

实验设置

在1.28M的ImageNet[3]训练集上进行无监督学习。(i) ImageNet线性分类:对特征进行冻结,训练监督线性分类器;我们报告了1种crop(224×224),验证准确率排名第一。(ii) 迁移到VOC目标检测[4]:更快的R-CNN检测器[14](c4 -主干)在VOC 07+12训练集上对所有条目(包括监督和MoCo v1基线)进行端到端微调,我们对VOC进行24k迭代微调,高于[6]中的18k。并在VOC 07测试集上使用COCO标准[10]进行评估。我们使用与MoCo[6]相同的超参数(除非特别指出)和代码库。所有结果使用标准大小的ResNet-50[7]。

MLP头 在[2]之后,我们将MoCo中的fc头替换为2层MLP头(隐藏层2048-d,使用ReLU)。注意,这只影响到非监督训练阶段;线性分类或迁移阶段不使用这个MLP头。[2]之后,我们寻找一个最佳的τ关于ImageNet线性分类准确率:

使用默认τ= 0.07[16,6],训练的MLP头提高从60.6%至62.9%;切换到MLP的最优值(0.2),准确度度提高到66.2%。表1(a)显示了它的检测结果:与ImageNet上的大飞跃相比,检测增益更小。

数据增强 我们通过在[2]中加入模糊增强来扩展[6]中的原始增强(我们发现在[2]中更强的颜色失真在我们更高的基线中有递减的增益)。单独的额外增加(即(no MLP)将ImageNet上的MoCo基线提高了2.8%,达到63.4%,见表1(b)。有趣的是,它的检测准确率比单独使用MLP要高,表1(b)与(a),尽管线性分类准确度要低得多(63.4%比66.2%)。这说明线性分类精度与检测中的迁移性能不是单调相关的。对于MLP,额外的增强将ImageNet的精度提高到67.3%,见表1(c)。

与SimCLR进行比较 表2将SimCLR[2]与我们的结果MoCo v2进行了比较。为了公平比较,我们还研究了SimCLR采用的一个余弦(半周期)学习速率调度[11]。表1(d, e)。MoCo v2使用200个epoch和256个批量大小的预训练,在ImageNet上达到67.5%的准确率,比SimCLR在相同epoch和批量大小下的准确率高5.6%,比SimCLR的大批量结果高66.6%。通过800-epoch的预训练,MoCo v2达到了71.1%,超过了SimCLR的69.3%,达到了1000个epoch。

计算成本

在表3中,我们报告了实现的内存和时间成本。端到端案例反映了GPU中的SimCLR成本(而不是[2]中的TPUs)。即使在高端的8-GPU机器上,4k的批处理大小也是难以处理的。而且,在相同的批处理大小为256的情况下,端到端变体在内存和时间上仍然更昂贵,因为它向后传播到q和k编码器,而MoCo只向后传播到q编码器。

表2和表3表明,为了获得良好的准确性,不需要大的训练批处理。我们研究的改进只需要对MoCo v1进行几行代码更改,我们将公开代码以方便将来的研究。

END

声明:本文来源于网络

如有侵权,联系删除

联盟学术交流群

扫码添加联盟小编,可与相关学者研究人员共同交流学习:目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟  

最新热文荐读

GitHub | 计算机视觉最全资料集锦

Github | 标星1W+清华大学计算机系课程攻略!

Github | 吴恩达新书《Machine Learning Yearning》

收藏 | 2020年AI、CV、NLP顶会最全时间表!

收藏 | 博士大佬总结的Pycharm 常用快捷键思维导图!

收藏 | 深度学习专项课程精炼图笔记!

笔记 | 手把手教你使用PyTorch从零实现YOLOv3

笔记 | 如何深入理解计算机视觉?(附思维导图)

笔记 | 深度学习综述思维导图(可下载)

笔记 | 深度神经网络综述思维导图(可下载)

总结 | 2019年人工智能+深度学习笔记思维导图汇总

点个在看支持一下吧

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版,超越Hinton的SimCLR,刷新SOTA准确率...相关推荐

  1. 再发力!Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版,超越Hinton的SimCLR,刷新SOTA准确率...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! [导读]无监督学习再发力!Facebook AI 研究团队的陈鑫磊.樊昊棋.Ros ...

  2. 何恺明团队最新研究:3D目标检测新框架VoteNet,两大数据集刷新最高精度

    [导读]FAIR何恺明等人团队提出3D目标检测新框架VoteNet,直接处理原始数据,不依赖任何2D检测器.该模型设计简单,模型紧凑,效率高,在两大真实3D扫描数据集上实现了最先进的3D检测精度. 当 ...

  3. Paper:2020年3月30日何恺明团队最新算法RegNet—来自Facebook AI研究院《Designing Network Design Spaces》的翻译与解读

    Paper:2020年3月30日何恺明团队最新算法RegNet-来自Facebook AI研究院<Designing Network Design Spaces>的翻译与解读 导读: 卧槽 ...

  4. Paper之RegNet:《Designing Network Design Spaces》的翻译与解读—2020年3月30日来自Facebook AI研究院何恺明团队最新算法RegNet

    Paper之RegNet:<Designing Network Design Spaces>的翻译与解读-2020年3月30日来自Facebook AI研究院何恺明团队最新算法RegNet ...

  5. 大概是全网最详细的何恺明团队顶作MoCo系列解读...(完结篇)

    ​作者丨科技猛兽 编辑丨极市平台 本文原创首发于极市平台,转载请获得授权并标明出处. 大概是全网最详细的何恺明团队顶作 MoCo 系列解读!(上) 本文目录 1 MoCo v2 1.1 MoCo v2 ...

  6. 【深度学习】大概是全网最详细的何恺明团队顶作MoCo系列解读...(完结篇)

    作者丨科技猛兽 编辑丨极市平台 导读 kaiming 的 MoCo让自监督学习成为深度学习热门之一, Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来 ...

  7. 详解何恺明团队最新作品:源于Facebook AI的RegNet

    2020-06-18 14:50:24 机器之心转载 来源:计算机视觉研究院 作者:Edison_G 前段时间,何恺明组的研究者提出了一种新的网络设计范式.与以往研究不同,他们没有专注于设计单个网络实 ...

  8. 何恺明 MIT 最新演讲:未来工作将聚焦 AI for science

    CV 人的大型追星现场来了. 来源 | AI科技评论 作者 | 黄楠   编辑 | 陈彩娴 又一名 AI 大神有了新动向! 当地时间3月13日下午3点,何恺明在MIT做学术演讲.据现场网友所述,即便自 ...

  9. 何恺明团队最新力作RegNet:超越EfficientNet,GPU上提速5倍,这是网络设计新范式 | CVPR 2020...

    鱼羊 十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 大神(组团)出奇招,踢馆各路神经网络. 还是熟悉的团队,还是熟悉的署名,Facebook AI实验室,推陈出新挑战新的网络设计范式. ...

最新文章

  1. 通过Matlab发送邮件要注意的问题
  2. k8命令,pod的启动流程与资源文件书写,k8s集群调度
  3. mysql备份一个表到ftp_备份部分mysql表并上传至指定ftp服务器目录中
  4. (1) 漂亮的日期控件
  5. 每个开发人员现在应该下载的十种必备工具
  6. 11个JavaScript颜色选择器插件
  7. [剑指offer]面试题第[54]题[JAVA][二叉搜索树的第k大节点][递归][迭代]
  8. 【项目管理】虚拟团队
  9. php识别字符编码,PHP自动识别字符集编码并完成转码_PHP教程
  10. 数据结构2 - 线性表
  11. poj 3461 - Oulipo
  12. Chrome 终究走上了 IE 6 的老路
  13. 【渝粤教育】国家开放大学2018年秋季 1141t工程经济与管理 参考试题
  14. 中文只占一个字符_男人宠妻的三大表现,就算只占一个,你都是嫁对了人!
  15. cisco 思科三层交换机配置命令
  16. Vue中级指南-02 如何在Vue项目使用富文本
  17. 百度世界地图实现方法
  18. 中国ERP三大流程 国外ERP黯然失色
  19. maximum-subarray[最大连续子序列]
  20. 关于uni-app中uni-forms表单验证时“多级结构对象数据”如何做数据校验的解决方案

热门文章

  1. oracle的索引使用方法,在OracleE数据库的字段上建立索引的方法
  2. 三星鸿蒙手机,被忽视的对手:三星的自研系统,已全球第一,成华为鸿蒙对手...
  3. python表格类型数据的组织维度是_Python数据分析 - Numpy
  4. uri=http: //java.sun.c om/jsp/jstl/core 出错
  5. fisher线性判别算法python_Fisher线性判别(LDA)python实现
  6. 二叉搜索树的中序遍历为 递增序列_Go 刷 Leetcode 系列:恢复二叉搜索树
  7. tcp,udp报文最大长度
  8. HDU 4753 Fishhead’s Little Game(DFS)
  9. FLUSH TABLES WITH READ LOCK 和 LOCK TABLES比较
  10. android 升级数据库 修改表结构