来源:新智元

机器学习中,伴随着更多高质量的数据标签,有监督学习模型的性能也会提高。然而,获取大量带标注数据的代价十分高昂。

按照AI行业的膨胀速度,如果每个数据点都得标记,「人工智能=有多少人工就有多智能」的刻薄笑话很可能会成为现实。

不过一直以来,表征学习、自监督学习等办法的「下游效能」至今未能超出有监督学习的表现。

2022年1月,DeepMind与牛津大学、图灵研究院针对此难题,联合研发出了RELICv2,证明了在ImageNet中使用相同网络架构进行同等条件下的对比,无标注训练数据集的效果可以超过有监督学习。

其中,RELICv2使用ResNet50时在ImageNet上实现了77.1%的top-1准确率,而更大的ResNet模型则带来了80.6%的top-1准确率,以较大的优势超越了此前的自监督方法。

为达到上述效果,研究者使用2021年问世的的「以因果预测机制进行表征学习」(缩写RELIC)的架构搭建模型。

相较于RELIC,RELICv2多了一个可以选择相似点和不同点的策略,相似点可以设计不变性的目标函数,不同点可以设计对比性质的目标函数。RELIC学习出的表征会更接近于底层数据的几何性质。这一特性使得这种方式学到的表征能更好地移用在下游任务上。

结果显示,RELICv2不仅优于其他竞争方法,而且是第一个在横跨1x,2x,和4x的ImageNet编码器配置中持续优于监督学习的自监督方法。

此外,在使用ResNet101、ResNet152、ResNet200等大型ResNet架构的情况下,RELICv2也超过了有监督基线模型的表现。

最后,尽管使用的是ResNet的架构,RELICv2也表现出了可以与SOTA的Transformer模型相提并论的性能。

RELICv2和视觉Transformer模型之间的ImageNet top-1准确率比较,Swin代表全监督的Transformer基线

值得注意的是,虽然另有其它研究的结果也超过了这一基线,但它们使用了不同的神经网络架构,所以并非同等条件下的对比。

方法

此前,RELIC引入了一个不变性损失,定义为锚点xi和它的一个正样本x+i之间的Kullback-Leibler分歧:

其中,梯度停止算子sg[-]不会影响KL-分歧的计算。

与RELIC类似,RELICv2的目标是最小化对比负对数似然和不变损失的组合。

对于给定的mini-batch,损失函数为:

其中,α和β是标量的超参,用于权衡对比和不变损失对整体目标的相对重要性。

RELICv2与RELIC的不同之处在于如何选择适当的正负样本和目标函数两部分之间的组合关系。

增强方法方面,除了标准的SimCLR,作者还应用了两种策略:不同大小的随机裁剪和显著性背景移除。

负样本的采样方面,作者从所有的负样本里随机采样,从而缓解假阴性的问题,也就是从同一个类别里采样到负样本对的问题。

for x in batch: # load a batch of B samples# Apply saliency mask and remove backgroundx_m = remove_background(x)for i in range(num_large_crops):# Select either original or background-removed# Image with probability p_mx = Bernoulli(p_m) ? x_m : x# Do large random crop and augmentxl_i = aug(crop_l(x))ol_i = f_o(xl_i)tl_i = g_t(xl_i)for i in range(num_small_crops):# Do small random crop and augmentxs_i = aug(crop_s(x))# Small crops only go through the online networkos_i = f_o(xs_i)loss = 0# Compute loss between all pairs of large cropsfor i in range(num_large_crops):for j in range(num_large_crops):loss += loss_relicv2(ol_i, tl_j, n_e)# Compute loss between small crops and large cropsfor i in range(num_small_crops):for j in range(num_large_crops):loss += loss_relicv2(os_i, tl_j, n_e)scale = (num_large_crops + num_small_crops) * num_large_cropsloss /= scale# Compute grads, update online and target networksloss.backward()update(f_o)g_t = gamma * g_t + (1 - gamma) * f_o

RELICv2的伪代码

其中,f_o是在线网络;g_t是目标网络络;gamma是目标EMA系数;n_e是负样本的数量;p_m是掩码应用概率。

结果

ImageNet上的线性回归

RELICv2的top-1和top-5准确率都大大超过了之前所有SOTA的自监督方法。

使用ResNet50编码器在ImageNet上的线性评估精度

对于其他的ResNet架构,RELICv2在所有情况下都优于监督学习,绝对值高达1.2%。

ImageNet上的半监督训练

作者对表征进行预训练,并利用ImageNet训练集中的一小部分可用标签,对所学的表征进行重新修正。

当使用10%的数据进行微调时,RELICv2的表现好于监督学习和此前所有SOTA的自监督方法。

当使用1%的数据时,只有C-BYOL的表现好于RELICv2。

任务迁移

作者通过测试RELICv2表征的通用性,从而评估所学到的特征是否可以用在其他的图像任务。

BYOL和RELICv2相对于监督学校的迁移性能(数值为0表示与监督的性能相同)

总的来说,RELICv2在11项任务中的7项都比监督学习和竞争方法都要好。

在所有任务中,RELICv2比监督学习平均提高了5%以上,是NNCLR的两倍。

其他视觉任务。为了进一步评估所学表征的通用性,作者通过finetuning评估RELICv2在其他具有挑战性的视觉任务中的表现。

可以看出,在PASCAL和Cityscapes上,RELICv2都比BYOL有明显的优势。而对于专门为检测而训练的DetCon,RELICv2也在PASCAL上更胜一筹。

在JFT-300M上的大规模迁移

作者使用JFT-300M数据集预训练表征来测试RELICv2在更大的数据集上的扩展性,该数据集由来自超过18k类的3亿张图片组成。

其中,Divide and Contrast(DnC)是一种专门为处理大型和未经整理的数据集而设计的方法,代表了当前自监督的JFT-300M预训练的技术水平。

当在JFT上训练1000个epoch时,RELICv2比DnC提高了2%以上,并且在需要较少的训练epoch时,取得了比其他竞争方法更好的整体性能。

使用JFT-300M数据集学习表征时在ImageNet上的top-1准确率

分析

通过计算所学表征之间的距离,可以了解到损失函数中的显式不变量对RELICv2所学到的表征的影响。

作者为此挑选了两种狗(维兹拉犬与雪达犬)和两种猫(暹罗猫和埃及猫)。在这四个类别中的每一个都有50个来自ImageNet验证集的点。

图中,每一行代表一幅图像,每一个彩色的点代表该图像的五个最近的邻居之一,颜色表示该图像与最近的邻居之间的距离。与基础类结构完全一致的表征会表现出完美的块状对角线结构;也就是说,它们的最近邻居都属于同一个基础类。

可以看到,RELICv2学习到的表征之间更加接近,并且在类和超类之间表现出比BYOL更少的混淆。

最邻近表征之间的欧几里得距离

为了量化所学潜在空间的整体结构,作者比较了所有的类内和类间距离。

其中,l2-距离的比值越大,也就是说表征更好地集中在相应的类内,因此也更容易在类与类之间进行线性分离。

结果显示,与监督学习相比,RELICv2的分布向右偏移(即具有较高的比率),这表明使用线性分类器可以更好地分离表征。

线性判别率的分布:在ImageNet验证集上计算的嵌入的类间距离和类内距离的比率

此外,作者也验证了其他工作的发现——模型越大就越具有样本效率。也就是说,在相同精度下,大模型需要的样本更少。

可以看到,为了达到70%的准确性,ResNet50模型需要的迭代次数大约是ResNet295模型的两倍。相比起来,ResNet295的参数数量大约是ResNet50的3.6倍(分别为87M和24M)。

结论

RELICv2首次证明了在没有标签的情况下学习到的表征可以持续超越ImageNet上强大的有监督学习基线。

在使用ResNet50编码器进行的同类比较中,RELICv2代表了对当前技术水平的重大改进。

值得注意的是,RELICv2优于DINO和MoCo v3,并在参数数量相当的情况下表现出与EsViT类似的性能,尽管这些方法用了更强大的架构和更多的训练。

参考资料:

https://arxiv.org/abs/2201.05119

推荐阅读

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 苏黎世联邦理工学院SML课题组招收统计机器学习全奖博士生

  • 读博五年,我总结出了7条帮你「少走弯路」的真理

  • 仅需12层网络,在ImageNet上准确率达到80.7%!普林斯顿大学最新提出ParNet!

  • MobileViT: 一种更小,更快,高精度的轻量级Transformer端侧网络架构(附代码实现)

  • 【移动端最强架构】LCNet吊打现有主流轻量型网络(附代码实现)

  • 基于Attention机制的轻量级网络架构以及代码实现

  • 深度学习中的轻量级网络架构总结与代码实现

  • 一文详解Inception家族的前世今生(从InceptionV1-V4、Xception)附全部代码实现

  • 华为2012实验室诺亚方舟实验室招聘视觉感知算法实习生

欢迎大家加入DLer-计算机视觉&Transformer群!

大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明)

ResNets首次反超有监督学习!DeepMind用自监督实现逆袭,无需标注相关推荐

  1. OTT渠道首次反超PC,2022互联网营销结构的拐点又来了?

    作者 | 曾响铃 文 | 响铃说 1989年, 中国开始建设互联网,至今互联网产业已经走到第33个年头.有一个行业从始至终伴随着互联网发展的脚步一路走来,那便是互联网广告. 在这30多年的路程中,互联 ...

  2. 台式电脑cpu排行榜_台式电脑CPU性能天梯图 AMD性能首次反超intel

    随着手机.平板.笔记本电脑的流行,台式电脑被谈起的几率越来越少,可以说是越来越不受重视了. 不过就总体性能来说,还是台式电脑性能更强悍.台式电脑以更强悍的性能,更大的屏幕显示器,在办公和游戏方面,仍然 ...

  3. 边缘AI芯片市场将在2025年首次反超云端AI芯片市场

    边缘AI将利用许多其他新兴技术,为消费者和企业领域的各种新商机铺平道路. 来源:雷锋网 作者:吴优 由于市场对低延迟.数据隐私以及低成本和超节能的可用性的日益关注,预计到2025年,边缘AI芯片组市场 ...

  4. 华为手机为何能反超小米?

    http://tech.qq.com/a/20151025/007777.htm 2015年10月25日 中国智能手机市场的格局以"迅雷不及掩耳盗铃之速"演变,曾经的"中 ...

  5. 中国AI城市格局突变:杭州反超深圳,南京上海平起平坐,济南首次跻身前十...

    明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 中国哪个城市AI算力更强? 杭州反超深圳成第二,北京依旧坐稳头把交椅: 南京首次冲进前五就将上海挤下Top 4,共同位列第一梯队(Top 5 ...

  6. Q1手机全球份额反超苹果,美国对华为的“双重恐惧”再度加深

    螳螂财经|李永华 华为在陷入风暴漩涡前那些如日中天的业务数据,又多"暴露"了一些. 知名调研机构Gartner最新数据显示,2019年Q1全球智能手机销量达5840万台,其中华为同 ...

  7. Cloud一分钟 |亚马逊市值被微软反超;GKE全球大宕机长达19小时;苹果市值跌破9000亿美元...

    Hello,everyone: 11月15日早,星期四,新的一天祝大家工作愉快! CSDN一分钟新闻时间: 云计算要"凉凉"?亚马逊市值被微软反超,巨头云计算支出放缓 亚马逊下跌. ...

  8. 广州的11个辖区_重庆前三季度GDP反超广州,这对两城到底意味着什么?

    最近各省市相继公布了各地区前三季度的GDP发展情况,有两个城市备受关注: 重庆和广州. 在2019年城市GDP排行榜上重庆仅落后广州不到30亿元,彼时"北上广深"变"北上 ...

  9. 【独角日“爆”】携程或计划从纳斯达克退市;雷军入驻B站;台积电市值反超英特尔...

    "HOT" 华为:"印度分公司计划裁减逾半员工报道"不实 7月28日消息,据国外媒体报道,华为发布声明称,"印度分公司计划裁减逾半员工报道" ...

最新文章

  1. WCF后续之旅(10): 通过WCF Extension实现以对象池的方式创建Service Instance
  2. linux c remove 删除文件或目录函数
  3. 设为首页加入收藏代码
  4. Andrew NG 机器学习编程作业5 Octave
  5. thinkphp mysql函数_thinkphp对数据库操作有哪些内置函数
  6. hdu 1281棋盘游戏(二分匹配)
  7. FIFO、UART、ALE解释
  8. 初试 spring web mvc
  9. HBase因hostname可能引起的RIT问题。HBASE的ip和hostname坑
  10. Java后台直接生成二维码介绍
  11. layer修改弹框标题样式
  12. 考研复试问题集锦——数据库
  13. JS淘宝商品广告效果
  14. python中转义字符用法及例子,python的转义字符及用法代码解析
  15. 51 nod 2070 最小罚款
  16. SQL Server AlwaysOn可用性及故障转移
  17. python实现检查邮箱格式是否正确,并检查提交的文件格式是否正确
  18. 肺癌救星:易瑞沙(吉非替尼)疗效及复查时间
  19. 数据存储设备的发展历史
  20. 12款精选浏览器插件推荐

热门文章

  1. [20160303]显示bbed x命令格式.txt
  2. my vim IDE 编辑器的配置
  3. HP笔记本 CQ41全系列系统解决方案
  4. php中 继承中的概念,JavaScript_JavaScript中的继承方式详解,js继承的概念 js里常用的如下 - phpStudy...
  5. mysql非聚集索引区间查询_mysql的聚集索引和非聚集索引,回表查询,索引覆盖,最左前缀原则略解...
  6. python sftp传输文件总是报文件不存在_Paramiko:通过SFTP传输文件时,windows文件路径出错...
  7. javap 查看class文件的字节码命令用法
  8. python正则表达式re.sub用法
  9. 批处理,%~d0 cd %~dp0 代表什么意思
  10. 将txt文件和excel文件导入SQL2000数据库