作者 | 陈大鑫、青暮

转自:AI科技评论

谷歌大脑和UC伯克利近期联合发表了一篇论文,这篇论文对何恺明等人2015年发表的ResNet为骨干的ResNets系列网络做了重新的回顾和研究。

论文地址:https://arxiv.org/abs/2103.07579

GitHub地址(TensorFlow):

https://github.com/tensorflow/models/tree/master/official/vision/beta

https://github.com/tensorflow/tpu/tree/master/models/official/resnet/resnet_rs

大家都知道ResNet自提出以来便取得了巨大的成功,一时之间很多视觉研究工作都会以此为骨干网络,但是近两年来ResNets这一骨干网络的地位逐渐被EfficientNets取代。

根据Papers with Code上ImageNet图像分类的Top-5准确率排行榜,前五名都是基于EfficientNet架构,第六名才是基于ResNet的BiT-L。

ResNes难道注定就比不过EfficientNets吗?

本篇论文便是对ResNets进行了重新研究。在这篇论文中,研究人员决定分别分析模型架构、训练和扩展策略的效果。

令人惊讶的是,研究人员在这篇论文中发现训练和扩展策略可能要比架构更改更重要,而且,最终的ResNet是可以与SOTA模型相比的。

这似乎意味着ResNets网络终于可以与EfficientNets网络匹敌了。

这究竟是怎么做到的呢?

曾在Kaggle Kernels上取得第一名的数据科学家Andrey Lukyanenko第一时间为我们带来了这篇论文的解读。

这篇论文在社交网络上也得到了广泛的关注:

以下是Andrey Lukyanenko的解读:

在本篇论文中,研究人员提供了两种新策略:

1、如果可能过拟合,则缩放模型深度;否则,缩放模型宽度;

2、增加图像分辨率的速度比以往的论文中推荐的速度更慢。

基于这些想法,研究人员开发了新的架构ResNet-RS。在GPU上训练的结果比较得出,它比EfficientNets快2.1-3.3倍,同时在ImageNet上达到类似的准确率。

在半监督学习中,ResNet-RS达到了86.2%的ImageNet Top-1准确率,同时比EfficientNet-NoisyStudent快了4.7倍。

同时,ResNet-RS在下游任务的迁移学习上也提高了性能。

最后,研究人员建议使用这些ResNet-RS作为进一步研究的基准。

这不禁让人高呼:  爷青回!ResNets Yes!!!

1

关键思想

如果将其他正则化技术与权重衰减一起使用,则最好减小权重衰减的比重。

适用于小型模型或epoch较小的技术不一定适用于较大模型和epoch较大的技术;因此,有必要根据完整模型的完整训练选择适当的缩放策略。Andrey Lukyanenko认为这是关键点!

他们的改进训练和缩放策略也适用于其他模型:适用于EfficientNets、自监督学习、甚至适用于3D视频分类。

2

模型改进策略

研究人员列举了四种可能的模型性能改进类型:架构、训练/正则化方法、缩放策略和额外训练数据。

1、架构:就是架构优化,通常包括新的模块、注意力机制、lambda层和NAS。

2、训练和正则化方法:dropout、标签平滑、随机深度、dropblock、数据扩充;学习率规划也有所帮助。

3、扩展策略:改善模型的宽度、深度和数据分辨率。

4、增加训练数据通常也会有帮助。

3

方法

研究人员描述了他们使用的方法和架构:

  • 使用SE模块的ResNet、ResNet-D;

  • 使EfficientNet设置与小的更改相匹配:350个epoch、余弦学习规划、RandAugment、动量优化器。这里大多数更改是为了简单起见;

  • 权重衰减、标签平滑、dropout和随机深度以进行正则化;

  • RandAugment应用了一系列随机图像变换(例如平移、剪切、颜色失真);

  • 对于超参数调整,研究人员使用了大约2%的ImageNet数据集作为hold-out验证集;

4

改善训练方法

关于性能提升的研究

ResNet-200本身有79.0%的Top-1准确率,改进的训练方法带来了+ 3.2%的性能增长,架构变化带来了+ 1.2%的性能增长。这证明,单单改进训练方法就可以带来巨大的性能提升。

结合正则化方法时减少权重衰减的重要性

可以看到,如果不减少权重衰减,则添加其他正则化方法可能会降低性能。另一方面,如果我们降低权重衰减速率,则添加其他正则化方法可以提高性能。

5

扩展策略带来的提升

作者分别在[0.25,0.5,1.0,1.5,2.0]的宽度乘数、[26,50,101,200,300,350,400]的深度和[128,160,224,320,448]的分辨率上对ImageNet进行了广泛的实验。训练进行了350个epoch,对更大的模型进行了正则化,以避免过拟合。

研究得到了一个重要的结果:FLOPs不能准确地评估有限数据方案中的性能。可以看到,即使对于相同的FLOPS,特定参数的差异也可能意味着较大模型的性能会有明显差异。

另一个重要发现是:最佳的扩展策略取决于训练方法。

可以看到,对于较大epoch训练,缩放深度比缩放宽度要好,另一方面,对于较小epoch的训练,宽度的缩放更好。

6

改进训练方法和应用扩展策略的实验

ResNet-RS的速度-准确率表现

有趣的是,即使FLOPS和参数数量更高,ResNet-RS的速度也要比EfficientNet快。

7

提高EfficientNets的效率

研究人员将慢速的图像分辨率缩放策略应用于EfficientNets,并训练了具有不同图像分辨率的多个版本,实验结果如下图所示:

8

更多任务

研究人员在120万张带标签的ImageNet图像和1.3亿张带伪标签的图像(如Noisy Student)上训练了ResNet-RS,实验结果如下表所示:

迁移学习

为了紧密匹配SimCLR的训练设置并提供公平的比较,研究人员对ResNet-RS仅应用了部分原始的训练策略。但是从下表可以看出,结果要好得多:

视频分类

视频分类训练方法的对比研究。下图用不同颜色标记了正则化方法(绿色)、训练方法(紫色)和架构(黄色)上的改进。

ResNet-RS的训练策略可以应用到基于Kinetics-400视频分类的3D ResNet模型上,并同样能改进基线模型性能。

9

结语

在这篇论文中,研究人员通过对训练方法和扩展策略进行研究发现最终的ResNet是可以与SOTA模型相比的,架构并不是唯一决定因素。

本文作者希望他们的工作能够鼓励大家对更多的网络做进一步重新审查研究,以保持本文所提议的创新和基线的方法具有一致性。

对于本文您心动了吗?或者有什么质疑吗?

还不赶紧亲自上手试试!

参考链接:

https://andlukyane.com/blog/paper-review-resnetsr

重磅!DLer-CVPR2021论文分享交流群已成立!

大家好,这是CVPR2021论文分享群里,群里会第一时间发布CVPR2021的论文解读和交流分享会,主要设计方向有:图像分类、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

???? 长按识别,邀请您进群!

ResNets王者回归!谷歌、伯克利联合发文:它当初输给EfficientNets不是架构问题...相关推荐

  1. ResNet王者回归!谷歌、伯克利联合发文:它当初输给EfficientNets不是架构问题

    CVer 昨天 以下文章来源于AI科技评论 ,作者陈大鑫.青暮 AI科技评论 聚焦AI前沿研究,关注AI青年成长 点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间 ...

  2. ResNets王者回归、「极飞科技」刷新中国农业AI领域最大融资纪录 | AI日报

    「极飞科技」获高瓴创投超3亿元C++轮融资,刷新中国农业科技领域最大融资纪录 「极飞科技」宣布完成由高瓴创投投资的超3亿元人民币C++轮融资.此次注资,是高瓴创投对去年11月「极飞科技」12亿元人民币 ...

  3. QQ邮箱取消免费扩容;苹果搜索引擎“胎死腹中”,核心成员已回归谷歌麾下;Xcode 14导致应用体积大增|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  4. 谁才是Transformer家族中的最强王者?谷歌告诉你答案

    文 | Sherry 自从17年Attention is all you need发出,继而18年BERT刷新各大榜单,大型预训练Transformer似乎已经成为自然语言处理的标准基准模型,甚至进一 ...

  5. GAN之父Ian Goodfellow回归谷歌!将在DeepMind远程办公

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:机器之心 | 编辑:泽南.蛋酱 Goodfellow 跳槽,真的是因为不想回办公室上班吗? 加入苹果 ...

  6. 【ICML2021】计算机视觉中的自注意力机制教程,谷歌伯克利出品

    本教程将介绍自注意力机制在计算机视觉中的应用.Self-Attention在NLP中被广泛采用,完全注意的Transformer模型已经在很大程度上取代了RNN,现在被用于最先进的语言理解模型,如GP ...

  7. 一代王者回归?滴滴暂停563天,恢复新用户下载,江湖格局又生变

    滴滴出行此前由于"严重违反"<网络安全法>,于2021年7月4日从中国应用商店中删除.作为曾经风靡一时网约车APP,滴滴周一表示,经中国国家互联网信息办公室网络安全审查 ...

  8. oppo 手机侧滑快捷菜单_是王者回归还是昙花一现,侧滑全键盘手机,你会选择吗...

    时间飞快,转眼2019年过去半年,再过三个月又是世界手机三大巨头相继发布年度旗舰手机产品的时候了.不过在他们发布前,也就下个月即将上市一部不引人注意的怀旧型手机,我们都知道,现在手机的发展的潮流是往全 ...

  9. 腾讯AI大战王者荣耀!504场1v1仅输1场,5v5达电竞职业水平

    本文转自"智东西" 看点:5v5大胜职业选手,1v1胜率达99.8%,仅有1场败给国服第一后羿. 8月3日,腾讯策略协作型 AI "绝悟"再出山,对战王者荣耀职 ...

最新文章

  1. Effective C# 原则16:垃圾最小化(译)
  2. clone下来的代码push到自己的远程仓库中
  3. javaweb 要学习的东西
  4. 一文读懂汇编程序的多个分段的程序--详解
  5. 三十、开始R语言之旅
  6. 深入解析PHP中逗号与点号的区别
  7. 【前端自动化构建】之 自动化部署
  8. IBAction和IBOutlet
  9. SQL Server创建视图
  10. linux系统下卸载rpm方式安装的mysql5.7.*
  11. 200 行 C 代码实现插件式 NOSQL 存储服务器(一)
  12. CBV-2-CBV流程-view源码解析-面向对象-继承
  13. 欧式香草期权(普通看涨、看跌)的定价公式及实现
  14. fast无线路由器设置服务器,迅捷(FAST)路由器静态ip上网设置方法
  15. 百度“文心一言”首批生态合作伙伴公布,Moka接入打造人力资源数字化人AI服务
  16. 蜘蛛侠面具(头套制作)
  17. win10计算器_30年的老树又开新花!新一代Win10记事本详细体验
  18. ES5和ES6的继承有哪些优劣?
  19. GNU Radio教程 9.QPSK调制解调
  20. 线性代数---魏福义版 第二章习题答案

热门文章

  1. 【Xamarin挖墙脚系列:现有IPhone/IPad 设备尺寸】
  2. oracle 游标小例
  3. ftp 文件完整性校验_FTP空间是什么?如何获取免费FTP空间吗?
  4. PIL中的Image和numpy中的数组array相互转换
  5. udacity classmates pytorch基础用法总结
  6. numpy.histogram
  7. SQL*PLUS命令的使用大全
  8. 为什么对 Java 性能调优最后都像在调 you?
  9. 图灵八月书讯 ——技术图书嘉年华
  10. VS2010 + Qt5.3.2配置教程