来源:机器之心

基线:我要是用上最新的训练流程,性能还能涨一波。

在计算机视觉领域,何恺明等人 2015 年提出的 ResNet(deep residual network,深度残差网络)一直被视为经典架构,它解决了深度 CNN 模型难训练的问题,是 CNN 图像史上的一个里程碑之作。

自提出以来,ResNet 系列模型一直被用作研究中的默认架构,或者新模型提出时用来对比的基线。然而,在过去的几年里,神经网络训练方面的最佳实践已经取得了很大进展。新颖的优化、数据增强等方法提高了训练流程的有效性。

在这篇论文中,独立研究者 Ross Wightman 以及 Facebook AI、索邦大学的两位研究者重新评估了普通 ResNet-50 在加入上述训练进展之后所能达到的性能。

论文链接:https://arxiv.org/pdf/2110.00476.pdf

具体而言,研究者重新评估了使用不同训练方法时普通 ResNet-50 的性能,并在 timm 开源库中分享了有竞争力的训练设置和预训练模型,希望它们可以成为未来研究工作的更好基线。例如,在 ImageNet-val 数据集上,使用研究者更高要求的训练设置,并在无额外数据或蒸馏的情况下,普通 ResNet-50 在分辨率 224×224 下实现了 80.4% 的 top-1 准确率。

此外,研究者还报告了其他流行模型使用他们的训练流程时取得的性能结果。

基线也需要与时俱进

在过去的十几年里,人们已经见证了图像分类领域的很多重大进展,这些反映在了 ILSVRC’2012 挑战赛或其他图像分类基准测试结果的改进上。从原理上来讲,性能的提升反映了社区对下面这个问题的最大化求解:

A 为架构设计,T 为训练设置和超参数,N 为测量噪声,其中还包括从大量超参数或方法中选择最大值时经常出现的过拟合。降低 N 的良好做法有几种,比如使用不同的 seed 测量标准差、使用单独的评估数据集或者在迁移任务上对模型进行评估。

暂且撇开 N 不谈,评估 A 或 T 上的进展也构成了一个挑战,这是因为它们的进展随时间推移而变化。当在 (A, T ) 上进行联合优化时,无法保证给定架构 A_1 的最优选择 T_1 依然是另一模型设计 A_2 的最佳选择。因此,即使是在同一训练流程下比较模型时,人们也可能隐式地偏爱某一个模型。

将训练流程与架构各自带来的改进分开的一个好处是确保基线包含来自文献的新「成分」,并在调整超参数方面付出合理的努力。理想状态下,如果没有资源和时间限制,人们可以为每个架构适配最佳的训练流程,如下公式(1)所示:

但在现实中,这种理想状态是不可能的。当比较架构时,大多数论文往往与以往发表论文中的结果进行比较,但被比较的这些架构使用的通常是相对较弱的训练流程,最好的情况下也仅仅是使用类似或相同的流程。

本文作者表示,他们还没有发现专门通过广泛的成分选择和超参数搜索来提升 ResNet-50 训练流程的研究努力。在以往的文献中,ImageNet-1k-val 上报告的针对 ResNet-50 架构的性能范围区间为 75.2% 到 79.5%,具体取决于论文本身。目前还不清楚是否已经投入足够的努力来进一步推动基线。因此,研究者想要填补这方面的研究空白。

研究者探究的是何恺明等人提出的普通 ResNet-50 架构。他们优化训练流程以最大化该模型在原始测试分辨率 224 × 224 下的性能。这里只考虑训练流程(training recipe)。因此,研究者排除了 ResNet-50 的所有变体,如 SE-ResNet-50 或 ResNet-50-D,这些变体通常会在相同的训练流程下提升准确率。

3 种不同的训练流程

研究者提出了 3 种具有不同成本和性能的训练流程,以覆盖不同的用例,下表 1 展示了 3 种训练流程的资源使用情况和 top-1 准确率结果。

这 3 种训练流程以实现测试分辨率 224 × 224 下 ResNet-50 的最佳性能为目标。研究者探索了很多使用不同优化器、正则化以及超参数合理网格搜索数量的变体。其中,他们主要关注以下三个不同的训练流程:

  • 流程 A1 旨在为 ResNet-50 提供最佳性能,因此 epoch 数量最多(600),训练时间最长(在一个配有 4 个 V100 32GB GPU 的节点上训练 4.6 天)

  • 流程 A2 的 epoch 数量为 300,可与 DeiT 等其他几个优秀训练流程媲美,但批大小更大(2048)。

  • 流程 A3 旨在通过 100 个 epoch 和 2048 的批大小超越普通 ResNet-50 的流程,它在 4 个 V100 16GB GPU 上训练了 15 个小时,并且可能是探索性研究的良好设置。

如下表 2 所示,研究者将用于训练普通 ResNet-50 的不同方法与他们的方法进行了比较,其中只考虑修改了未修改的 ResNet-50 架构(即不考虑其他变体)。此外,研究者不考虑使用蒸馏之类的高级训练设置,或者通过自监督或伪标签预训练的模型。

实验结果

上表 1 总结了文中提出的训练流程的主要特点。研究者表示,就他们所知,使用训练流程 A1 训练的一个普通 ResNet-50 架构在 224×224 分辨率的 ImageNet 图像测试中超越了 SOTA 模型。其他两个训练流程(A2、A3)虽然没有达到 A1 的水平,但也用较少的资源实现了较高的性能。

在下表 3 中,研究者记录了使用本文提出的训练流程训练其他架构时的效果,以测试这些训练流程在其他模型上的泛化能力。在某些情况下,研究者观察到 A2 要优于 A1,这表明超参数不适用于较长的 schedule(通常需要更多的正则化)。

在下表 4 中,研究者对表 3 中的结果进行了补充。

在下表 5 中,研究者记录了使用不同的预训练流程在 7 个细粒度数据集上得到的迁移学习性能数据,并与默认的 PyTorch 预训练进行了比较。总体来看,A1 在大多数下游任务中都达到了最好的性能。

更多细节请参见论文。

推荐阅读

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 一文总结微软研究院Transformer霸榜模型三部曲!

  • Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源

  • 加性注意力机制!清华和MSRA提出Fastformer:又快又好的Transformer新变体!

  • MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展!

  • 周志华教授:如何做研究与写论文?(附完整的PPT全文)

  • 都2021 年了,AI大牛纷纷离职!各家大厂的 AI Lab 现状如何?

  • 常用 Normalization 方法的总结与思考:BN、LN、IN、GN

  • 注意力可以使MLP完全替代CNN吗? 未来有哪些研究方向?

欢迎大家加入DLer-计算机视觉&Transformer群!

大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明)

2015年的ResNet潜力都挖掘出来了吗?新研究:不用蒸馏、无额外数据,性能还能涨一波...相关推荐

  1. ResNet才是YYDS!新研究:不用蒸馏、无额外数据,性能还能涨一波

    ©作者 | 杜伟.张倩 来源 | 机器之心 基线:我要是用上最新的训练流程,性能还能涨一波. 在计算机视觉领域,何恺明等人 2015 年提出的 ResNet(deep residual network ...

  2. 亚信科技+英特尔至强:挖掘5G场景计费新价值,助推智慧高速“加速度”

    5G商业化驱动数字经济迸发更多价值,而复杂的应用场景逐渐成为产业进步的掣肘. 我们都知道,5G正在给各行各业带来颠覆性变革,5G网络的普及势必会加速企业业务模式和发展战略的转变.近几年,多种因素影响下 ...

  3. AI挖掘优质淘宝买家秀 再也不用担心辣眼睛了

    说到淘宝优质买家秀内容挖掘 必须从买家秀和卖家秀说起 我们总是能在卖家秀和买家秀中找到强烈反差 比如这样 这样 又或者这样 (图片来自网络) 买家秀和卖家秀对比这么一言难尽,那还怎么让运营小二们愉快地 ...

  4. JX8NET小游戏网 一切都重新开始了,新的工作环境,新的生活环境

    原文: JX8NET小游戏网 一切都重新开始了,新的工作环境,新的生 ... JX8NET小游戏网,距离毕业刚好一年了,一切都重新开始了,新的工作环境,新的生活环境,只想把我的经历分享给大家,算是我的 ...

  5. DNA/RNA基序挖掘中的深度学习研究进展(A survey on deep learning in DNA/RNA motif mining)

    摘要 DNA/RNA基序挖掘是基因功能研究的基础.DNA/RNA基序挖掘在识别DNA或RNA蛋白结合位点方面起着极其重要的作用,有助于理解基因调控和管理的机制.在过去的几十年里,研究人员一直致力于设计 ...

  6. 在plsql里面怎么去掉空行_盐渍樱花怎么做?详细做法告诉您,一年都不会坏,学会再也不用买...

    盐渍樱花怎么做?详细做法告诉您,一年都不会坏,赶紧收藏学会它!樱花季说的就是现在,虽然到了飘落的季节,但是还是到处可见的樱花朵朵.俗话说:花无百日红.真的是啊,每年的三四月是最美丽的季节,到处花儿朵朵 ...

  7. 分布式系统的Raft算法——在失联阶段这个老Leader的任何更新都不能算commit,都回滚,接受新的Leader的新的更新 意味着还是可能丢数据!!!...

    过去, Paxos一直是分布式协议的标准,但是Paxos难于理解,更难以实现,Google的分布式锁系统Chubby作为Paxos实现曾经遭遇到很多坑. 来自Stanford的新的分布式协议研究称为R ...

  8. 为什么rstudio打开是空白的_既然大家都说装了win10,就不用鲁大师监测显卡温度,为什么呢?...

    既然大家都说装了win10,就不用鲁大师监测显卡温度,为什么呢? 提到鲁大师软件,相信大家多多少少都有听过和用过,尤其是在需要检测硬件温度,维持电脑运行稳定的时候. 电脑需要运行较为大型的软件或者游戏 ...

  9. 苹果uwb_在哪都能找到你!苹果新iPhone将支持UWB高精度室内定位

    [天极网手机频道]近日,天风国际知名行业分析师郭明錤发布了一份报告,报告预计今年苹果将发布的三款新iPhone都将支持UWB超宽带定位技术.为了充分利用,苹果还会推出与该技术相匹配的"小标签 ...

最新文章

  1. 深入浅出统计学 第六章 排列与组合
  2. oracle管理用户安全,oracle中管理用户的安全
  3. 【OpenCV学习笔记】2.1OpenCV基本数据类型
  4. 如何进行云主机带宽测试
  5. CentOS 7添加开机启动服务/脚本
  6. ruby on rails连接mysql_ruby on rails 连接mysql数据库
  7. 关于css外链和js外链的位置
  8. php redis ip查找,PHP实现redis限制单ip、单用户的访问次数功能示例
  9. 今天我必须要全网曝光这几个公众号
  10. JarvisOJ Misc shell流量分析
  11. springboot maven项目打包SAPJCO3.JAR
  12. 【爆赞】这款Python小程序自动抠图只需5秒,秒杀PS手动抠图?
  13. 全国教师计算机职称考试题库,全国信息技术教师考试题库及答案(2016最新版)
  14. 必过四级技巧方法总结大全
  15. 微信小程序开发之——音乐播放器-播放器(3.4)
  16. uniapp去掉返回键
  17. win10无线投屏_如何将安卓手机实时投屏到个人电脑
  18. IE浏览器 网页错误详细信息 消息: 'events' 为空或不是对象
  19. 【逆向】《0day安全-软件漏洞分析技术》实验笔记2
  20. intel平板Android系统,Pad变PC:将Win10装入Android平板

热门文章

  1. Eclipse下搭建GitHub开发环境
  2. Intent、Bundle
  3. gitlab run成功 但无法访问_gitlab 部署 管理
  4. java多线程-死锁的一些问题
  5. huggingface源码地址 各种NLP处理的BERT模型源码
  6. 如何写好数据分析师简历
  7. HESSIAN 海森矩阵
  8. 什么是RSS订阅 Really Simple Syndication(聚合)
  9. 对tf.reduce_mean API的理解就是求平均值,reduce指的是一串数据求平均值后维数降低了,可不是吗,一串向量变成了一个数,维数自然降低了
  10. 短短6小时,AI设计出40000种毒气分子,很多毒性远超战用神经毒剂