这篇论文刚开头就说到现如今人们对于计算机视觉架构具有非常高的关注,但其实每一次新的SOTA的模型架构,其实都经常同时改变训练方法学和缩放策略相结合。所以说,这篇论文就重新审视思考了resnet这一经典的模型架构。

然后,作者对比了现在非常火的高性能的用nas搜出来的网络结构effcientnet,与resnet对比,effcientnet到底为什么比resnet强,是因为模型架构吗?还是训练策略,数据增强等tricks。然后,就有了下图:

横坐标为模型训练一次所需时间,简单来说就是模型复杂度,我们可以对比在,看到在0.6左右时,effcientnet的准确率是远远高于resnet,但是当我们将现在比较SOTA的一些训练的tricks,加上去后,可以看到,两者的性能直接非常近似,我们再稍微修改resnet的结构,改为resnet-rs后,性能就完全超过了effcientnet。

所以说,我们不能仅仅只关注到模型结构的不断改进,不断完善改进优化的tricks也是非常重要的(个人观点)

然后,作者就向我们介绍了现在比较流行的几中tricks。

我们一个一个来简单介绍

①Cosine LR Decay

很简单,就是让学习率按照余弦逐渐下降,开始时快速下降,快速趋近最优值,到后期学习率减小缓慢,防止越过最优值。

就是学习率的一种更新策略。

②increase training epochs

更简单了,就是增加迭代次数,训练几轮。

③EMA of weights

指数移动平均(Exponential Moving Average)也叫权重移动平均(Weighted Moving Average),是一种给予近期数据更高权重的平均方法。

具体的应用就是,在模型训练时,我们正常训练模型,但是会保留一个epoch的最后5次迭代的权重,对最后5次的权重做EMA,用于测试集进行测试,并且保留该EMA之后的权重,用于下一个epoch的初始更新权重。

具体公式和代码,可以看论文里都有详解,这里只做一个理解的介绍。

④Label Smoothing

标签平滑:什么意思,就是说我们一般训练时,比如多种类标签[0,0,0,0,0,0,1]但是,这样一定好么?不一定。他会导致我们过分相信依赖训练集的数据,很容易造成过拟合。模型对于预测过于自信,以至于忽略到可能的小样本标签。

所以我们如果对label做一个标签平滑比如  [0.1,0.1,0.05,0.003,0.005,0.78],这样有什么好处,举个不太恰当的例子,如果有一个猫,长得和训练集里面的一个狗非常相似,那么由于我对于训练集数据过分自信,非常容易将这个猫当成狗,但是经过标签平滑后,我们就会对次产生质疑,并不会完全可能识别成狗。

⑤随机深度

这点,其实和dropout有点类似,都是随机丢掉某些层,块之类的,来可以使得一个神经元的训练不依赖于另外一个神经元,同样也就使得特征之间的协同作用被减弱。也就是缓解过拟合的问题。

同时,模型初始的一些层,包含的特征信息较多,所以随机丢弃的概率也比较低。

⑥随机增强:

就是列了一堆数据增强,什么翻转,裁剪之类的,然后随机选择几个。

⑦Dropout刚刚说过了

⑧Decrease weight decay

权重衰减,L2正则化,实现起来了也很简单,torch中的优化器都有这个参数

⑨SE模块

就是注意力机制,输入会经过两次全连接之类的变化,输出每个通道的一个比例系数,然后乘在原输出通道上,做一次注意力机制。

⑩resnet-D

直接上模型结构图

Revisiting ResNets: Improved Training and Scaling Strategies论文简述相关推荐

  1. PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies

    Abstract PointNet++ 是点云理解领域最有影响力的神经网络架构之一.虽然近期出现了 PointMLP 和 Point Transformer 等新型网络,它们的精度已经大大超过了 Po ...

  2. 【优化训练】RePr:Improved Training of Convolutional Filters论文笔记

    论文题目     RePr:Improved Training of Convolutional Filters 这是2019年CVPR的一篇文章,主要针对卷积神经网络的训练方法,提出一种新的训练模式 ...

  3. 【22SR】Revisiting RCAN: Improved Training for Image Super-Resolution

    code: https://github.com/zudi-lin/rcan-it 摘要 1.RCAN通过适当的训练策略和最小的架构更改,超越RCAN之后发布的几乎所有基于CNN的SR架构. 2.欠拟 ...

  4. (RCAN-it)Revisiting RCAN: Improved Training for Image Super-Resolution (重温 RCAN:改进图像超分辨率训练策略)

    作者 Zudi Lin1† ,Prateek Garg2∗ ,Atmadeep Banerjee2∗ ,Salma Abdel Magid1 ,Deqing Sun3 ,Yulun Zhang4 ,L ...

  5. [sampling] MixGCF: An Improved Training Method for Graph Neural Network-based Recommender Systems

    Info KDD2021的文章,采样方法相关 MixGCF: An Improved Training Method for Graph Neural Network-based Recommende ...

  6. Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines 论文研读

    摘要 本文提出了一种用于训练支持向量机的新算法:序列最小优化算法(SMO).训练支持向量机需要解决非常大的二次规划(QP)优化问题.SMO 将这个大的 QP 问题分解为一系列最小的 QP 问题.这些小 ...

  7. 【论文简述】Multiview Stereo with Cascaded Epipolar RAFT(ECCV 2022)

    一.论文简述 1. 第一作者:Zeyu Ma 2. 发表年份:2022 3. 发表期刊:ECCV 4. 关键词:MVS.RAFT.级联.极线 5. 探索动机:3D卷积在计算和内存方面成本很高,在有限资 ...

  8. 【论文简述及翻译】A ConvNet for the 2020s(CVPR 2022)

    一.论文简述 1. 第一作者:Zhuang Liu 2. 发表年份:2022 3. 发表期刊:CVPR 4. 关键词:ConvNet.Transformers.CNNs.数据集 5. 探索动机:在20 ...

  9. 【论文简述及翻译】Learning for Disparity Estimation through Feature Constancy(CVPR 2018)

    一.论文简述 1. 第一作者:Zhengfa Liang.Yiliu Feng 2. 发表年份:2018 3. 发表期刊:CVPR 4. 关键词:CNN.端到端训练.视差改进.特征恒量.视差估计 5. ...

  10. NLP十大Baseline论文简述(一) - Word2vec

    文章目录 前言: 目录 1. Paper: 2.论文摘要: 3. 论文介绍: 4. 论文原理 4.1 CBOW模型: 4.2 Skip-gram模型: 4.3 降低复杂度 - Hierachical ...

最新文章

  1. 好系统重装助手教您如何设置宽带并连接无线上网
  2. pytorch回归_PyTorch:用岭回归检查泰坦尼克号下沉
  3. 截屏没有了_华为手机居然有6种截屏花招,很多人不知道,你会用哪几种?
  4. OpenInfra Days China 2020大会议程已上线!
  5. xshell进入桌面_Xshell怎么远程桌面连接Linux系统
  6. 如何编译Linux内核
  7. ENVI遥感影像镶嵌
  8. java学习笔记 --- 面向对象3
  9. win7自带tftp服务器,如何打开tftp服务器,笔者教你Win7系统TFTP服务器怎么开启
  10. linux查看文件夹的命令是,linux查看文件夹大小命令是什么
  11. 3、查询省会(Python实现多行输入,以回车结束输入)
  12. Texmacs使用注意事项
  13. Oliver的救援(广搜练习题)
  14. 激活Windows Server 2003 2008终端授权服务器
  15. 服务器上文件共享有哪些协议,Windows中的文件共享协议
  16. Yanmar(洋马)发动机SPN-FMI代码在仪表显示
  17. 云计算奇妙学习之旅第一期:初识云计算
  18. 绝对值java_Java 绝对值函数及其妙用
  19. cocos2d - 粒子系统工具(Particle Designer)
  20. QT in VS 多语言实现(中英文切换)

热门文章

  1. 怎么去掉360导航页
  2. html如何让英文自动换行,HTML如何让英文自动换行不断词
  3. 王德明——全球旅行达人,走遍世界阅尽繁华,为何他独爱于此?
  4. 【分享】笔记本触控面板使用指南
  5. 软件测试面试中90%会遇到的问题;你会搭建测试环境吗?
  6. python-乌龟吃小鱼(小游戏)
  7. 坚果云根目录同步冲突解决方法
  8. 云队友丨十年寒窗苦读为什么赢不过几代人的努力?
  9. 插入网线后以太网显示ip4连接无网络访问权限
  10. linux怎么开启8080端口,Linux中如何开启8080端口供外界访问