这篇论文刚开头就说到现如今人们对于计算机视觉架构具有非常高的关注,但其实每一次新的SOTA的模型架构,其实都经常同时改变训练方法学和缩放策略相结合。所以说,这篇论文就重新审视思考了resnet这一经典的模型架构。

然后,作者对比了现在非常火的高性能的用nas搜出来的网络结构effcientnet,与resnet对比,effcientnet到底为什么比resnet强,是因为模型架构吗?还是训练策略,数据增强等tricks。然后,就有了下图:

横坐标为模型训练一次所需时间,简单来说就是模型复杂度,我们可以对比在,看到在0.6左右时,effcientnet的准确率是远远高于resnet,但是当我们将现在比较SOTA的一些训练的tricks,加上去后,可以看到,两者的性能直接非常近似,我们再稍微修改resnet的结构,改为resnet-rs后,性能就完全超过了effcientnet。

所以说,我们不能仅仅只关注到模型结构的不断改进,不断完善改进优化的tricks也是非常重要的(个人观点)

然后,作者就向我们介绍了现在比较流行的几中tricks。

我们一个一个来简单介绍

①Cosine LR Decay

很简单,就是让学习率按照余弦逐渐下降,开始时快速下降,快速趋近最优值,到后期学习率减小缓慢,防止越过最优值。

就是学习率的一种更新策略。

②increase training epochs

更简单了,就是增加迭代次数,训练几轮。

③EMA of weights

指数移动平均(Exponential Moving Average)也叫权重移动平均(Weighted Moving Average),是一种给予近期数据更高权重的平均方法。

具体的应用就是,在模型训练时,我们正常训练模型,但是会保留一个epoch的最后5次迭代的权重,对最后5次的权重做EMA,用于测试集进行测试,并且保留该EMA之后的权重,用于下一个epoch的初始更新权重。

具体公式和代码,可以看论文里都有详解,这里只做一个理解的介绍。

④Label Smoothing

标签平滑:什么意思,就是说我们一般训练时,比如多种类标签[0,0,0,0,0,0,1]但是,这样一定好么?不一定。他会导致我们过分相信依赖训练集的数据,很容易造成过拟合。模型对于预测过于自信,以至于忽略到可能的小样本标签。

所以我们如果对label做一个标签平滑比如  [0.1,0.1,0.05,0.003,0.005,0.78],这样有什么好处,举个不太恰当的例子,如果有一个猫,长得和训练集里面的一个狗非常相似,那么由于我对于训练集数据过分自信,非常容易将这个猫当成狗,但是经过标签平滑后,我们就会对次产生质疑,并不会完全可能识别成狗。

⑤随机深度

这点,其实和dropout有点类似,都是随机丢掉某些层,块之类的,来可以使得一个神经元的训练不依赖于另外一个神经元,同样也就使得特征之间的协同作用被减弱。也就是缓解过拟合的问题。

同时,模型初始的一些层,包含的特征信息较多,所以随机丢弃的概率也比较低。

⑥随机增强:

就是列了一堆数据增强,什么翻转,裁剪之类的,然后随机选择几个。

⑦Dropout刚刚说过了

⑧Decrease weight decay

权重衰减,L2正则化,实现起来了也很简单,torch中的优化器都有这个参数

⑨SE模块

就是注意力机制,输入会经过两次全连接之类的变化,输出每个通道的一个比例系数,然后乘在原输出通道上,做一次注意力机制。

⑩resnet-D

直接上模型结构图

Revisiting ResNets: Improved Training and Scaling Strategies论文简述相关推荐

  1. PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies

    Abstract PointNet++ 是点云理解领域最有影响力的神经网络架构之一.虽然近期出现了 PointMLP 和 Point Transformer 等新型网络,它们的精度已经大大超过了 Po ...

  2. 【优化训练】RePr:Improved Training of Convolutional Filters论文笔记

    论文题目     RePr:Improved Training of Convolutional Filters 这是2019年CVPR的一篇文章,主要针对卷积神经网络的训练方法,提出一种新的训练模式 ...

  3. 【22SR】Revisiting RCAN: Improved Training for Image Super-Resolution

    code: https://github.com/zudi-lin/rcan-it 摘要 1.RCAN通过适当的训练策略和最小的架构更改,超越RCAN之后发布的几乎所有基于CNN的SR架构. 2.欠拟 ...

  4. (RCAN-it)Revisiting RCAN: Improved Training for Image Super-Resolution (重温 RCAN:改进图像超分辨率训练策略)

    作者 Zudi Lin1† ,Prateek Garg2∗ ,Atmadeep Banerjee2∗ ,Salma Abdel Magid1 ,Deqing Sun3 ,Yulun Zhang4 ,L ...

  5. [sampling] MixGCF: An Improved Training Method for Graph Neural Network-based Recommender Systems

    Info KDD2021的文章,采样方法相关 MixGCF: An Improved Training Method for Graph Neural Network-based Recommende ...

  6. Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines 论文研读

    摘要 本文提出了一种用于训练支持向量机的新算法:序列最小优化算法(SMO).训练支持向量机需要解决非常大的二次规划(QP)优化问题.SMO 将这个大的 QP 问题分解为一系列最小的 QP 问题.这些小 ...

  7. 【论文简述】Multiview Stereo with Cascaded Epipolar RAFT(ECCV 2022)

    一.论文简述 1. 第一作者:Zeyu Ma 2. 发表年份:2022 3. 发表期刊:ECCV 4. 关键词:MVS.RAFT.级联.极线 5. 探索动机:3D卷积在计算和内存方面成本很高,在有限资 ...

  8. 【论文简述及翻译】A ConvNet for the 2020s(CVPR 2022)

    一.论文简述 1. 第一作者:Zhuang Liu 2. 发表年份:2022 3. 发表期刊:CVPR 4. 关键词:ConvNet.Transformers.CNNs.数据集 5. 探索动机:在20 ...

  9. 【论文简述及翻译】Learning for Disparity Estimation through Feature Constancy(CVPR 2018)

    一.论文简述 1. 第一作者:Zhengfa Liang.Yiliu Feng 2. 发表年份:2018 3. 发表期刊:CVPR 4. 关键词:CNN.端到端训练.视差改进.特征恒量.视差估计 5. ...

  10. NLP十大Baseline论文简述(一) - Word2vec

    文章目录 前言: 目录 1. Paper: 2.论文摘要: 3. 论文介绍: 4. 论文原理 4.1 CBOW模型: 4.2 Skip-gram模型: 4.3 降低复杂度 - Hierachical ...

最新文章

  1. pytorch maxpool和卷积尺寸问题
  2. 分峰截幅c语言算法,面向桥梁健康监测的复合传感技术研究
  3. matlab中循环保存数据
  4. 活动目录的备份与还原
  5. 三星note2+android8.0,放大版Note2 三星Galaxy Note8.0
  6. php 权限管理对节点控制,我对权限控制系统的看法_php
  7. 2018 中国准独角兽 TOP 50 夏榜发布!146 家投资机构、227 家企业参与
  8. java hibernate sqlserver自增_怎样在hibernate中实现oracle的主键自增策略?
  9. 乘风破浪:LeetCode真题_038_Count and Say
  10. 微信公众平台开发教程第22篇-如何保证access_token长期有效
  11. android公交车代码,android实现查询公交车还有几站的功能
  12. 《Java和Android开发实战详解》
  13. 西电计科院微机原理与系统设计课程笔记(车向泉版)
  14. PHP生成excel表格文件并下载
  15. SQL-92标准 中文翻译
  16. sql注入检测工具 mysql_Java自动化SQL注入测试工具—jSQL Injection v0.5
  17. Boundary loss for highly unbalanced segmentation
  18. 高尔顿与回归分析的起源
  19. Beautiful Soup 4.4.0 文档 — beautifulsoup 4.4.0q 文档
  20. js对json对象的遍历和其他方法处理

热门文章

  1. 用Bat文件创建桌面快捷方式
  2. Matlab之min()、max()函数(求最小、最大值)
  3. java 获取系统默认打印机状态
  4. C++IO流文件指针
  5. 系统没有wmi服务器,系统没有WMI服务怎么办.WMI错误修复方法
  6. 微信模板消息发送帮助类
  7. 横向移动-WINRM
  8. 解决postgre报错ERROR #22P02 malformed array literal
  9. laravel之生成PDF文档-TCPDF
  10. 如何升级iOS15,描述文件详细安装教程