ConvNext

论文:A ConvNet for the 2020s

地址:https://paperswithcode.com/paper/a-convnet-for-the-2020s

论文阅读

  ConvNext指出虽然ViTs在分类任务中表现优异屡次刷新SOTA,但是应用于其他计算机视觉任务比如目标检测和语义分割却存在问题,直到分层Transformers比如Swin Transformer引入了一些卷积玩过的先验知识,才让Transformers能够成为通用的视觉任务主干网络并且在一系列视觉任务中取得不错的精度,然而这种分层方式的有效性却被归功于Transformer的内在优势而非卷积网络固有的归纳偏置。该论文重新对传统卷积网络的设计空间以及其他局限进行测试,逐步将ViTs中的一些Tricks应用到标注的ResNet中,发现了一些能够提升网络性能的关键因素,最终输出的网络命名为ConvNext。

  具体地,首先将ResNet50按照ViT的训练方式进行训练,得到一个基准模型,应用如下图所示的一系列调整:

训练技巧

  以与DeiT和Swin Transformer相似的训练方式,具体地:Epoch:90->300,使用AdamW优化器,数据增强方式使用MixUp、CutMix、RandAugment、RandomErasing,正则化策略使用随机深度和标签松弛,增强之后的训练策略将ResNet50的精度从76.1%提升至78.8%。

宏观设计(大改动)

  • 将ResNet四个阶段的Block数值比由[3,4,6,3]变为[3,3,9,3],精度:78.8%->79.4%;
  • 调整网络初始阶段的快速下采样策略,原始ResNet的ConvStem包含一个步长为2的7×7卷积,一个最大池化,实现4x下采样;具体改动:仿照ViT中的patchify操作(大卷积核且区域不相交)将Stem阶段改为步长为4的4×4卷积,精度:79.4%->79.5%。

ResNext风格化

  相比原始ResNet,ResNext的精度与FLOPs二者间的均衡更佳,其中ResNext的核心模块即为分组卷积,核心思想即多分组大宽度。具体地,ResNext在Bottleneck模块中使用3×3的分组卷积,然后扩展宽度消除精度损失。

  论文使用深度卷积即极限的分组卷积并将宽度从64扩展为96,精度:79.5%->80.5%。

Inverted Bottleneck

  ResNext的Bottleneck的设计是大通道维度->小通道维度(3×3卷积)->大通道维度,参考Swin Transformer的设计,ConvNext的Bottleneck设计为小通道维度->大通道维度(3×3卷积)->小维度,单模块参数量提升,但是总体来看输出通道唯独较小,总的参数量会降低,精度:80.5%->80.6%(ResNet-200:81.9%->82.6)。

大卷积核

  ViT由于non-local自注意力的实现方式,使得每一层都具有全局感受野,虽然Swin Transformer在自注意力模块中引入了local windows,但是window的尺寸也不会小于7×7,不同于当下卷积网络使用3×3卷积堆叠代替大卷积核以获得更好的激素,ConvNext使用大卷积核7×7,为此Bottleneck中将深度卷积层向上提了一层,这里精度并没有发生变化。

微观设计

  • 替换ReLU为GeLU:也就是使用一个更平滑的ReLU,精度保持不变;
  • 更少的激活函数:Transformer每个MLP模块只有一个激活函数,而ConvNets中的每一层后面都会跟激活函数。改动后ConvNext只保留了两个1×1卷积之间的激活函数,精度:80.6%->81.3%;
  • 更少的正则化层:将ConvNets中的大部分BN层都去掉,只保留1×1卷积层之前的BN,精度:81.5%->81.5%;
  • BN替换为LN:精度:81.4%->81.5%;
  • 独立的下采样层:ResNet的下采样操作是在每个阶段的开始阶段使用步长为2的3×3卷积和直连步长为2得1×1卷积完成,Swin Transformers中则是在不同阶段之间进行独立得下采样,ConvNext采用相同得策略,使用补偿为2得2×2卷积进行空间下采样,这个改动会导致训练不稳定,所以在下采样操作前、Stem后以及全局池化层之后加入了一些LN层来稳定训练,精度:81.5%->82.0%。

模型架构对比

  最终ResNet、Swin和ConvNext的模块结构对比如上图,架构细节对比如下图:


欢迎扫描二维码关注微信公众号 深度学习与数学 ,每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾。

论文阅读-主干网络(2022)-ConvNext:下一代卷积网络相关推荐

  1. 【论文解读】一种基于时间卷积网络的知识驱动股票趋势预测方法

    写在前面 下面这篇文章的内容主要是来自论文<Knowledge-Driven Stock Trend Prediction and Explanation via Temporal Convol ...

  2. 【深度学习】语义分割:论文阅读:(CVPR 2022) MPViT(CNN+Transformer):用于密集预测的多路径视觉Transformer

    这里写目录标题 0详情 1摘要 2 主要工作 3 网络结构 3.1 Conv-stem 3.2 Multi-Scale Patch Embedding 3.3 Multi-path Transform ...

  3. 【论文阅读】使用周期一致的对抗网络的非匹配的图片到图片的翻译

    Unpaired Image-Image Translation using Cycle-Consistent Adversarial Networks 论文地址:https://arxiv.org/ ...

  4. 【论文阅读】(2022)A goal-driven ruin and recreate heuristic for the 2D variable-sized bin packing prob...

    文章目录 一.Abstract 摘要 二.Introduction 介绍 三.Solution representation 解决方案的表示 四.Ruin and recreate heuristic ...

  5. [时序数据趋势预测]论文阅读思考总结[2022.3.25-2022.4.1]

    文章目录 1.时序数据预测为什么要用LSTM网络? 2.LSTM结构介绍 LSTM单元的网络体系架构 3.深度学习在大数据环境下的时间序列预测 4.时序数据预测应用领域 5.元启发式算法 6.短期电力 ...

  6. 【论文阅读】WWW 2022:Cross-modal Ambiguity Learning for Multimodal Fake News Detection

    Cross-modal Ambiguity Learning for Multimodal Fake News Detection 论文来源:WWW 2022 论文链接:https://dl.acm. ...

  7. 语义分割之FCN网络详解 全卷积网络

    1. FCN网络结构图 原论文链接:https://paperswithcode.com/paper/fully-convolutional-networks-for-semantic 参考B站视频: ...

  8. 深度卷积网络基本模型,图卷积网络 图像分类

    如何利用卷积神经网络提取图像特征 . 卷积神经网络有以下几种应用可供研究:1.基于卷积网络的形状识别物体的形状是人的视觉系统分析和识别物体的基础,几何形状是物体的本质特征的表现,并具有平移.缩放和旋转 ...

  9. 【论文阅读】ICLR 2022: Scene Transformer: A unified architecture for predicting future trajectories of ...

    ICLR 2022: Scene Transformer: A unified architecture for predicting future trajectories of multiple ...

  10. [论文阅读]用于车辆轨迹预测的卷积社交池Convolutional Social Pooling for Vehicle Trajectory Prediction

    文章目录 一.摘要 二.介绍 三.相关研究 3.1 基于机动的模型 3.2 交互感知模型 3.3 运动预测的递归网络 四.问题制定 4.1 参照系 4.2 输入输出 4.3 概率运动预测 4.4 操作 ...

最新文章

  1. 符合自己的德国学校与专业
  2. 面试 10+公司,囊获 8 个Offer,面经全公开
  3. 计算机等级考试二级快速复习法
  4. 【视频】利用IDEA 创建 spring mvc项目
  5. 子框架页面链接改变(js方法)
  6. java cmd退出_在Java中关闭命令行窗口
  7. 浅谈“Robots文件信息泄露”
  8. MongoDB实验练习题
  9. 视频批量剪辑:如何给视频添加特效,比如:色彩变幻效果特效,怎么制作?
  10. 利用DSF深度优先搜索来解容器倒水问题
  11. 基于bim技术的应用软件有哪些?提高bim工作效率的revit插件?
  12. matlab图片在word/wps中模糊解决方法,matlab图片转pdf后信息丢失解决方法
  13. 小程序数据分析(有数)
  14. 期货ctp基础知识(合约,开仓,平仓,做多,做空,保证金,手续费)
  15. 数论-欧几里得最大公约数- same gcd
  16. 关于云码课堂 正在为学习迷茫的程序员进
  17. 前端入门学习笔记九十三
  18. 记一次钓鱼网站的代码审计
  19. ECharts的基本使用(二):主题、自适应实现【第三日学习笔记】
  20. tlwdr5660间歇性掉线_网老是掉线怎么解决 家里wifi间歇性断网

热门文章

  1. Codeforces Round #419 Div. 1
  2. jenkins 管理员账号丢失
  3. HTML5中的一些新特性
  4. js中eval的用法
  5. AjaxControlToolkit的TabContainer控件下用html上传控件显示有问题
  6. 破解网站发布系统 ASP生成静态页面方法
  7. Windows下安装NetCat
  8. Linux下rpm安装GCC(G++)8.5.0
  9. 使用timerfd实现定时器功能
  10. MySQL 用户域权限相关操作