Abstract

SWIN Transformer重新引入了几个ConvNet priors,使得Transformer实际上可以作为通用的视觉主干,并在各种视觉任务上表现出卓越的性能。 然而,这种混合方法的有效性仍然很大程度上归功于变压器的内在优势,而不是卷积的内在归纳偏差。 在这项工作中,我们重新审视了设计空间,并测试了纯ConvNet所能达到的极限。 我们逐渐将一个标准的Resnet“现代化”到vision Transformer的设计中,并发现了几个导致性能差异的关键部件

Introduction

回顾卷积网络的历史

卷积的运算方式适合进行处理视觉任务

Transformer异军突起并进军视觉领域,但是单一的ViT处理图像任务中存在问题(复杂度高)

分层Transformer采用一种混合方法来弥补这一差距。 例如,“滑动窗口”策略被重新引入Transformer,使它们的行为更类似于ConvNets。SWIN Transformer的成功和迅速采用也揭示了一件事:卷积的本质并不是变得无关紧要

        这种观点下,许多用于计算机视觉的Transformer的进步都旨在带回卷积。 然而,这些尝试是有代价的:滑动窗口自关注的幼稚实现可能是昂贵的[55]; 使用先进的方法,如循环移位[45],速度可以优化,但系统在设计上变得更加复杂。 另一方面,几乎具有讽刺意味的是,一个ConvNet已经满足了许多想要的属性,尽管是以一种直接、不加修饰的方式。 ConvNets似乎失去动力的唯一原因是(分层)Transformer在许多视觉任务中超过了它们,性能差异通常归因于变压器优越的缩放行为,多头自注意是关键组成部分

ConvNets和SWIN Transformer既有区别又有相似之处:它们都具有相似的感应偏差,但在训练过程和宏/微观层次的体系结构设计上存在显著差异。

我们首先使用经过改进的过程训练的标准Resnet(例如Resnet50)。 我们逐渐将架构“现代化”到构建一个层次化的视觉Transformer(例如SWIN-T)。 我们的探索是由一个关键问题指导的:Transformer的设计决策如何影响ConvNets的性能? 我们发现了几个导致性能差异的关键组件。 因此,我们提出了一个纯ConvNets族,称为ConvNext。

Modernizing a ConvNet: a Roadmap

在本节中,我们提供了一个从ResNet到ConvNet的轨迹,它类似于Transformer。 我们考虑了两种模型尺寸,一种是Resnet-50/SWIN-T模型,其Flop值约为4.5×109;另一种是Resnet-200/SWIN-B模型,其Flop值约为15.0×109。 为了简单起见,我们将用RESNET-50/SWIN-T复杂度模型给出结果。 对于高容量模型的结论是一致的,结果可以在附录C中找到。

在高层次上,我们的探索是为了研究和遵循SWIN-Transformer的不同层次的设计,同时保持网络作为标准ConvNet的简单性。 我们探索的路线图如下。 我们的起点是Resnet-50型号。 我们首先用类似于训练视觉Transformer​​​​​​​的训练技术来训练它,并获得了比最初的Resnet-50更好的结果。 这将是我们的基线。 然后,我们研究了一系列的设计决策,我们总结为:1)宏观设计,2)重新设计,3)反瓶颈,4)大内核大小,5)不同层次的微观设计。 在图2中,我们展示了“网络现代化”的每一步所能实现的过程和结果。 由于网络复杂度与最终性能密切相关,所以在探索的过程中,FLOP大致被控制,尽管在中间阶段,FLOP可能高于或低于参考模型。 所有模型都在ImageNet-1K上进行训练和评估。

Training Techniques

首先不对ResNet网络结构本身进行改进,只对训练的策略进行一个改进:

1. 从90epochs到300epochs

2. 使用AdamW进行优化

3. 使用了Mixup,Cutmix,RandAugment,RandomErasing等数据增强策略

由结果得到,通过这些操作,就可以将性能从76.1%增加到了78.8%。

这意味着传统的Convnets和视觉变换器之间的性能差异的很大一部分可能是由于训练技术。

改进措施        

框架

Related Work

Conclusions

在21世纪20年代,vision Transformer,尤其是像SWIN Transformer,开始取代ConvNets,成为通用视觉骨干的首选。 人们普遍认为,vision Transformer比ConvNets更准确、更有效、更可扩展。 我们提出了ConvNexts,这是一个纯ConvNet模型,可以在多种计算机视觉基准上与最先进的分层视觉变换器竞争,同时保留了标准ConvNets的简单性和效率。 在某些方面,我们的观察令人惊讶,而我们的ConvNext模型本身并不完全是新的--在过去的十年里,许多设计选择都被单独检查过,但不是集体检查。 我们希望这项研究报告的新结果将挑战几个广泛持有的观点,并促使人们重新思考卷积在计算机视觉中的重要性

论文阅读:A ConvNet for the 2020s相关推荐

  1. 【读点论文】A ConvNet for the 2020s,结合swin transformer的结构设计和训练技巧调整resnet网络,在类似的FLOPs和参数量取得更好一点的效果

    A ConvNet for the 2020s Abstract 视觉识别的"咆哮的20年代"始于视觉transformer(ViTs)的问世,它迅速取代ConvNets成为最先进 ...

  2. [论文笔记]A ConvNet for the 2020s

    目录 Abstract Modernizing a ConvNet: a Roadmap 2.1.Training Techniques 2.2. Macro Design 2.3. ResNeXt- ...

  3. 【论文简述及翻译】A ConvNet for the 2020s(CVPR 2022)

    一.论文简述 1. 第一作者:Zhuang Liu 2. 发表年份:2022 3. 发表期刊:CVPR 4. 关键词:ConvNet.Transformers.CNNs.数据集 5. 探索动机:在20 ...

  4. Roaring 20s(还有一些《A ConvNet for the 2020s》读后感)

    现在学术界管2020年以后把Transformer引入到计算机视觉后,计算机视觉变成了Roaring 20s,这个说法见于论文<A ConvNet for the 2020s>,值得精度的 ...

  5. 论文阅读 【CVPR-2022】 A ConvNet for the 2020s

    A ConvNet for the 2020s studyai.com 搜索论文: A ConvNet for the 2020s 摘要(Abstract) The "Roaring 20s ...

  6. A ConvNet for the 2020s 论文阅读

    A convnet for the 2020s 代码 摘要:Vision Transformers (ViTs)的引入很快取代了ConvNets,成为最先进的图像分类模型.ViT在应用于一般计算机视觉 ...

  7. 文献阅读笔记整理--ConvNext:A ConvNet for the 2020s

    文献阅读时间:2022年11月1日 论文名称:A ConvNet for the 2020s 论文下载链接:https://arxiv.org/abs/2201.03545 论文对应源码链接:http ...

  8. A ConvNet for the 2020s 论文解读

    目录 引言 一.Swin-Transform 的介绍 1.1.Swin-transform 背景介绍 1.2 .CNN 网络的反击 1.2.1.Depth-wise conv 反击 1.2.2.Con ...

  9. A ConvNet for the 2020s 论文笔记

    A ConvNet for the 2020s 论文链接: https://arxiv.org/abs/2201.03545 一. Problem Statement 现在Transformer大行其 ...

  10. 深度学习论文: A ConvNet for the 2020s及其PyTorch实现

    深度学习论文: A ConvNet for the 2020s及其PyTorch实现 A ConvNet for the 2020s PDF: https://arxiv.org/pdf/2103.0 ...

最新文章

  1. MongoDB的update和set的用法
  2. LeetCode Add and Search Word - Data structure design(字典树)
  3. detectron2训练自己的数据集_YOLO(v3)PyTorch版 训练自己的数据集
  4. 经典算法研究系列:十、从头到尾彻底理解傅里叶变换算法、下
  5. 笔记 备考2022华师大 教育专硕
  6. 百度在线解析站不限速下载
  7. TopFreeTheme精选免费模板【20130617】
  8. websocket中发生数据丢失_node.js – Websocket传输可靠性(重新连接期间Socket.io数据丢失)...
  9. firefox关闭窗口问题
  10. ubuntu系统没有声音解决方法
  11. 寒假第七周 2.22 --- 2.28
  12. win11拉伸屏幕_win11系统出现拉伸屏幕问题修复办法
  13. PHP开发Paypal支付,支付流程和接口实现方案
  14. python转换js_将节点js转换为python-seri
  15. java 二次封装azkaban 实现azkaban任务的执行
  16. 计算机培训ppt教案,课件制作的教案
  17. 真正可以根治高度近视眼的方法(转载)
  18. Unity利用单反相机拍照、录制视频
  19. android客户端显示拓扑结构,基于WIFI构建的智能家居系统综合接入及控制装置(Android客户端及综合测控).doc...
  20. 2019年链塔DApp周榜第二期 | 链塔智库

热门文章

  1. 图像分析方法之一(学习与研究笔记)
  2. 可以在浏览器中在线编辑office文件的扩展程序汇总
  3. 西施陪他游湖,金庸为他写书,2000多年前的他有何过人之处?
  4. OpenCV图像分割实战视频教程-贾志刚-专题视频课程
  5. NMEA0813协议简介
  6. 关于Java反射的面试题
  7. linux解压命令rar,Linux下压缩与解压命令详解
  8. 回归分析详解:一文说清回归、线性回归、非线性回归、Logistic回归
  9. SpringBoot项目国际化
  10. vscode配置ESLint+Prettier - Code formatter+Vetur