作者丨happy
编辑丨极市平台
本文原创首发于极市平台公众号,转载请获得授权并标明出处

论文链接:https://arxiv.org/pdf/2111.09833.pdf

代码链接:https://github.com/microsoft/Swin-Transformer

SwinTransformer重磅升级 !MSRA提出SwinV2,朝着更大容量、更高分辨率的更大模型出发,在多个基准数据集(包含ImageNet分类、COCO检测、ADE20K语义分割以及Kinetics-400动作分类)上取得新记录。针对SwinV1在更大模型方面存在的几点问题,提出了后规范化技术、对数空间连续位置偏置技术、大幅降低GPU占用的实现等得到了具有超高性能的SwinV2,刷新了多个基准数据集的指标。

Abstract

本文提出一种升级版SwinTransformerV2,最高参数量可达3 Billion,可处理1536×15361536\times 15361536×1536尺寸图像。通过提升模型容量与输入分辨率,SwinTransformer在四个代表性基准数据集上取得了新记录:84.%@ImageNetV2、63.1 box 与54.4 max mAP@COCO、59.9mIoU@ADE20K以及86.8%@Kinetics-400(视频动作分类)。

所提技术可以广泛用于视觉模型缩放,该技术在NLP语言建模中已得到广泛探索,但在视觉任务中尚未进行,主要是因为以下几点训练与应用难题:

  • 视觉模型通常面临尺度不稳定 问题;

  • 下游任务需要高分辨率图像,尚不明确如何将低分辨率预训练模型迁移为高分辨率版本

  • 此外,当图像分辨率非常大时,GPU显存占用 也是个问题。

为解决上述问题,我们以SwinTransformer作为基线,提出了几种改进技术:

  • 提出后规范化(Post Normalization)技术 与可缩放(Scaled)cosine注意力提升大视觉模型的稳定性;

  • 提出log空间连续位置偏置 技术进行低分辨率预训练模型向高分辨率模型迁移。

  • 此外,我们还共享了至关重要的实现细节 ,它可以大幅节省GPU显存占用以使得大视觉模型训练变得可行。

基于上述技术与自监督预训练,我们成功训练了一个包含3B参数量的SwinTransformer模型并将其迁移到不同的高分辨率输入的下游任务上,取得了SOTA性能。

全文地址:Swin Transformer 重磅升级!Swin V2:向更大容量、更高分辨率的更大模型迈进

关注极市平台公众号,获取最新CV干货

Swin Transformer 升级,Swin V2:向更大容量、更高分辨率的更大模型迈进相关推荐

  1. 【Swin Transformer】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    文章:https://arxiv.org/abs/2103.14030 代码:GitHub - microsoft/Swin-Transformer: This is an official impl ...

  2. 【读点论文】A ConvNet for the 2020s,结合swin transformer的结构设计和训练技巧调整resnet网络,在类似的FLOPs和参数量取得更好一点的效果

    A ConvNet for the 2020s Abstract 视觉识别的"咆哮的20年代"始于视觉transformer(ViTs)的问世,它迅速取代ConvNets成为最先进 ...

  3. 【CV】Swin Transformer:使用 Shifted Windows 的分层视觉 Transformer

    论文名称:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文下载:https://arxiv.org/ ...

  4. 【读点论文】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows通过窗口化进行局部MSA,sw-MSA融合信息

    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows abstract 本文提出了一种新的视觉transfor ...

  5. 论文精读:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    Abstract 本文提出了一种新的vision Transformer,称为Swin Transformer,它能够作为计算机视觉的通用骨干网络.从语言到视觉的挑战来自于这两个领域之间的差异,比如视 ...

  6. Swin Transformer理论讲解

    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Ze Liu, Yutong Lin, Yue Cao, ...

  7. ICCV 2021 Best Paper | Swin Transformer何以屠榜各大CV任务!

    作者:陀飞轮@知乎(已授权) 来源:https://zhuanlan.zhihu.com/p/360513527 编辑:智源社区 近日,Swin Transformer拿到2021 ICCV Best ...

  8. 【CV】SwinIR:使用 Swin Transformer 进行图像恢复

    论文名称:SwinIR: Image Restoration Using Swin Transformer 论文下载:https://arxiv.org/abs/2108.10257 论文年份:ICC ...

  9. Swin Transformer全方位解读【ICCV2021马尔奖】

    前言 前言就是唠唠嗑,想看干货的可以直接看下一节. 今年ICCV的最佳论文还是给到了刷榜各大CV竞赛榜的模型Swin Transformer,研究团队来自MSRA(你大爷还是你大爷啊). 自从ViT. ...

最新文章

  1. WindowsPhone基础琐碎总结-----数据绑定(一)
  2. 讲解 Redis 的一篇深度好文!
  3. C语言'\0'(偶遇坑)
  4. 剪切粘贴时总是上次的内容_自学PS:拷贝与粘贴都有哪些方法?编辑信息时错误了怎样恢复?...
  5. 【Python】身体质量指数BMI
  6. 终极会话劫持工具SSClone
  7. Android之图片缓存管理
  8. 神奇的中医!神奇的文化!
  9. 蚂蚁金服发布眼纹识别技术,背后的原理是怎样的?
  10. sklearn计算准确率,召回率,精确率,F1函数
  11. 一步一步安装服务器监视软件MRTG
  12. java xml 空节点_java:利用xpath删除xml中的空节点
  13. Windows如何查看局域网内所有设备的ip
  14. 软件工程第一次作业 192402 20194653 徐伟刚
  15. 分享第三方支付申请流程政策
  16. 计算机cpu风扇不转怎么办,组装电脑cpu风扇不转怎么办 组装电脑cpu风扇不转解决方法【介绍】...
  17. 1413. 逐步求和得到正数的最小值
  18. python第一章(下)
  19. ROS安装:一键解决人生烦恼
  20. Hadoop 常用的命令

热门文章

  1. jQuery插件-json2.js
  2. String,StringBuffer与StringBuilder
  3. C/S端开发问题汇总
  4. C51端口结构和工作原理(转)
  5. UI层调用WCF服务实例(源码)
  6. RTX51 Tiny中容易混淆的问题
  7. Mime类型与文件后缀对照表及探测文件MIME的方法
  8. VS.Net 开发 MSN一样缓慢出来的提示信息的方法
  9. python实现函数ifodd_09-Python笔记整理(函数)
  10. python访问网页时401_在python上访问带有基本身份验证的网页