视学算法报道

转载自:机器之心

编辑:维度

屠榜各大 CV 任务的微软 Swin Transformer,近日开源了代码和预训练模型。

自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言处理领域的主流模型。最近一段时间,Transformer 更是开启了自己的跨界之旅,开始在计算机视觉领域大展身手,涌现出了多个基于 Transformer 的新模型,如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此,「Transformer 是万能的吗?」也一度成为机器学习社区的热门话题。

不久前,微软亚研的研究者提出了一种通过移动窗口(shifted windows)计算的分层视觉 Transformer,他们称之为 Swin Transformer。相比之前的 ViT 模型,Swin Transformer 做出了以下两点改进:其一,引入 CNN 中常用的层次化构建方式构建分层 Transformer;其二,引入局部性(locality)思想,对无重合的窗口区域内进行自注意力计算。

论文链接:https://arxiv.org/pdf/2103.14030.pdf

首先来看 Swin Transformer 的整体工作流,下图 3a 为 Swin Transformer 的整体架构,图 3b 为两个连续的 Swin Transformer 块。

该研究的亮点在于利用移动窗口对分层 Transformer 的表征进行计算。通过将自注意力计算限制在不重叠的局部串口,同时允许跨窗口连接。这种分层结构可以灵活地在不同尺度上建模,并具有图像大小的线性计算复杂度。下图 2 为在 Swin Transformer 架构中利用移动窗口计算自注意力的工作流:

模型本身具有的特性使其在一系列视觉任务上都实现了颇具竞争力的性能表现。其中,在 ImageNet-1K 数据集上实现了 86.4% 的图像分类准确率、在 COCO test-dev 数据集上实现了 58.7% 的目标检测 box AP 和 51.1% 的 mask AP。目前,在 COCO minival 和 COCO test-dev 两个数据集上,Swin-L(Swin Transformer 的变体)在目标检测和实例分割任务中均实现了 SOTA。

此外,在 ADE20K val 和 ADE20K 数据集上,Swin-L 也在语义分割任务中实现了 SOTA。

开源代码和预训练模型

Swin Transformer 论文公开没多久之后,微软官方于近日在 GitHub 上开源了代码和预训练模型,涵盖图像分类、目标检测以及语义分割任务。上线仅仅两天,该项目已收获 1900 星。

项目地址:https://github.com/microsoft/Swin-Transformer

首先图像分类任务,Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 ImageNet-1K 和 ImageNet-22K 数据集上的准确率结果如下:

其次目标检测任务:Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 COCO 目标检测(2017 val)数据集上的结果如下:

最后语义分割任务:Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 ADE20K 语义分割(val)数据集上的结果如下。目前,Swin-L 取得了 53.50% 的 SOTA 验证 mIoU 分数。

© THE END

转载请联系 机器之心 公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

点个在看 paper不断!

霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star相关推荐

  1. 霸榜 | 微软CV模型收获近 2k star

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 屠 ...

  2. 【20210416期AI简报】微软分层ViT模型开源、 DIY一只“眼睛”摄像头

    导读:本期为 AI 简报 20210416 期,将为您带来 7 条相关新闻~ 本文一共 2300 字,通篇阅读结束需要 5~8 分钟 1. 训练AI来玩CS反恐精英!清华朱军与剑桥博士后的这项研究太燃 ...

  3. 霸榜各大CV任务榜单,Swin Transformer横空出世!

    1. ImageNet-1K的图像分类 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 一元@炼丹笔记 ...

  4. 霸榜多个CV任务!开源仅两天,已收获2.1k star

    本文转载自机器之心. 屠榜各大 CV 任务的微软 Swin Transformer,近日开源了代码和预训练模型. 自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言 ...

  5. 霸榜18年,作者连续20年获得微软MVP,这本SQL书凭什么成为畅销经典

    说到 SQL ,大多数人都不陌生,不管你是 Java .C++ 还是 .NET 开发人员,工作中你都要编写 SQL 查询.由于数据库是现代 Java 或者 Web 应用程序中不可或缺的组成部分,拥有良 ...

  6. Facebook开源了两个无监督翻译模型,只用单语就能训练双语

    翻栗子 发自 凹非寺 量子位 出品 | 公众号 QbitAI  昨天,Yann LeCun大神发推宣布,Facebook的两个无监督翻译模型,开源了. 所谓无监督,便是不需要双语对照文本,只用单语 ...

  7. 编辑器 Typora 开始收费,开源免费的 MarkText 火了:一周剧增 2k+star

    点击上方"Java精选",选择"设为星标" 别问别人为什么,多问自己凭什么! 下方有惊喜留言必回,有问必答! 每天 08:15 更新文章,每天进步一点点... ...

  8. JavaScript 霸榜、TypeScript 爆发、开源吞噬世界,GitHub 年度报告正式发布!

    在知识迭代与认知焦虑并存下,2020 年悄然而逝.作为这个时代下的见证者之一,全球知名代码托管平台 GitHub 于 12 月 3 日上交了自己的年终总结--< 2020 年度 GitHub O ...

  9. 打马赛克就安全了吗?GitHub热榜的“AI消除马赛克”,上线三天收获近万star

    还在用马赛克的方式隐藏密码?小心被「看穿」. 像素化(又称马赛克)是一种常见的打码方式,通过降低图像中部分区域的分辨率来隐藏某些关键信息,比如: 再比如: 看图找马赛克!(找不到请看右侧原图) 但是, ...

最新文章

  1. 封装方法公共文件common.js
  2. 前端框架:发送请求获取数据的执行逻辑
  3. python写一个聊天程序_python实现一个简单的网络聊天程序
  4. 分布式统一配置平台-Disconf.Net
  5. python3 线程隔离_Python的线程隔离实现方法
  6. Docker Networking Data Volume
  7. 基于visual Studio2013解决C语言竞赛题之1026判断排序
  8. HTML网页随笔笔记
  9. 项目验收文档模板(一)
  10. 2019年网络安全灾难事件,5大勒索病毒软件
  11. Office、excel、word卡死(或卡顿后自动恢复)的解决方案
  12. Unity下如何实现RTMP或RTSP流播放和录制
  13. 扩屏双显示器一个清晰,另一个模糊的解决办法
  14. C/C++描述 第十一届蓝桥杯省赛 C/C++ 大学C组 第一场(2020.7.5) 题目+题解
  15. 跟着狂神学Docker(精髓篇)
  16. python安装pyfasttext
  17. 自学web前端真的很难找到工作
  18. RTMP视频推流功能组件EasyRTMP-HIK DEMO版本运行报错0xc000007b问题排查分析
  19. KEGG_cnetplot绘制基因—通路图(展示想要的通路)——R
  20. 深度学习中的VQA(视觉问答)技术

热门文章

  1. Media Queries
  2. Oracle Mutex 机制 说明
  3. 有关cmd.Parameters.Clear()
  4. 利用Use Case为系统行为建模(1)
  5. 图像直接卷积 Sobel 边缘实现
  6. 太好玩了,爬虫、部署API、加小程序,一条龙玩转知乎热榜!
  7. GPT-3模型为何难以复现?这也许是分布式AI框架的最优设计
  8. 炸裂!微软重磅推出混合现实平台 Mesh、基于 Excel 的低代码语言 Power Fx,Ignite 2021 太精彩!...
  9. 湘苗培优 | 从入门到精通
  10. Git 看这一篇就够了