十三 发自 凹非寺
量子位 报道 | 公众号 QbitAI

在图像处理领域中,近年来的新模型可谓是层出不穷。

但在大多数的下游任务中,例如目标检测、语义分割,依旧还是用ResNet或其变体作为骨干网络。

而最近,亚马逊李沐团队便提出了堪称“ResNet最强改进版”的网络——ResNeSt

从名字中不难看出,是引入了模块化的分散注意力模块,可以让注意力跨特征图(feature-map)组。

那么,ResNeSt到底有多强?

  • ResNeSt-50在224×224的ImageNet上,实现了81.13%的TOP-1精度,比之前最好的ResNet变体精度高出1%以上。

  • 简单地用ResNeSt-50替换ResNet-50骨干,可以让MS-COCO上的FasterRCNNNN的mAP,从39.25%提高到42.33%;ADE20K上的DeeplabV3的mIoU,从42.1%提高到45.1%。

这些改进对下游任务有很大的帮助,包括目标检测、实例分割和语义分割。

就连李沐也发朋友圈,呼吁小伙伴们“一键升级”。

更让人惊喜的是,这项工作已开源!

最强ResNet变体:多项任务取得“大满贯”

现在,我们具体来看下ResNeSt在具体任务中的表现。

图像分类

第一个实验研究了ResNeSt在ImageNet 2012数据集上的图像分类性能。

通过将ResNeSt和其他50层和101层配置、类似复杂度的ResNet变体作比较,TOP-1精度达到了最高,如下表所示。

还与不同大小的CNN模型做了比较。

采用了256×256的ResNeSt-200, 和320×320的ResNeSt-269。对于输入大小大于256的模型,采用双三次上采样策略(Bicubic upsampling strategy)。

从下表不难看出,与基于NAS发现的模型相比,ResNeSt具有更好的准确性和延迟权衡。

目标检测

接下来,是在目标检测上的性能。

所有的模型,都是在COCO-2017训练集上训练的118k图像,并在COCO-2017验证集上用5k图像进行评估。

使用FPN、同步批处理归一化(synchronized batch normalization)和图像尺度增强,来训练所有模型。

为了方便比较,简单地用ResNeSt替换了vanilla ResNet骨干,同时使用默认设置的超参数。

与使用标准ResNet的基线相比,ResNeSt的骨干在Faster-RCNN和CascadeRCNN上,都能将平均精度提高3%左右。

这就说明ResNeSt的骨干网络具有良好的泛化能力,并且可以很容易地迁移到下游任务中。

值得注意的是,ResNeSt50在Faster-RCNN和Cascade-RCNN检测模型上都优于ResNet101,而且使用的参数明显较少。

实例分割

在实例分割任务中,以ResNeSt-50和ResNeSt-101为骨干,对Mask-RCNN和Cascade-Mask-RCNN模型进行评估。

实验结果如下表所示,对于Mask-RCNNN来说,ResNeSt50的box/mask性能增益分别为2.85%/2.09%,而ResNeSt101则表现出了更好的提升,达到了4.03%/3.14%。

对于Cascade-Mask-RCNN,切换到ResNeSt50或ResNeSt101所产生的增益分别为3.13%/2.36%或3.51%/3.04%。

这就表明,如果一个模型由更多的Split-Attention模块组成,那么它的效果会更好。

语义分割

在语义分割下游任务的转移学习中,使用DeepLabV3的GluonCV实现作为基准方法。

从下表中不难看出,ResNeSt将DeepLabV3模型实现的mIoU提升了约1%,同时保持了类似的整体模型复杂度。

值得注意的是,使用ResNeSt-50的DeepLabV3模型的性能,比使用更大的ResNet-101的DeepLabV3更好。

ResNeSt:注意力分割网络

性能如此卓越,到底是对ResNet做了怎样的改良呢?

接下来,我们就来揭开ResNeSt的神秘面纱。

正如刚才我们提到的,ResNeSt是基于ResNet,引入了Split-Attention块,可以跨不同的feature-map组实现feature-map注意力。

Split-Attention块是一个计算单元,由feature-map组和分割注意力操作组成。下2张图便描述了一个Split-Attention块,以及cardinal group中的split-Attention。

从上面的2张图中不难看出,都有split的影子。比如 K(k) 和 R(r) 都是超参数,也就是共计 G = K*R 组。

除此之外,也可以与SE-Net和SK-Net对比着来看。

其中,SE-Net引入了通道注意力(channel-attention)机制;SK-Net则通过两个网络分支引入特征图注意力(feature-map attention)。

ResNeSt和SE-Net、SK-Net的对应图示如下:

研究人员介绍

李沐,亚马逊首席科学家,加州大学伯克利分校客座助理教授,美国卡内基梅隆大学计算机系博士。

专注于分布式系统和机器学习算法的研究。他是深度学习框架MXNet的作者之一。

曾任机器学习创业公司Marianas Labs的CTO和百度深度学习研究院的主任研发架构师。

李沐有着丰富的研究成果,曾先后在国内外主流期刊上发表多篇学术论文,其中《DiFacto — Distributed Factorization Machines 》在ACM国际网络搜索和数据挖掘(WSDM)大会上被评为最佳论文奖。

传送门

论文地址:
https://hangzhang.org/files/resnest.pdf

GitHub项目地址:
https://github.com/zhanghang1989/ResNeSt

作者系网易新闻·网易号“各有态度”签约作者

如何关注、学习、用好人工智能?

每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:

了解AI发展现状,抓住行业发展机遇

AI社群 | 与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源相关推荐

  1. rcnn 改进mask_李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源

    十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在图像处理领域中,近年来的新模型可谓是层出不穷. 但在大多数的下游任务中,例如目标检测.语义分割,依旧还是用ResNet或其变体作为骨干网络 ...

  2. 李沐团队半年离开六人,MxNet是否英雄落幕?贾扬清:关键能否解决新痛点

    点上方蓝字视学算法获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作分享,不代表本公众号立场,侵权联系删除 转载于:AI科技评论 据知乎网友爆料,亚马逊AI李沐团队今年初至今已经离开6人 ...

  3. 张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :机器之心 AI博士笔记系列 ...

  4. faster rcnn resnet_张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增

    性能显著提升,参数量却没有明显增加.最新的 Split-Attention Networks 继承了 ResNet 简洁通用的特性. 机器之心报道,机器之心编辑部. 2015 年,ResNet 横空出 ...

  5. 李沐团队新作Gluon,复现CV经典模型到BERT,简单好用 | 强烈推荐

    参加 2019 Python开发者日,请扫码咨询 ↑↑↑ 责编 | Jane 出品 | AI科技大本营(公众号id:rgznai100) [导语]上周,李沐老师公布 GluonNLP0.6 版本,借助 ...

  6. 如何看待亚马逊 AI 李沐团队大批人员离职?

    作者:贾扬清 链接:https://www.zhihu.com/question/392035070/answer/1230171680 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商 ...

  7. 用TCN取代RNN!李飞飞团队提出口语语音识别新方法

    \n 在自然语言理解中,Word2Vec.EMLo和BERT对各项语言理解任务的提升效果非常明显.而在语音识别和情感识别中,基于字符.音素等的编码识别则面临着很多的挑战.近日,李飞飞团队与斯坦福大学音 ...

  8. 李沐老师在伯克利开新课了,深度学习教材已经开源,视频也会有的

    ↑ 点击上方[计算机视觉联盟]关注我们 栗子 发自 凹非寺  量子位 报道 | 公众号 QbitAI 李沐老师的新课,这个月就要在伯克利开讲了. 这是一门深度学习基础课,一周两节:每节课后,都会有课堂 ...

  9. 大神李沐被爆离职!投身大模型创业,GitHub项目已开

    源|机器之心 在 ChatGPT.大模型备受关注的今天,华人 AI 学者李沐创业的消息吸引了大家的眼球. 消息首先由媒体「亲爱的数据」爆出. 「我们正在构建一些大的东西-- 请持续关注.如果你想从事可 ...

最新文章

  1. 查找二叉树中出现次数最多的数 Find Mode in Binary Search Tree
  2. Replication主要配置项
  3. HDU2515 Yanghee 的算术
  4. 后台系统可扩展性学习笔记
  5. 用多媒体库 Bass.dll 播放 mp3 [9] - 绘制波形图
  6. JAVA入门级教学之(定义一个学生类)
  7. word如何设置长宽高_word怎样设置图片长宽
  8. 跳转前暂停几秒js如何实现
  9. mysql中 show index from tb_name命令各列的含义
  10. ddtek.oracle.dll使用相关
  11. ansys workbench 静力结构分析 高阶教程
  12. 【计算机网络】数据链路层(超多图详析)
  13. matplotlib + cartopy 画空间趋势图并标注显著性
  14. larvel html转pdf文件,如何在Laravel中使用TCPDF从HTML生成PDF
  15. 104Triangle Area三角面积
  16. 无线访问域服务器,管理用户的RADIUS服务器认证无线局域网控制器WLC配置-Cisco.PDF...
  17. mysql创建用户只能访问数据库中一张表
  18. 高斯 二维 matlab,MATLAB实例:二维高斯分布图
  19. 定位之相对定位不脱离文档流,绝对定位脱离文档流
  20. 全国专业技术人员计算机应用能力考试题库word,全国专业技术人员计算机应用能力考试题库ExcelWordXP.docx...

热门文章

  1. 利用svg技术实现在线动画演示
  2. 洛谷P1119 灾后重建
  3. 《Windows Server 2012 Hyper-V虚拟化管理实践》一3.3 远程管理Hyper-V主机
  4. 英语词汇(5)followed by / sung by / written by
  5. centos6.5下iptables基础知识详解与配置
  6. 【linux高级程序设计】(第十一章)System V进程间通信 3
  7. 4_Shell语言———脚本概述
  8. selenium 3+python3.6 for MacOS的配置
  9. 半木夏低风险交易记录二
  10. 解决Kali Linux XFCE桌面Tab无法补全