ResNet最强改进版来了！ResNeSt：Split-Attention Networks

《ResNeSt: Split-Attention Networks》

作者团队：亚马逊（张航和李沐等）&UC Davis

代码（提供PyTorch和MXNet双版本）：

https://github.com/zhanghang1989/ResNeSt

论文：https://hangzhang.org/files/resnest.pdf

前言

开头先致敬一下 ResNet！Amusi 于2020年4月17日在谷歌学术上查看ResNet的引用量，发现已高达 43413！请注意，这还只是ResNet发表短短4年多的引用量。

这里吐槽一句，现在出现很多基于NAS的新网络（趋势），暴力出奇迹，比如MobileNetV3、EfficientNet等，但论应用场景，还是ResNet给力。实际上，很多下游工作（目标检测、图像分割等）仍然在使用ResNet或其变体，主要是因为结构简洁通用。

本文要介绍的是ResNet 的新变体：ResNeSt。继续将ResNet"发扬光大"，值得点赞。

Amusi 将标题注明了最强，很多人肯定会质疑是不是标题党？究竟有多强？往下看，你就知道了！

先说几组数据：

ResNeSt-50 在 ImageNet 上实现了81.13％ top-1 准确率
简单地用ResNeSt-50替换ResNet-50，可以将MS-COCO上的Faster R-CNN的mAP从39.25％提高到42.33％！
简单地用ResNeSt-50替换ResNet-50，可以将ADE20K上的DeeplabV3的mIoU从42.1％提高到45.1％！

性能显著提升，参数量并没有显著增加，部分实验结果如下图所示。轻松超越ResNeXt、SENet等前辈（巨人）们。

ResNeSt

ResNeSt 的全称是：Split-Attention Networks，也就是特别引入了Split-Attention模块。如果没有猜错，ResNeSt 的 S 应该就是 Split。

这里要说一下，ResNeSt 实际上是站在巨人们上的"集大成者"，特别借鉴了：Multi-path 和 Feature-map Attention思想。

其中：

GoogleNet 采用了Multi-path机制，其中每个网络块均由不同的卷积kernels组成。
ResNeXt在ResNet bottle模块中采用组卷积，将multi-path结构转换为统一操作。
SE-Net 通过自适应地重新校准通道特征响应来引入通道注意力（channel-attention）机制。
SK-Net 通过两个网络分支引入特征图注意力（feature-map attention）。

ResNeSt 和 SE-Net、SK-Net 的对应图示如下：

其中上图中都包含的 Split Attention模块如下图所示：

从图1和图2可知，都有split的影子。比如图1中的 K(k) 和图2中的 R(r) 都是超参数，也就是共计 G = K*R 组。

限于篇幅问题，本文旨在论文速递。完整理解Split Attention模块需要涉及部分公式，这里建议大家结合原文和代码进行理解。目前代码已经提供PyTorch和MXNet两个版本。

https://github.com/zhanghang1989/ResNeSt

同时论文还介绍了训练策略，这个对大家目前的工作应该具有很大的参考价值（涨点tricks）。

Large Mini-batch Distributed Training
Label Smoothing
Auto Augmentation
Mixup Training
Large Crop Size
Regularization

实验结果

ResNeSt 在ImageNet 图像分类性能如下，轻松超越SKNet、SENet、ResNetXt和ResNet。

ResNeSt 和其他SoTA的CNN模型进行性能比较（特别是NAS阵营）

ResNeSt 在MS-COCO 目标检测和实例分割任务上的表现性能如下，涨点太恐怖！

ResNeSt 在ADE20K 语义分割任务上的表现性能如下：

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载（pdf更新到25集）本站qq群1003271085，加入微信群请回复“加群”获取一折本站知识星球优惠券，复制链接直接打开：https://t.zsxq.com/yFQV7am喜欢文章，点个在看

ResNet最强改进版来了！ResNeSt：Split-Attention Networks相关推荐

ResNet最强改进版来啦！ResNest在多项任务中达到SOTA
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载:机器之心编辑:深度学习技术前沿 2015 年,ResNet 横空出世,一举 ...
张航、李沐等人提出ResNet最强改进版：性能提高3%，参数不增
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散编辑:Sophia 计算机视觉联盟报道 | 公众号 CVLianMeng 转载于 :机器之心 AI博士笔记系列 ...
faster rcnn resnet_张航、李沐等人提出ResNet最强改进版：性能提高3%，参数不增
性能显著提升,参数量却没有明显增加.最新的 Split-Attention Networks 继承了 ResNet 简洁通用的特性. 机器之心报道,机器之心编辑部. 2015 年,ResNet 横空出 ...
谷歌提出「卷积+注意力」新模型，超越ResNet最强变体！
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达丰色发自凹非寺量子位报道 | 公众号 QbitAI Tran ...
谷歌提出「卷积+注意力」新模型，超越ResNet最强变体
丰色发自凹非寺量子位报道 | 公众号 QbitAI Transformer跨界计算机视觉虽然已取得了一些不错的成绩,但大部分情况下,它还是落后于最先进的卷积网络. 现在,谷歌提出了一个叫做Co ...
ResNet网络的改进版：ResNeXt
之前的文章讲过ResNet网络的基本架构,其本质就是让网络的学习目的从学习转为学习 ,也就是学习输入和输出之间的残差信息,从而缓解了梯度消失和网络退化问题. 本文讲下ResNet网络的改进版:Res ...
ResNet升级版（2）：ResNeSt | ResNeSt: Split-Attention Networks
这篇论文在知乎上讨论比较多,主要原因是引入了太多训练trick,没法看出论文创新点的真正贡献,感觉更像是工程上的创新论文地址:https://arxiv.org/pdf/2004.08955.pdf ...
改进版GCN 学习Simplifying Graph Convolutional Networks
本文是SGC(简化版GCN),主要通过连续去除非线性和在连续层之间的折叠权矩阵来减少GCN的复杂性.而且这些简化不会对准确性产生负面影响.在Reddit上比FastGCN产生两个数量级的加速. 文章目 ...
rcnn 改进mask_李沐团队提出最强ResNet改进版，多项任务达到SOTA | 已开源
十三发自凹非寺量子位报道 | 公众号 QbitAI 在图像处理领域中,近年来的新模型可谓是层出不穷. 但在大多数的下游任务中,例如目标检测.语义分割,依旧还是用ResNet或其变体作为骨干网络 ...

ResNet最强改进版来了！ResNeSt：Split-Attention Networks

ResNet最强改进版来了！ResNeSt：Split-Attention Networks相关推荐

最新文章

热门文章