本文为 AI 研习社编译的技术博客,原标题 :
Review: ResNet — Winner of ILSVRC 2015 (Image Classification, Localization, Detection)
作者 | SH Tsang
翻译 | 斯蒂芬二狗子
校对 | 酱番梨 审核 | 约翰逊·李加薪 整理 | 立鱼王
原文链接:https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8

在本文,我们ResNet进行了回顾。通过学习残差表征函数而不是直接学习目标表征,ResNet可以拥有多达152层的非常深的网络。

ResNet引入了跳过连接(或快捷方式连接)以适应从前一层到下一层的输入,而无需修改输入。跳过连接可以实现更深入的网络,最终ResNet成为ILSVRC 2015在图像分类,检测和定位方面的赢家,和MS COCO 2015检测和分割的获胜者。

ILSVRC 2015图像分类排名

ImageNet是一个包含超过1500万个标记的高分辨率图像的数据集,包含大约22,000个类别。 ILSVRC在1000个类别中的每一个中使用大约1000个图像的ImageNet子集。总共有大约120万个训练图像,50,000个验证图像和100,000个测试图像。

本文涉及

  1. 普通网络的存在的问题(梯度消失/梯度爆炸)
  2. 残差网络中的跳跃/短连接(ResNet)
  3. ResNet架构
  4. 瓶颈Bottleneck的设计
  5. 消融研究(实验对比)
  6. 与最新方法的比较(图像分类)
  7. 与最新方法的比较(目标检测)

1、普通网络的存在的问题

对于传统的深度学习网络,它们通常具有卷积层,完全连接(FC)层,用于分类任务,如AlexNet,ZFNet和VGGNet,没有任何跳跃/短连接,我们称之为普通网络。当普通网络更深(层数增加)时,会出现梯度消失/梯度爆炸的问题。

Vanishing / Exploding Gradients 梯度消失/爆炸

在反向传播期间,当误差函数相对于每次训练迭代中的当前权重的求偏导数时,通过n层网络会导致将这些小/大梯度数值被乘上n倍的梯度效果。

当网络很深时,这些小数字乘n变成零(消失)。

当网络很深时,这些大数的乘n变得特别大(爆炸)。
我们一般会期望更深的网络有更准确的预测。但是,下面一个反例说明,20层普通网络比56层普通网络具有更低的训练误差和测试误差,这是梯度消失而出现性能退化问题。

CIFAR-10数据集的普通网络

2、残差网络中的跳跃/短连接(ResNet)

为了解决消失/爆炸梯度的问题,添加了 跳跃/短连接 skip / shortcut 在几个权重层之后将输入x加到输出上,如下所示:

残余网络的构建模块

因此,输出H(x)= F(x) + x。

权重层实际上是学习一种残差映射:F(x)=H(x)-x

( 反向传播时)即使权重层有梯度消失现象,我们仍然总是将x转移回较早的层。

3、ResNet架构

具有跳跃/短连接的34层ResNet(顶部),34层普通网络(中部),19层VGG-19(底部)

上图显示了ResNet架构。

  1. VGG-19 [2](底部)是ILSVRC 2014中最先进的方法。
  2. 34层普通网络(中间)被视为比VGG-19的更深的网络,即更多卷积层。
  3. 34层剩余网络(ResNet)(顶部)是普通网络添加了跳跃/短连接

对于ResNet构建模块,当输入尺寸小于输出尺寸时,有3种类型的 跳跃/短连接。

(A)短连接Shortcut执行映射恒等映射(identity mapping),使用额外的零填充zero padding来增加维度。因此没有额外增加参数。

(B)一个投影短连接projection shortcut仅用于增加尺寸,其他短连接shortcut还是恒等的连接。网络需要额外的参数。

(C)所有短连接都是投影连接。额外需要的参数多于(B)。

4、瓶颈Bottleneck的设计

由于现在网络很深,时间复杂度很高。瓶颈Bottleneck设计用于降低复杂性,如下所示:

基本块(左)和论文所提出的瓶颈块设计(右)

如图(右)所示,1×1转换层被添加到网络的开始和结束。这是Network In Network和GoogLeNet(Inception-v1)中建议的技术。事实证明,1×1转换可以减少连接数(参数),同时不会降低网络性能。 (如果感兴趣,请访问我的评论。)

用瓶颈模块,34层ResNet成为50层ResNet。而且文章还给出更深层的网络与瓶颈设计:ResNet-101和ResNet-152。所有网络的整体架构如下:

所有网络的整体架构

值得注意的是,VGG-16/19有15.3 / 196亿FLOPS。 ResNet-152的复杂程度仍低于VGG-16/19 !!!!

5、消融实验

5.1 传统网络 VS 残差网络

验证错误率:18层和34层普通网络(左),18层和34层ResNet(右)
使用10种作物测试的Top-1错误率

当使用普通网络时,由于梯度消失问题,18层优于34层。

当使用ResNet时,34层优于18层,消失梯度问题已通过跳过连接解决。

如果我们比较18层普通网络和18层ResNet,没有太大区别。这是因为浅层网络不会出现消失梯度问题。

6、与最先进方法的比较(图像分类)

6.1 ILSVRC 数据

10种作物测试结果

通过比较ResNet-34 A,B和C,得出B略好于A,C略好于B,这是因为B引入了额外的参数。ResNet-A,B,C都获得了大约7%的错误率。

通过将网络深度增加到152层,获得5.71%的Top5错误率,这比VGG-16,GoogLeNet(Inception-v1)和PReLU-Net好得多。

多尺度信息全卷积网络在10种作物数据的测试结果

此时,ResNet-152可以获得4.49%的错误率。

10种作物测试+全卷积网络,具有多尺度信息+6模型集成的结果

增加了6种模型的集成后,错误率为3.57%。

6.2 CIFAR-10 数据集

CIFAR-10结果

通过跳过连接,我们可以建立更深的模型。然而,当层数从110到1202时,发现错误率从6.43%增加到7.93%,这扔为本文中的一个未决问题。然而,ResNet-1202没有优化难度,即它仍然可以收敛。

7、与最先进方法(物体检测)的比较

PASCAL VOC 2007/2012 数据 mAP (%)
MS COCO mAP (%)

通过将ResNet-101用于faster R-CNN [3-4],ResNet获得了比VGG-16更好的性能。
ResNet最终赢得了ImageNet检测,定位,COCO检测和COCO分割的第一名!

相关文献

[2016 CVPR] [ResNet]
Deep Residual Learning for Image Recognition

[2015 ICLR] [VGGNet]
Very Deep Convolutional Networks for Large-Scale Image Recognition

[2015 NIPS] [Faster R-CNN]
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

[2017 TPAMI] [Faster R-CNN]
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

我的评论文

Review: Faster R-CNN (Object Detection)

Review: Batch Normalization (Inception-v2 / BN-Inception) -The 2nd to Surpass Human-Level Performance in ILSVRC 2015 (Image Classification)

Review: PReLU-Net, The First to Surpass Human-Level Performance in ILSVRC 2015 (Image Classification)

Review: GoogLeNet (Inception v1) — Winner of ILSVRC 2014 (Image Classification)

Review: VGGNet — 1st Runner-Up (Image Classification), Winner (Localization) in ILSVRC 2014

想要继续查看该篇文章相关链接和参考文献?

点击【ResNet - 2015年 ILSVRC 的赢家(图像分类,定位及检测)】或长按下方地址:

https://ai.yanxishe.com/page/TextTranslation/1525​ai.yanxishe.com

AI研习社今日推荐:

卡耐基梅隆大学 2019 春季《神经网络自然语言处理》是CMU语言技术学院和计算机学院联合开课,主要内容是教学生如何用神经网络做自然语言处理。神经网络对于语言建模任务而言,可以称得上是提供了一种强大的新工具,与此同时,神经网络能够改进诸多任务中的最新技术,将过去不容易解决的问题变得轻松简单。

加入小组免费观看视频:https://ai.yanxishe.com/page/groupDetail/33

resnet模型的图像分类结构图_ResNet - 2015年 ILSVRC 的赢家(图像分类,定位及检测)...相关推荐

  1. 【Pytorch神经网络理论篇】 31 图片分类模型:ResNet模型+DenseNet模型+EffcientNet模型

    1 ResNet模型 在深度学习领域中,模型越深意味着拟合能力越强,出现过拟合问题是正常的,训练误差越来越大却是不正常的. 1.1 训练误差越来越大的原因 在反向传播中,每一层的梯度都是在上一层的基础 ...

  2. 动手学深度学习(PyTorch实现)(十三)--ResNet模型

    ResNet模型 1. ResNet介绍 2. ResNet结构 3. ResNet的PyTorch实现 3.1 导入所需要的包 3.2 构建ResNet网络 3.3 开始训练 注:本文部分内容参考博 ...

  3. HTML5的内容模型及页面结构图

    目录 HTML5内容模型 内容模型列表 页面结构图 header头部标签 footer页脚标签 nav导航栏标签 article内容标签 section区域标签 aside侧栏标签 HTML5内容模型 ...

  4. 干货丨计算机视觉必读:图像分类、定位、检测,语义分割和实例分割方法梳理(经典长文,值得收藏)

    文章来源:新智元 作者:张皓 [导读]本文作者来自南京大学计算机系机器学习与数据挖掘所(LAMDA),本文直观系统地梳理了深度学习在计算机视觉领域四大基本任务中的应用,包括图像分类.定位.检测.语义分 ...

  5. 深度学习-07(图像分类、常用数据集、利用CNN实现图像分类、图像分类优化)

    文章目录 深度学习-07(PaddlePaddle图像分类) 图像分类概述 概述 什么是图像分类 图像分类粒度 图像分类发展历程 图像分类问题的挑战 常用数据集介绍 MNIST数据集 CIFAR10数 ...

  6. 基准分类模型、分类应用(多分类数字识别、疾病预测、欺诈检测)、监督学习总结

    基准分类模型.分类应用(多分类数字识别.疾病预测.欺诈检测).监督学习总结 目录

  7. 卷积神经网络常见架构AlexNet、ZFNet、VGGNet、GoogleNet和ResNet模型

    目前的常见的卷积网络结构有AlexNet.ZF Net.VGGNet.Inception.ResNet等等,接下来我们对这些架构一一详解. LeNet-5 LeNet-5模型诞生于1998年,是Yan ...

  8. 深度学习福利入门到精通第五讲——ResNet模型

    ResNet是更深的网络模型,在2015年的ILSVRC大赛中获得分类任务第一名. ResNet引入了一种残差网络结构,使用这种结构可以避免出现模型性能退化问题. 如图残差模块的输出结果等于输入数据X ...

  9. Lenet、Alexnet 、VGG、 GoogleNet、ResNet模型

    各个模型的对比 LeNet:        该模型主要是用于识别10个手写数字的. AlexNet:      换个视角: 该模型的贡献有: 1.使用RELU作为激活单元. 2.使用Dropout选择 ...

最新文章

  1. 给我10张画,我能还你1万张|Adobe团队搞定小样本图像生成
  2. java多线程总结五:线程池的原理及实现
  3. 安装 | 手把手教你Android studio 3.5.2安装(安装教程)
  4. WPF控件自定义样式(FasControls)
  5. fianl属性 java_在Java中使用Final关键字可以提高性能吗?
  6. gpu处理信号_GPU显卡不仅用来打游戏那么简单,它还可以用于通用加速计算
  7. RxSwift之路 1#Swift语法知识准备
  8. 怎样有效的学会php,十天学会PHP - 序2,有效的学习方法 (20180822-1)
  9. Ubuntu16.04下Nvidia+Cuda8.0+Dynet安装教程
  10. CTFHUB技能树-Misc-流量分析-ICMP
  11. 在ASP中常见的错误80004005信息和解决办法
  12. CRC校验算法详解及代码实现
  13. 如何导出mysql数据库
  14. 人力资源行业投资建议
  15. ecshop系统前后台出现的几个错误修正升级到PHP5.6后
  16. Java给属性赋值的先后顺序
  17. HTTP学习笔记(适合初学)2
  18. MVC5项目发布到IIS
  19. ET5.0 UGUI替换为FairyGUI
  20. Nginx配置文件解读

热门文章

  1. NoSQL为什么需要模式自由的ETL工具:不知道的大概都没用过!
  2. 2009 CCTV体坛风云人物颁奖盛典,精彩语录
  3. mybatis常用方法总结
  4. 脚本修改IIS连接数
  5. XenApp Command Line参数的传递
  6. 【转载】早点长大的飞秋
  7. 飞鸽传书2011看到一篇国外的博客
  8. 【飞秋】位运算与组合搜索(二)
  9. HTML5 API详解(11):Cache 应用程序缓存,这下离线也可以玩了
  10. php mysqli报错,php安装扩展mysqli的实现步骤及报错解决办法