普通网络

假设有一个神经网络如上图所示,包含两个层(weight layer1、weight layer2,无激活函数)

那么对这个神经网络进行一次正向传播+反向传播的过程为:

正向传播:

输入x,经过第一层,f(x) = w1x + b1

经过第二层,g(f(x)) = w2f(x) + b2

Loss(y, g(f(x))) = (y – g(f(x)))^2(也可为其它损失计算方式,此处不重要)

反向传播:

更新参数w1’ = w1 – Lr*,w2’ = w2 – Lr*(Lr为学习速率)

其中

可见计算w1梯度时比计算w2梯度时,连乘操作涉及的元素更多

即越上层的参数,更新时连乘涉及的元素越多(因为信息是反向逐层传播的)

连乘过程中会产生的问题(越上层的参数越容易发生这种情况):

(1) 当连乘时趋近于0的元素很多时:连乘元素越多,结果越趋近于0,造成梯度弥散

即参数更新时计算出的梯度非常小时,说明反向传播反馈回来的信息非常少了,这些参数几乎不更新了

(2) 当连乘时大于1的元素很多时:连乘元素越多,结果越大,造成梯度爆炸

即参数更新时计算出的梯度非常大时,这些参数变化将过于极端,导致模型效果下降


解决方法:残差处理

添加了残差处理后的结构:

假设在layer2处做残差处理,即layer2的输出 = layer2的计算结果 + layer2的输入

输出 = g(f(x)) + f(x)

与非残差结构的区别在于,添加残差处理后是用g(f(x)) + f(x)来拟合目标结果而非g(f(x))

那么反向传播的过程中:

可以想象,即使连乘的部分数值过小/趋近于0也还有其它的项来保证参数的更新

可以说:

残差处理即为通过改变模型输出值的构成以在梯度计算时融入加法,使得当个别梯度计算时即使部分项过小/趋近于0时,信息传播也不会消失

对残差网络(ResNet/Residual Network)的基础理解相关推荐

  1. 深度残差网络(Deep Residual Network)ResNet

    一说起"深度学习",自然就联想到它非常显著的特点"深.深.深",通过很深层次的网络实现准确率非常高的图像识别.语音识别等能力.因此,我们自然很容易就想到:深的网 ...

  2. 吴恩达神经网络和深度学习-学习笔记-35-残差网络(Residual Network)

    非常非常深的网络是很难训练的,因为存在梯度消失和梯度爆炸的问题. ResNet用到了跳远连接,使得它可以从某一网络层获取激活,然后迅速反馈给另外一层,甚至是神经网络的更深层.这让ResNet可以训练很 ...

  3. CNN经典网络之残差网络(ResNet)剖析

    残差网络(Residual Network, ResNet)是在2015年继AlexNet.VGG.GoogleNet 三个经典的CNN网络之后提出的,并在ImageNet比赛classificati ...

  4. 残差网络ResNet到ResNeXt解读,最强ResNeXt预训练模型已开源及如何使用

    它叫ResNeXt WSL,有超过8亿个参数,用Instagram上面的9.4亿张图做了 (弱监督预训练) ,用ImageNet做了微调. 背景介绍:残差网络的发展 ● ResNet (2015) 传 ...

  5. 深度残差网络RESNET

    一.残差神经网络--ResNet的综述 深度学习网络的深度对最后的分类和识别的效果有着很大的影响,所以正常想法就是能把网络设计的越深越好, 但是事实上却不是这样,常规的网络的堆叠(plain netw ...

  6. 深度学习目标检测 RCNN F-RCNN SPP yolo-v1 v2 v3 残差网络ResNet MobileNet SqueezeNet ShuffleNet

    深度学习目标检测--结构变化顺序是RCNN->SPP->Fast RCNN->Faster RCNN->YOLO->SSD->YOLO2->Mask RCNN ...

  7. 残差网络(Residual Networks, ResNets)

    1. 什么是残差(residual)? "残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.""如果回归模型正确的话, 我们可以将残差看作误差的观测值." ...

  8. 残差网络ResNet

    文章目录 ResNet模型 两个注意点 关于x 关于残差单元 核心实验 原因分析 ResNet的效果 题外话 ResNet是由何凯明在论文Deep Residual Learning for Imag ...

  9. 吴教授的CNN课堂:进阶 | 从LeNet到残差网络(ResNet)和Inception Net

    转载自:https://www.jianshu.com/p/841ac51c7961 第二周是关于卷积网络(CNN)进阶部分,学到挺多新东西.因为之前了解过CNN基础后,就大多在用RNN进行自然语言处 ...

  10. (pytorch-深度学习)实现残差网络(ResNet)

    实现残差网络(ResNet) 我们一般认为,增加神经网络模型的层数,充分训练后的模型理论上能更有效地降低训练误差. 理论上,原模型解的空间只是新模型解的空间的子空间.也就是说,如果我们能将新添加的层训 ...

最新文章

  1. python装饰器实例-Python装饰器用法实例总结
  2. unity3d Update()和FixedUpdate()的区别
  3. 设置Linux下Mysql表名不区分大小写
  4. 洛谷P4145 上帝造题的⑦minutes ②
  5. OpenCASCADE: Code::Blocks构建OCCT
  6. 圆形渐变shader_Flutter 中渐变的高级用法
  7. 后勤管理系统_还在用人工进行宿舍后勤管理?超级适用的宿舍管理系统推荐
  8. docker 打包新镜像原有配置丢失_Docker简介与安装
  9. 一文详解 Serverless 技术选型
  10. 倒数第N个字符串 (15 分)
  11. 「leetcode」C++题解:226.翻转二叉树,递归法与迭代法详解
  12. 003:枚举算法(习题)
  13. 四川大学计算机学院软件工程期末,四川大学《离散数学》2016期末试题A卷_软件工程.pdf...
  14. 服务器系统怎么刻录光盘,怎么刻录Win7系统盘?Win7系统盘刻录教程
  15. 泛微OA与SAP通过webservice方式对接数据完整操作
  16. cc2530协调器向终端发信息
  17. 记一次解决eclipse复制粘贴不能用问题
  18. 京牌车辆过户以后车辆保险怎么办?
  19. 电脑重装系统后在Win11控制面板怎么打开?
  20. 红米k50至尊版和小米12spro区别 哪个好

热门文章

  1. 手机做web服务器 无限流量,无限流量卡和手机随身无线wifi,你选择哪一个?
  2. 以Table表为框架,在HTML中实现数据列的添加,删除,查找功能
  3. Linux配置8021.q vlan实践篇
  4. protal认证的稳定性测试脚本
  5. 「CodePlus 2017 11 月赛」大吉大利,晚上吃鸡!
  6. Win10 下搭建PHP开发环境(自定义方式)
  7. OSG 场景图(Scene Graph) 类图
  8. 图论们,小爷来ak你们啦瓦咔咔~
  9. 阿里P9纯手打亿级高并发系统设计手册,走进阿里的架构世界
  10. Ubuntu 开机未登录用户前自动连接wifi