梯度消失现象:在某些神经网络中,从后向前看,前面层梯度越来越小,后面的层比前面的层学习速率高。

梯度消失原因:

sigmoid函数导数图像

导数最大为0.25<1
权重初始值通常使用一个高斯分布所以|w|<1,所以 wjσ′(zj)<0.25 ,根据链式法则计算梯度越来越小。由于层数的增加,多个项相乘,势必就会导致不稳定的情况。
sigmoid激活函数的缺点:
1.计算量大,反向传播求梯度误差时,求导涉及除法2.反向传播容易出现梯度消失
解决方法:
RELU函数 代替sigmoid函数
Alex在2012年提出的一种新的激活函数。该函数的提出很大程度的解决了BP算法在优化深层神经网络时的梯度耗散问题

优点:
∙ x>0 时,梯度恒为1,无梯度耗散问题,收敛快;
∙ 增大了网络的稀疏性。当x<0 时,该层的输出为0,训练完成后为0的神经元越多,稀疏性越大,提取出来的特征就约具有代表性,泛化能力越强。即得到同样的效果,真正起作用的神经元越少,网络的泛化性能越好
∙ 运算量很小,训练时间少;
缺点:
如果后层的某一个梯度特别大,导致W更新以后变得特别大,导致该层的输入<0,输出为0,这时该层就会‘die’,没有更新。当学习率比较大时可能会有40%的神经元都会在训练开始就‘die’,因此需要对学习率进行一个好的设置。
由优缺点可知max(0,x) 函数为一个双刃剑,既可以形成网络的稀疏性,也可能造成有很多永远处于‘die’的神经元,需要tradeoff

RELU激活函数作用相关推荐

  1. 转:ReLU激活函数:简单之美

    纯粹学习收藏. 转载地址:https://blog.csdn.net/cherrylvlei/article/details/53149381 导语 在深度神经网络中,通常使用一种叫修正线性单元(Re ...

  2. 为什么要ReLU激活函数

    导语 在深度神经网络中,通常使用一种叫修正线性单元(Rectified linear unit,ReLU)作为神经元的激活函数.ReLU起源于神经科学的研究:2001年,Dayan.Abott从生物学 ...

  3. Sigmoid和Relu激活函数的对比

    深度学习笔记(4)--Sigmoid和Relu激活函数的对比 https://blog.csdn.net/qq_21190081/article/details/64127103 Relu是一个非常优 ...

  4. 【调参12】ReLU激活函数使用指南

    文章目录 1. 线性整流单元(Rectified Linear Unit, ReLU)简介 1.1 Sigmoid和Tanh激活函数的局限性 1.2 ReLU激活函数 2. ReLU 激活函数的优点 ...

  5. 梯度下降与ReLU激活函数

    14.梯度下降与ReLU激活函数 14.1 梯度下降法 在数学中,梯度表示函数递增速度最快的方向,反之梯度的负方向则表示函数衰减最快的方向.因此,可以通过不断迭代使用梯度下降方法求解到函数的最小值.( ...

  6. 激活函数、Sigmoid激活函数、tanh激活函数、ReLU激活函数、Leaky ReLU激活函数、Parametric ReLU激活函数详细介绍及其原理详解

    相关文章 梯度下降算法.随机梯度下降算法.动量随机梯度下降算法.AdaGrad算法.RMSProp算法.Adam算法详细介绍及其原理详解 反向传播算法和计算图详细介绍及其原理详解 激活函数.Sigmo ...

  7. ReLU激活函数:简单之美

    导语 在深度神经网络中,通常使用一种叫**修正线性单元(Rectified linear unit,ReLU)**作为神经元的激活函数.ReLU起源于神经科学的研究:2001年,Dayan.Abott ...

  8. 使用opencv dnn 模块调用darknet模型时候出错,不支持relu激活函数

    问题: 使用opencv dnn 模块调用darknet模型时候出错,报错信息为 不支持relu激活函数 以下过程为笔者自己解决该问题的过程,供各位参考学些,因为中间又遇到新的坑,所以各位务必看完再决 ...

  9. 零基础学caffe源码 ReLU激活函数

    零基础学caffe源码 ReLU激活函数 原创 2016年08月03日 17:30:19 1.如何有效阅读caffe源码 1.caffe源码阅读路线最好是从src/cafffe/proto/caffe ...

  10. 【深度学习】ReLU激活函数的缺点

    关于ReLU的详细介绍可以参考: ReLU激活函数 - 知乎 训练的时候很"脆弱",很容易就"die"了,训练过程该函数不适应较大梯度输入,因为在参数更新以后, ...

最新文章

  1. 使用OpenCV进行直播(附代码)
  2. Spring Cloud Feign的两种使用姿势
  3. 十九、 彻底掌握金融量化交易库Talib
  4. 招聘职位:ERP咨询顾问(广州、厦门)
  5. UITableViewCell中cell重用机制导致内容重复的方法
  6. 使用Visual Studio 创建可视Web Part部件
  7. Ubuntu 加速安装Opencv 3.4.3
  8. 转子接地保护原理_发电机转子一点接地:保护原理、整定方法、动作后果
  9. Web前端工作笔记007---h5 canvas_雨滴头像合成_图像合成_合成雨滴头像
  10. 1431.拥有最多糖果的孩z
  11. 2016北理复试机试题
  12. 网络分析仪测试线损_网络分析仪测试天线隔离度
  13. 如何选择好的上海自媒体招聘平台
  14. 2020年携程校招开发方向第一题
  15. 马哥教育42期第五周作业
  16. STM32HAL库微秒延时函数的实现---DWT和SysTick
  17. 用python画一个机器猫歌词_用Python语言模型和LSTM做一个Drake饶舌歌词生成器!自己蒙了!...
  18. 如何做CRM系统的客户开发?
  19. 回传速率和测量带宽及两者之间的联系
  20. 大年初五嘉定观影《天将雄师》后点评

热门文章

  1. JQUI dialog中使用datepicker
  2. FPGA——sdram控制器1
  3. 战旗助手服务器代码,炉石传说酒馆战旗助手
  4. 比特红:万物可直播、人人能带货
  5. 20220906_C52单片机学习笔记 | LED闪烁
  6. 卷积码编码和译码c语言,卷积码编码和译码.doc
  7. 网站开发项目的需求分析
  8. c语言2010试题答案,2010年c语言试题及答案
  9. 地图 插件 html 经纬度,地图插件(经纬度)
  10. Wilcoxon符号秩检验及其matlab代码