RELU激活函数作用
梯度消失现象:在某些神经网络中,从后向前看,前面层梯度越来越小,后面的层比前面的层学习速率高。
梯度消失原因:
sigmoid函数导数图像
导数最大为0.25<1
权重初始值通常使用一个高斯分布所以|w|<1,所以 wjσ′(zj)<0.25 ,根据链式法则计算梯度越来越小。由于层数的增加,多个项相乘,势必就会导致不稳定的情况。
sigmoid激活函数的缺点:
1.计算量大,反向传播求梯度误差时,求导涉及除法2.反向传播容易出现梯度消失
解决方法:
RELU函数 代替sigmoid函数
Alex在2012年提出的一种新的激活函数。该函数的提出很大程度的解决了BP算法在优化深层神经网络时的梯度耗散问题
优点:
∙ x>0 时,梯度恒为1,无梯度耗散问题,收敛快;
∙ 增大了网络的稀疏性。当x<0 时,该层的输出为0,训练完成后为0的神经元越多,稀疏性越大,提取出来的特征就约具有代表性,泛化能力越强。即得到同样的效果,真正起作用的神经元越少,网络的泛化性能越好
∙ 运算量很小,训练时间少;
缺点:
如果后层的某一个梯度特别大,导致W更新以后变得特别大,导致该层的输入<0,输出为0,这时该层就会‘die’,没有更新。当学习率比较大时可能会有40%的神经元都会在训练开始就‘die’,因此需要对学习率进行一个好的设置。
由优缺点可知max(0,x) 函数为一个双刃剑,既可以形成网络的稀疏性,也可能造成有很多永远处于‘die’的神经元,需要tradeoff
RELU激活函数作用相关推荐
- 转:ReLU激活函数:简单之美
纯粹学习收藏. 转载地址:https://blog.csdn.net/cherrylvlei/article/details/53149381 导语 在深度神经网络中,通常使用一种叫修正线性单元(Re ...
- 为什么要ReLU激活函数
导语 在深度神经网络中,通常使用一种叫修正线性单元(Rectified linear unit,ReLU)作为神经元的激活函数.ReLU起源于神经科学的研究:2001年,Dayan.Abott从生物学 ...
- Sigmoid和Relu激活函数的对比
深度学习笔记(4)--Sigmoid和Relu激活函数的对比 https://blog.csdn.net/qq_21190081/article/details/64127103 Relu是一个非常优 ...
- 【调参12】ReLU激活函数使用指南
文章目录 1. 线性整流单元(Rectified Linear Unit, ReLU)简介 1.1 Sigmoid和Tanh激活函数的局限性 1.2 ReLU激活函数 2. ReLU 激活函数的优点 ...
- 梯度下降与ReLU激活函数
14.梯度下降与ReLU激活函数 14.1 梯度下降法 在数学中,梯度表示函数递增速度最快的方向,反之梯度的负方向则表示函数衰减最快的方向.因此,可以通过不断迭代使用梯度下降方法求解到函数的最小值.( ...
- 激活函数、Sigmoid激活函数、tanh激活函数、ReLU激活函数、Leaky ReLU激活函数、Parametric ReLU激活函数详细介绍及其原理详解
相关文章 梯度下降算法.随机梯度下降算法.动量随机梯度下降算法.AdaGrad算法.RMSProp算法.Adam算法详细介绍及其原理详解 反向传播算法和计算图详细介绍及其原理详解 激活函数.Sigmo ...
- ReLU激活函数:简单之美
导语 在深度神经网络中,通常使用一种叫**修正线性单元(Rectified linear unit,ReLU)**作为神经元的激活函数.ReLU起源于神经科学的研究:2001年,Dayan.Abott ...
- 使用opencv dnn 模块调用darknet模型时候出错,不支持relu激活函数
问题: 使用opencv dnn 模块调用darknet模型时候出错,报错信息为 不支持relu激活函数 以下过程为笔者自己解决该问题的过程,供各位参考学些,因为中间又遇到新的坑,所以各位务必看完再决 ...
- 零基础学caffe源码 ReLU激活函数
零基础学caffe源码 ReLU激活函数 原创 2016年08月03日 17:30:19 1.如何有效阅读caffe源码 1.caffe源码阅读路线最好是从src/cafffe/proto/caffe ...
- 【深度学习】ReLU激活函数的缺点
关于ReLU的详细介绍可以参考: ReLU激活函数 - 知乎 训练的时候很"脆弱",很容易就"die"了,训练过程该函数不适应较大梯度输入,因为在参数更新以后, ...
最新文章
- 使用OpenCV进行直播(附代码)
- Spring Cloud Feign的两种使用姿势
- 十九、 彻底掌握金融量化交易库Talib
- 招聘职位:ERP咨询顾问(广州、厦门)
- UITableViewCell中cell重用机制导致内容重复的方法
- 使用Visual Studio 创建可视Web Part部件
- Ubuntu 加速安装Opencv 3.4.3
- 转子接地保护原理_发电机转子一点接地:保护原理、整定方法、动作后果
- Web前端工作笔记007---h5 canvas_雨滴头像合成_图像合成_合成雨滴头像
- 1431.拥有最多糖果的孩z
- 2016北理复试机试题
- 网络分析仪测试线损_网络分析仪测试天线隔离度
- 如何选择好的上海自媒体招聘平台
- 2020年携程校招开发方向第一题
- 马哥教育42期第五周作业
- STM32HAL库微秒延时函数的实现---DWT和SysTick
- 用python画一个机器猫歌词_用Python语言模型和LSTM做一个Drake饶舌歌词生成器!自己蒙了!...
- 如何做CRM系统的客户开发?
- 回传速率和测量带宽及两者之间的联系
- 大年初五嘉定观影《天将雄师》后点评