谈到深度学习,就会想到多层神经网络。最基本的结果便是 wx+b 再加非线性激励。

那么问题来了,为什么要加这个非线性激励,也就是激活函数呢?

1.增加非线性激励,可以使网络有更好的表达能力。可以拟合各种函数。

2.更重要的是:

多层神经网络如果没有这个激活函数就是 :第一层的矩阵(权重(w)矩阵乘输入,加偏置(b)矩阵) 乘 第二层的矩阵。。。一直乘到最后一层矩阵。多个矩阵相乘其实就等于一个矩阵,那么多层神经网络就只相当与一层神经网络,没有意义。

过去我们常用的激活函数是sigmoid函数:

当该网络的损失函数是传统的quadratic cost function时

即:

会出现梯度消失的情况。

那么到底发生了什么?

首先我们知道,训练网络的基本方法就是反向传递,选择合适的梯度下降,一遍遍的迭代,直到损失函数小到我们可以接受的程度。

那么,下降的速度主要取决于w,b即权重和偏置相对于损失函数的偏导数。偏导越大,梯度下降越快。

Ok,我们掏出一坨公式:

这两个求偏导的公式说明,他们下降的速度只与激活函数的导数有关

而激活函数sigmoid函数的导数是

他是个二次函数,函数的最大值为0.25.也就是说每一层的变化率最高为0.25,多层之后,比如10层之后,第十层的变化率最高为0.25的10次方。这是一个非常小的数了,w和b很难变化了,所以根本训练不出来了。这就是梯度消失。

所以过去的教科书会说神经网络不会超过三层。

为了克服这个问题,我们从两个方向入手。

1.改激活函数(现在用rule多一些)

2.改损失函数,这样就有了我们后面要说的cross-entroy。

为什么选了cross-entroy我们下一篇说。

深度学习基础理论探索(一):激活函数、梯度消失相关推荐

  1. 深度学习 --- 优化入门三(梯度消失和激活函数ReLU)

    前两篇的优化主要是针对梯度的存在的问题,如鞍点,局部最优,梯度悬崖这些问题的优化,本节将详细探讨梯度消失问题,梯度消失问题在BP的网络里详细的介绍过(兴趣有请的查看我的这篇文章),然后主要精力介绍Ru ...

  2. 深度学习(25)随机梯度下降三: 激活函数的梯度

    深度学习(25)随机梯度下降三: 激活函数的梯度 1. Activation Functions 2. Deriative 3. Sigmoid/Logistic (1) Derivative (2) ...

  3. 【转载】深度学习数学基础(二)~随机梯度下降(Stochastic Gradient Descent, SGD)

    Source: 作者:Evan 链接:https://www.zhihu.com/question/264189719/answer/291167114 来源:知乎 著作权归作者所有.商业转载请联系作 ...

  4. 深度学习(32)随机梯度下降十: 手写数字识别问题(层)

    深度学习(32)随机梯度下降十: 手写数字识别问题(层) 1. 数据集 2. 网络层 3. 网络模型 4. 网络训练 本节将利用前面介绍的多层全连接网络的梯度推导结果,直接利用Python循环计算每一 ...

  5. 深度学习(27)随机梯度下降五: 单输出感知机梯度

    深度学习(27)随机梯度下降五: 单输出感知机梯度 1. Perceptrnon with Sigmoid + MSE 2. Derivative 3. 代码 Recap y=XW+by=XW+by= ...

  6. DL之AF:机器学习/深度学习中常用的激活函数(sigmoid、softmax等)简介、应用、计算图实现、代码实现详细攻略

    DL之AF:机器学习/深度学习中常用的激活函数(sigmoid.softmax等)简介.应用.计算图实现.代码实现详细攻略 目录 激活函数(Activation functions)相关配图 各个激活 ...

  7. 深度学习中多层全连接网络的梯度下降法及其变式

    深度学习中多层全连接网络的梯度下降法及其变式 1 梯度下降法 2 梯度下降的变式 1.SGD 2.Momentum 3.Adagrad 4.RMSprop 5.Adam 6.小结 1 梯度下降法 梯度 ...

  8. 深度学习(33)随机梯度下降十一: TensorBoard可视化

    深度学习(33)随机梯度下降十一: TensorBoard可视化 Step1. run listener Step2. build summary Step3.1 fed scalar(监听标量) S ...

  9. 深度学习(31)随机梯度下降九: Himmelblau函数优化实战

    深度学习(31)随机梯度下降九: Himmelblau函数优化实战 1. Himmelblau函数 2. 函数优化实战 1. Himmelblau函数 Himmelblau函数是用来测试后话算法的常用 ...

最新文章

  1. 论文格式——合适【CSDN】发文
  2. 再推荐一个安全的好软件
  3. @valid 校验_SpringBoot数据校验与优雅处理详解
  4. Java中的关键字this_super
  5. phpstorm 不能自动打开上次的历史文件
  6. seqkit根据基因id_Microwell-Seq
  7. mysql c 中文字符串_MySQL字符集中文乱码终极解决方案和mysql查询中文问题解决方法...
  8. Centos系统普通用户开启sudo命令
  9. 前端开发核心JavaScript要怎么学?给转行或是自学的朋友提些学习建议
  10. nginx 的 proxy_cache 缓存配置
  11. wifi的web 认证。
  12. ExtJs4 笔记(12) Ext.toolbar.Toolbar 工具栏、Ext.toolbar.Paging 分页栏、Ext.ux.statusbar.StatusBar 状态栏...
  13. 深度学习优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)
  14. 力扣Java编译器_力扣(LeetCode)位1的个数 个人题解
  15. xtrabackup 原理详解
  16. IPEmotion 2022 R1支持ARINC 429数据总线标准
  17. 阅读了Steve Yegge的文章。其中有一篇叫“Practicing Programming”(练习编程),写成于2005年
  18. java中返回两个参数问题
  19. 免费打印 免费抓娃娃 多次关注微信公众号-吸粉神器 技术实现细节
  20. 利用axis调用webservice接口

热门文章

  1. 字符串类型转数字类型的几种方法
  2. Linux解压指定单个文件
  3. java中字符串String格式转化成json格式
  4. MATLAB车牌出入库识别(语音播报,库外识别,计时计费)
  5. Mac 上的搜狗输入法卡顿问题
  6. java npe风险_java如何优雅的避免npe判定
  7. 什么是csrf攻击如何避免,CSRF攻击与防御
  8. SVN客户端无法连接SVN服务器,主机积极拒绝
  9. java计算机毕业设计毕业生离校管理系统源码+mysql数据库+系统+lw文档+部署
  10. Linux第六章:3.linux下创建文件夹(创建目录)、使用mkdir命令创建单级和多级目录、linux下删除文件夹(目录),rmdir命令、rm -rf、touch命令创建文件