文章目录

  • 梯度消失和爆炸原理
    • 求导知识
    • RNN推导

梯度消失和爆炸原理

求导知识

y=x2y = x^2y=x2

dy\mathrm{d} {y}dy 导数

dydx\Large \frac {\mathcal{d} {y}} {\mathcal{d}{x}}dxdy​ 偏导

RNN推导

正向传播:

at=wxxt+whht−1+bta_t=w_xx_t + w_hh_{t-1} + b_tat​=wx​xt​+wh​ht−1​+bt​

ht=σ(at)h_t = \sigma(a_t)ht​=σ(at​)

y^=softmax(wyht+by)\hat{y} =softmax(w_yh_t+b_y)y^​=softmax(wy​ht​+by​)

定义loss:
用logloss,TODO:多分类的logloss为啥是下面的格式?为啥不是loss=∑[−ylog(y^)−(1−y)log(1−y^)]loss = \sum[-ylog(\hat{y})-(1-y)log(1-\hat{y})]loss=∑[−ylog(y^​)−(1−y)log(1−y^​)]

loss=L=∑i=1n−yilog(yi^)loss = \mathcal{L} = \displaystyle\sum_{i=1}^{n}-y_ilog(\hat{y_i})loss=L=i=1∑n​−yi​log(yi​^​)

dLdwt=dLdatdatdwt=dLdat\Large \frac {\mathrm{d}\mathcal{L}} {\mathrm{d}w_t} = \frac {\mathrm{d}\mathcal{L}} {\mathrm{d}a_t} \frac{\mathrm{d}a_t} {\mathrm{d}w_t}= \frac {\mathrm{d}\mathcal{L}} {\mathrm{d}a_t}dwt​dL​=dat​dL​dwt​dat​​=dat​dL​

参考1
参考2
参考3

rnn 梯度消失爆炸相关推荐

  1. RNN梯度消失和爆炸的原因 以及 LSTM如何解决梯度消失问题

    RNN梯度消失和爆炸的原因 经典的RNN结构如下图所示: 假设我们的时间序列只有三段,  为给定值,神经元没有激活函数,则RNN最简单的前向传播过程如下: 假设在t=3时刻,损失函数为  . 则对于一 ...

  2. 也来谈谈RNN的梯度消失/爆炸问题

    ©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 尽管 Transformer 类的模型已经攻占了 NLP 的多数领域,但诸如 LSTM.GRU 之类的 R ...

  3. 谈谈RNN的梯度消失/爆炸问题

    尽管 Transformer 类的模型已经攻占了 NLP 的多数领域,但诸如 LSTM.GRU 之类的 RNN 模型依然在某些场景下有它的独特价值,所以 RNN 依然是值得我们好好学习的模型.而于 R ...

  4. RNN梯度消失和爆炸

    原文:链接 也可以参考:解释的也很清晰 建议先看第一个 一,经典的RNN结构如下图所示: 假设我们的时间序列只有三段,  为给定值,神经元没有激活函数,则RNN最简单的前向传播过程如下: 假设在t=3 ...

  5. LSTM缓解RNN梯度消失

    注:此篇博客主要有参考中的资料摘选集合而成,原创内容很少,如有困惑的地方可以详细阅读参考中的资料,写的真的很好,强烈推荐阅读. LSTM缓解RNN梯度消失 一.实现长期依赖 1.选择性 2.信息不变形 ...

  6. 深度学习100问之深入理解Vanishing/Exploding Gradient(梯度消失/爆炸)

    这几天正在看梯度消失/爆炸,在深度学习的理论中梯度消失/爆炸也是极其重要的,所以就抽出一段时间认真地研究了一下梯度消失/爆炸的原理,以下为参考网上的几篇文章总结得出的. 本文分为四个部分:第一部分主要 ...

  7. 梯度消失/爆炸与RNN家族的介绍(LSTM GRU B-RNN Multi-RNNs)-基于cs224n的最全总结

    vanishing gradients and fancy RNNs(RNN家族与梯度消失) 文章目录 vanishing gradients and fancy RNNs(RNN家族与梯度消失) 内 ...

  8. 吴恩达深度学习笔记(114)-RNN梯度消失问题详解

    https://www.toutiao.com/a6652968074712449550/ 2019-02-10 14:34:53 循环神经网络的梯度消失(Vanishing gradients wi ...

  9. Dropout、梯度消失/爆炸、Adam优化算法,神经网络优化算法看这一篇就够了

    作者 | mantch 来源 | 知乎 1. 训练误差和泛化误差 对于机器学习模型在训练数据集和测试数据集上的表现.如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时, ...

最新文章

  1. k近邻算法之 k值的选择
  2. python简单代码画曲线图教程-Python绘制折线图和散点图的详细方法介绍(代码示例)...
  3. bash-shell详解
  4. emmap erlang_erlang的map基本使用
  5. 在Shell中使用alias
  6. 6月统计|.NET薪资一旦高起来,岂是其他语言能比的!
  7. npp夜光数据介绍 viirs_优化的NPP夜光月度数据下载
  8. win10 UWP 序列化
  9. 俯首甘为孺子牛上一句是什么
  10. 【转】 delphi --- WinSocket应用
  11. 2.WebDriver-元素定位 -(一)
  12. [macOS] git忽略所有的.DS_Store文件
  13. NSACE|网络信息安全技术,你不能忽视的存在
  14. 菜鸟上网必备知识大全
  15. 基于R语言时间序列的平稳时间序列模型预测
  16. 如何实现一个以中国为中心的世界地图
  17. C++头文件、源文件的编译链接
  18. Win10代理自动打开无法永久关闭的问题排查和如何解决
  19. 鲲志说:向我跌宕起伏,喜忧参半的2022致敬!
  20. 文案馆头像壁纸小程序源码 带后台

热门文章

  1. Ubuntu 20.04 搜索引擎环境搭建 (PostgreSQL 12.3, Redis 6, ELK[Elasticsearch 7.8, Logstash 7.8, Kibana 7.8])
  2. Java集合 LinkedList的原理及使用
  3. 遗传算法求二元函数极值怎么编码_遗传算法求解一元函数二元函数最值
  4. python excel取数 生成报告_python+requests+excel+unittest+ddt接口自动化数据驱动并生成html报告(二)...
  5. wxpython界面切换_Python图形界面—wxPython库的布局管理及页面切换
  6. Cpp 对象模型探索 / 继承关系下的虚函数手动调用
  7. python数据包的作用_使用Python将登录数据包发送到Minecraft服务器不起作用
  8. visio图中包含公式,插入word后公式模糊终极解决办法
  9. 10000以内回文数java,求10到10000有哪些回文数?用C语言编写  并且用数组
  10. mysql 5.x数据库安装_Ubuntu 12.04 mysql 源码安装--mysql.5.5.x