随时间的反向传播算法 BPTT

本文转自：https://www.cntofu.com/book/85/dl/rnn/bptt.md

随时间反向传播（BPTT）算法

先简单回顾一下RNN的基本公式：

st=tanh(Uxt+Wst−1)st=tanh⁡(Uxt+Wst−1)

y^t=softmax(Vst)y^t=softmax(Vst)

RNN的损失函数定义为交叉熵损失：

Et(yt,y^t)=−ytlogy^tEt(yt,y^t)=−ytlog⁡y^t

E(y,y^)=∑tEt(yt,y^t)=−∑tytlogy^tE(y,y^)=∑tEt(yt,y^t)=−∑tytlog⁡y^t

ytyt

是时刻t的样本实际值，

y^ty^t

是预测值，我们通常把整个序列作为一个训练样本，所以总的误差就是每一步的误差的加和。我们的目标是计算损失函数的梯度，然后通过梯度下降方法学习出所有的参数U, V, W。比如：

∂E∂W=∑t∂Et∂W∂E∂W=∑t∂Et∂W

为了更好理解BPTT我们来推导一下公式：

前向前向传播1：

a0=x0∗ua0=x0∗u

b0=s−1∗wb0=s−1∗w

z0=a0+b0+kz0=a0+b0+k

s0=func(z0)s0=func(z0)

(

funcfunc

是 sig或者tanh)

前向前向传播2：

a1=x1∗ua1=x1∗u

b1=s0∗wb1=s0∗w

z1=a1+b1+kz1=a1+b1+k

s1=func(z1)s1=func(z1)

(

funcfunc

是 sig 或者tanh)

q=s1∗v1q=s1∗v1

$$z_t = ux_t + ws_{t-1} + k$$

st=func(zt)st=func(zt)

输出层：

o=func(q)o=func(q)

(

funcfunc

是 softmax)

E=func(o)E=func(o)

(

funcfunc

是 x-entropy)

下面是U的推导

∂E/∂u=∂E/∂u1+∂E/∂u0∂E/∂u=∂E/∂u1+∂E/∂u0

∂E/∂u1=∂E/∂o∗∂o/∂q∗∂q/∂s1∗∂s1/∂z1∗∂z1/∂a1∗∂a1/∂u1∂E/∂u1=∂E/∂o∗∂o/∂q∗∂q/∂s1∗∂s1/∂z1∗∂z1/∂a1∗∂a1/∂u1

∂E/∂u0=∂E/∂o∗∂o/∂q∗∂q/∂s1∗∂s1/∂z1∗∂z1/∂b1∗∂b1/∂s0∗∂s0/dz0∗∂z0/∂a0∗∂a0/∂u0∂E/∂u0=∂E/∂o∗∂o/∂q∗∂q/∂s1∗∂s1/∂z1∗∂z1/∂b1∗∂b1/∂s0∗∂s0/dz0∗∂z0/∂a0∗∂a0/∂u0

∂E/∂u=∂E/∂o∗∂o/∂q∗v1∗∂s1/∂z1∗((1∗x1)+(1∗w1∗∂s0/∂z0∗1∗x0))∂E/∂u=∂E/∂o∗∂o/∂q∗v1∗∂s1/∂z1∗((1∗x1)+(1∗w1∗∂s0/∂z0∗1∗x0))

∂E/∂u=∂E/∂o∗∂o/∂q∗v1∗∂s1/∂z1∗(x1+w1∗∂s0/∂z0∗x0)∂E/∂u=∂E/∂o∗∂o/∂q∗v1∗∂s1/∂z1∗(x1+w1∗∂s0/∂z0∗x0)

W参数的推导如下

∂E/∂w=∂E/∂o∗∂o/∂q∗v1∗∂s1/∂z1∗(s0+w1∗∂s0/∂z0∗s−1)∂E/∂w=∂E/∂o∗∂o/∂q∗v1∗∂s1/∂z1∗(s0+w1∗∂s0/∂z0∗s−1)

总结

∂L∂u=∑t∂L∂ut=∂L∂o∂o∂s1∂s1∂u1+∂L∂o∂o∂s1∂s1∂s0∂s0∂u0∂L∂u=∑t∂L∂ut=∂L∂o∂o∂s1∂s1∂u1+∂L∂o∂o∂s1∂s1∂s0∂s0∂u0

∂L∂w=∑t∂L∂wt=∂L∂o∂o∂s1∂s1∂w1+∂L∂o∂o∂s1∂s1∂s0∂s0∂w0∂L∂w=∑t∂L∂wt=∂L∂o∂o∂s1∂s1∂w1+∂L∂o∂o∂s1∂s1∂s0∂s0∂w0

xtxt

是时间t的输入

转载于:https://www.cnblogs.com/carlber/p/11084932.html

随时间的反向传播算法 BPTT相关推荐

随时间反向传播算法(BPTT)笔记
随时间反向传播算法(BPTT)笔记 1.反向传播算法(BP) 以表达式f(w,x)=11+e−(w0x0+w1x1+w2)f(w,x)=\frac{1}{1+e^{-(w_0x_0+w_1x_1+w_ ...
RNN与其反向传播算法——BPTT(Backward Propogation Through Time)的详细推导
前言一点感悟: 前几天简单看了下王者荣耀觉悟AI的论文,发现除了强化学习以外,也用到了熟悉的LSTM.之后我又想起了知乎上的一个问题:"Transformer会彻底取代RNN吗?" ...
基于时间的反向传播算法BPTT（Backpropagation through time）
本文是读"Recurrent Neural Networks Tutorial, Part 3 – Backpropagation Through Time and Vanishing Gr ...
时间序列的反向传播算法（BPTT）
时间序列的反向传播算法 BPTT : Back-Propagation Through Time ∂L∂U=∑t∂Lt∂U\frac{\partial L}{\partial U} = \sum_t\ ...
BP反向传播算法的思考和直观理解 -卷积小白的随机世界
https://www.toutiao.com/a6690831921246634504/ 2019-05-14 18:47:24 本篇文章,本来计划再进一步完善对CNN卷积神经网络的理解,但在对卷积 ...
梯度的直观理解_BP反向传播算法的思考和直观理解 -卷积小白的随机世界
本篇文章,本来计划再进一步完善对CNN卷积神经网络的理解,但在对卷积层反向传播算法的理解中,越发觉得之前对于BP反向传播算法的理解是不到位的.小白近日觉得,对于深度神经网络,"反向传播&qu ...
《基于eigen3多层感知机的反向传播算法实现》
<基于eigen3多层感知机的反向传播算法实现> Deep learning 现在有四大范式 MLP.CNN.RNN.Attention,一般feature extractor会是CNN. ...
用反向传播算法解释大脑学习过程？Hinton 等人新研究登上 Nature 子刊
机器之心报道魔王.Jamin.杜伟反向传播可以解释大脑学习吗?近日 Hinton 等人的研究认为,尽管大脑可能未实现字面形式的反向传播,但是反向传播的部分特征与理解大脑中的学习具备很强的关联性.该 ...
循环神经网络(RNN)模型与前向反向传播算法
在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系.今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Rec ...

随时间的反向传播算法 BPTT

随时间的反向传播算法 BPTT相关推荐

最新文章

热门文章