深度循环神经网络

循环神经网络只有一个单向的隐藏层，在深度学习应用里，我们通常会用到含有多个隐藏层的循环神经网络，也称作深度循环神经网络。

下图演示了一个有LLL个隐藏层的深度循环神经网络，每个隐藏状态不断传递至当前层的下一时间步和当前时间步的下一层。

具体来说

在时间步ttt里，设小批量输入Xt∈Rn×d\boldsymbol{X}_t \in \mathbb{R}^{n \times d}Xt∈Rn×d（样本数为nnn，输入个数为ddd）
第ℓ\ellℓ隐藏层（ℓ=1,…,L\ell=1,\ldots,Lℓ=1,…,L）的隐藏状态为Ht(ℓ)∈Rn×h\boldsymbol{H}_t^{(\ell)} \in \mathbb{R}^{n \times h}Ht(ℓ)∈Rn×h（隐藏单元个数为hhh）
输出层变量为Ot∈Rn×q\boldsymbol{O}_t \in \mathbb{R}^{n \times q}Ot∈Rn×q（输出个数为qqq），且隐藏层的激活函数为ϕ\phiϕ。

第1隐藏层的隐藏状态和之前的计算一样：
Ht(1)=ϕ(XtWxh(1)+Ht−1(1)Whh(1)+bh(1)),\boldsymbol{H}_t^{(1)} = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(1)} + \boldsymbol{H}_{t-1}^{(1)} \boldsymbol{W}_{hh}^{(1)} + \boldsymbol{b}_h^{(1)}),Ht(1)=ϕ(XtWxh(1)+Ht−1(1)Whh(1)+bh(1)),

其中权重Wxh(1)∈Rd×h\boldsymbol{W}_{xh}^{(1)} \in \mathbb{R}^{d \times h}Wxh(1)∈Rd×h、Whh(1)∈Rh×h\boldsymbol{W}_{hh}^{(1)} \in \mathbb{R}^{h \times h}Whh(1)∈Rh×h和偏差 bh(1)∈R1×h\boldsymbol{b}_h^{(1)} \in \mathbb{R}^{1 \times h}bh(1)∈R1×h分别为第1隐藏层的模型参数。

当1<ℓ≤L1 < \ell \leq L1<ℓ≤L时，第ℓ\ellℓ隐藏层的隐藏状态的表达式为

Ht(ℓ)=ϕ(Ht(ℓ−1)Wxh(ℓ)+Ht−1(ℓ)Whh(ℓ)+bh(ℓ)),\boldsymbol{H}_t^{(\ell)} = \phi(\boldsymbol{H}_t^{(\ell-1)} \boldsymbol{W}_{xh}^{(\ell)} + \boldsymbol{H}_{t-1}^{(\ell)} \boldsymbol{W}_{hh}^{(\ell)} + \boldsymbol{b}_h^{(\ell)}),Ht(ℓ)=ϕ(Ht(ℓ−1)Wxh(ℓ)+Ht−1(ℓ)Whh(ℓ)+bh(ℓ)),

其中权重Wxh(ℓ)∈Rh×h\boldsymbol{W}_{xh}^{(\ell)} \in \mathbb{R}^{h \times h}Wxh(ℓ)∈Rh×h、Whh(ℓ)∈Rh×h\boldsymbol{W}_{hh}^{(\ell)} \in \mathbb{R}^{h \times h}Whh(ℓ)∈Rh×h和偏差 bh(ℓ)∈R1×h\boldsymbol{b}_h^{(\ell)} \in \mathbb{R}^{1 \times h}bh(ℓ)∈R1×h分别为第ℓ\ellℓ隐藏层的模型参数。

最终，输出层的输出只需基于第LLL隐藏层的隐藏状态：

Ot=Ht(L)Whq+bq,\boldsymbol{O}_t = \boldsymbol{H}_t^{(L)} \boldsymbol{W}_{hq} + \boldsymbol{b}_q,Ot=Ht(L)Whq+bq,

其中权重Whq∈Rh×q\boldsymbol{W}_{hq} \in \mathbb{R}^{h \times q}Whq∈Rh×q和偏差bq∈R1×q\boldsymbol{b}_q \in \mathbb{R}^{1 \times q}bq∈R1×q为输出层的模型参数。

同多层感知机一样，隐藏层个数LLL和隐藏单元个数hhh都是超参数。此外，如果将隐藏状态的计算换成门控循环单元或者长短期记忆的计算，就可以得到深度门控循环神经网络。

（pytorch-深度学习）深度循环神经网络相关推荐

水很深的深度学习-Task05循环神经网络RNN
循环神经网络 Recurrent Neural Network 参考资料: Unusual-Deep-Learning 零基础入门深度学习(5) - 循环神经网络史上最小白之RNN详解_Tink19 ...
深度学习之循环神经网络（12）预训练的词向量
深度学习之循环神经网络(12)预训练的词向量在情感分类任务时,Embedding层是从零开始训练的.实际上,对于文本处理任务来说,领域知识大部分是共享的,因此我们能够利用在其它任务上训练好的词向量 ...
深度学习之循环神经网络（11-b）GRU情感分类问题代码
深度学习之循环神经网络(11-b)GRU情感分类问题代码 1. Cell方式代码运行结果 2. 层方式代码运行结果 1. Cell方式代码 import os import tensorfl ...
深度学习之循环神经网络（11-a）LSTM情感分类问题代码
深度学习之循环神经网络(11-a)LSTM情感分类问题代码 1. Cell方式代码运行结果 2. 层方式代码运行结果 1. Cell方式代码 import os import tensorf ...
深度学习之循环神经网络（11）LSTM/GRU情感分类问题实战
深度学习之循环神经网络(11)LSTM/GRU情感分类问题实战 1. LSTM模型 2. GRU模型前面我们介绍了情感分类问题,并利用SimpleRNN模型完成了情感分类问题的实战,在介绍完更为强 ...
深度学习之循环神经网络（10）GRU简介
深度学习之循环神经网络(10)GRU简介 1. 复位门 2. 更新门 3. GRU使用方法 LSTM具有更长的记忆能力,在大部分序列任务上面都取得了比基础RNN模型更好的性能表现,更重要的是,LST ...
深度学习之循环神经网络（9）LSTM层使用方法
深度学习之循环神经网络(9)LSTM层使用方法 1. LSTMCell 2. LSTM层在TensorFlow中,同样有两种方式实现LSTM网络.既可以使用LSTMCell来手动完成时间戳上面的循 ...
深度学习之循环神经网络（8）长短时记忆网络（LSTM）
深度学习之循环神经网络(8)长短时记忆网络(LSTM) 0. LSTM原理 1. 遗忘门 2. 输入门 3. 刷新Memory 4. 输出门 5. 小结循环神经网络除了训练困难,还有一个更严重的问 ...
深度学习之循环神经网络（7）梯度裁剪
深度学习之循环神经网络(7)梯度裁剪 1. 张量限幅 2. 限制范数 3. 全局范数裁剪梯度弥散梯度爆炸可以通过梯度裁剪(Gradient Clipping)的方式在一定程度上的解决.梯度裁剪 ...
深度学习之循环神经网络（6）梯度弥散和梯度爆炸
深度学习之循环神经网络(6)梯度弥散和梯度爆炸循环神经网络的训练并不稳定,网络的善妒也不能任意加深.那么,为什么循环神经网络会出现训练困难的问题呢?简单回顾梯度推导中的关键表达式: ∂ht∂hi= ...

（pytorch-深度学习）深度循环神经网络

深度循环神经网络

（pytorch-深度学习）深度循环神经网络相关推荐

最新文章

热门文章