循环神经网络基础介绍
在应用循环神经网络的过程中,还是会有些地方疑惑,所以还是要回归下问题的本质。
学而不思则惘,思而不学则怠。。
1. 循环神经网路简介
首先循环神经网络的主要用途是处理和预测序列数据。在之前的全链接神经网络或卷积神经网络模型中,网络的结构都是从输入层到隐藏层再到输出层,层与层之间是全链接或者部分连接的,但每层之间的节点是无法连接的。而循环神经网络的隐藏层之间的节点是有连接的,隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出。
图1.1 RNN-rolled
上图是一个典型的循环神经网络。对于循环神经网络,一个非常重要的概念就是时刻。循环神经网络会对于每一个时刻的输入结合当前模型的状态给出一个输出。从图中可以看到,循环神经网络的主体结构A的输入除了来自输入层Xt,还有一个循环的边来提供当前时刻的状态。在每一个时刻,循环神经网络的模块A会读取t时刻的输入Xt,并输出一个值Ht。同时A的状态会从当前步传递到下一步。
因此,循环神经网络理论上可以被看作是同一神经网络结构被无限复制的结果。但出于优化的考虑,目前循环神经网络无法做到真正的无限循环,所以,现实中一般会将循环体展开,于是可以得到下图所示的展示结构。
图1.2 按时间展开后的RNN结构
在上图中可以更加清楚的看到循环神经网络在每一个时刻会有一个输入XtX_tXt,然后根据循环神经网络当前的状态AtA_tAt,提供一个输出hth_tht。而循环神经网络的当前状态AtA_tAt是根据上一时刻的的状态At−1A_{t-1}At−1和当前的输入XtX_tXt共同决定的。从循环神经网络的结构特征可以很容易得出它最擅长解决的问题是与时间序列相关的。循环神经网络也是处理这类问题时最自然的神经网络结构。对于一个序列数据,可以将这个序列上不同时刻的数据依次传入循环神经网络的输入层,而输出可以是对序列中下一个时刻的预测,也可以是对当前时刻信息的处理结果(比如语音识别结果)。循环神经网络要求每一个时刻都有一个输入,但是不一定每一个时刻都需要有输出。
下面是RNN的应用场景:
RNN相对于传统的神经网络,它允许我们对向量序列进行操作:输入序列、输出序列、或大部分的输入输出序列。如下图所示,每一个矩形是一个向量,箭头则表示函数(比如矩阵相乘)。输入向量用红色标出,输出向量用蓝色标出,绿色的矩形是RNN的状态。
图1.3 RNN的模式分类
从左到右:
(1)没有使用RNN的Vanilla模型,从固定大小的输入得到固定大小输出(比如图像分类)
(2)序列输出(比如图片字幕,输入一张图片输出一段文字序列)
(3)序列输入(比如情感分析,输入一段文字然后将它分类成积极或者消极情感)
(4)序列输入和序列输出(比如机器翻译:一个RNN读取一条英文语句然后将它以法语形式输出)
(5)同步序列输入输出(比如视频分类,对视频中每一帧打标签)。我们注意到在每一个案例中,都没有对序列长度进行预先特定约束,因为递归变换(绿色部分)是固定的,而且我们可以多次使用。
举例子:
图1.4 循环神经网络实现序列预测
以机器翻译为例来简单介绍循环神经网络是如何使用的,循环神经网络的每一个时刻的输入为需要翻译的句子中的单词,如上所示,需要翻译的句子为ABCD,那么循环神经网络的第一段中的每一时刻的输入数据分别是A、B、C、和D。然后用“_”作为翻译的结束符号。在第一个阶段中,循环神经网络中没有输出(句子还没有读完,不能进行翻译),只有每一个时刻的输入,而从结束符号开始有输出,也就是进入了翻译阶段。在翻译阶段每一个时刻的输入是上一个时刻的输出,而最终的的输出XYZ就是ABCD的翻译结果,而Q是代表翻译结束的标志。
在上述实现的过程中可以看作同一个循环体在时间序列上被复制多次的结果,而这个循环体的设计网络结构的是问题的关键。和卷积神经网络结构中过滤器的参数共享类似,在循环神经网络中的循环体的参数在不同时刻也是共享的。
2. 简单的单层全连接神经网络作为循环体的例子
图2.1 使用单层全连接神经网络作为循环体的循环神经网络结构图
上图展示了一个使用最简单的循环体结构的循环神经网络,在这个循环体中只使用了一个类似全连接层的神经网络结构。下面将通过上图中所展示的神经网络来介绍循环神经网络前向传播的完整流程。
循环神经网络中的状态是通过一个向量来表示的,这个向量的维度也称为神经网络隐藏层的大小,假设其为h。
从上图种可以看出,循环体中的神经网络的输入有两部分,一部分为上一时刻的状态,另一部分为当前时刻的输入样本。对于时间序列数据来说,每一时刻的输入样例可以是当前时刻的数据;对于语言模型来说,输入样例可以是当前单词对应的单词向量(word embedding)。
假设输入向量的维度为x,那么上图中循环体的全连接层神经网络的输入大小为h+x。也就是将上一时刻的状态与当前时刻的输入拼接成一个大的向量作为循环体中神经网络的输入。因为该神经网络的输出为当前时刻的状态,于是输出层的节点个数也为h(节点个数就是向量的维度,或者是隐藏层的大小),循环体中的参数个数为(h+x)∗h+h(h+x)*h+h(h+x)∗h+h个(这里可以理解为输入层有h+x个神经元,输出层有h个神经元,从而形成一个全连接的前馈神经网络,有(h+x)*h个权值,有h个偏置)。
同时循环体的神经网络输出不但提供给下一个时刻作为状态,同时还提供给当前的时刻作为输出。为了将当前时刻的状态转化为最终的输出,循环体还需要另外一个全连接神经网络来完成这个过程。这和卷积神经网络中最后的全连接层的意义是一样的。类似的,不同时刻用于输出的全连接神经网络中的参数也是共享的(参数一致)。
下面是一个具体的例子,当然了数值都是假设的,意在理解原理:
图2.2 RNN的前向传播的计算过程
如图2所示,假设节点状态的维度为2
,节点的输入和输出维度为1
,那么在循环体的全连接层神经网络的输入维度为3
,也就是将上一时刻的状态与当前时刻的输入拼接成一维向量作为循环体的全连接层神经网络的输入,在这里t0
时刻的节点状态初始化为[0.0, 0.0]
,t0
时刻的节点输入为[1.0]
,拼接之后循环体的全连接层神经网络的输入为[0.0, 0.0, 1.0]
,循环体中的全连接层的权重表示为二维矩阵[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]]
,偏置项为[0.1, -0.1]
,我们可以看到权重矩阵和偏置项在t0
和t1
时刻的循环体中是一样的,这也说明了RNN结构中的参数在不同时刻中也是共享的。经过循环体中的全连接层神经网络后节点的状态改变为tanh([0.6, 0.5]) = [0.537, 0.462]
,当前节点状态的输出作为下一个节点状态的输入。
为了将当前时刻的状态转变为节点的最终输出,RNN中还有另外一个全连接神经网络来计算节点输出,在图2中被表示为[0.537, 0.462] * [1.0, 2.0] + [0.1] = [1.56]
,用于输出的全连接层权重为[1.0, 2.0]
,偏置项为[0.1]
,1.56
表示为t0
时刻节点的最终输出。
得到RNN的前向传播结果之后,和其他神经网络类似,定义损失函数,使用反向传播算法和梯度下降算法训练模型,但RNN唯一的区别在于:由于它每个时刻的节点都有一个输出,所以RNN的总损失为所有时刻(或部分时刻)上的损失和。
下面是自己假设数据的代码实现:
import numpy as np"""
定义RNN的参数
"""X = [1,2] # 输入序列
state = [0.0, 0.0] # 初始状态下的状态
# 状态层的权重和输入层的权重分开定义,方便操作
w_cell_state = np.asarray([[0.1, 0.2], [0.3, 0.4]]) # 定义状态层权重
w_cell_input = np.asarray([0.5, 0.6]) # 定义输入层的权重
b_cell = np.asarray([0.1, -0.1]) # 状态层的偏置
w_output = np.asarray([[1.0], [2.0]]) # 输出层的权重
b_output = 0.1 # 输出层的偏置"""
执行前向传播过程
"""for i in range(len(X)):before_activation = np.dot(state, w_cell_state) + X[i] * w_cell_input + b_cellstate = np.tanh(before_activation)final_output = np.dot(state, w_output) + b_outputprint ("before activation: ", before_activation)print ("state: ", state)print ("output: ", final_output)
运行结果:
before activation: [0.6 0.5]
state: [0.53704957 0.46211716]
output: [1.56128388]
before activation: [1.2923401 1.39225678]
state: [0.85973818 0.88366641]
output: [2.72707101]
3. 长短时记忆网络(LSTM)结构
循环神经网络工作的关键点就是使用历史的信息来帮助当前的决策。例如使用之前出现的单词来加强对当前文字的理解。循环神经网络可以更好地利用传统神经网络结构所不能建模的信息,但同时,这也带来了更大的技术挑战——长期依赖(long-term dependencies)问题。
因此,当前预测位置和相关信息之间的文本间隔就有可能变得很大。当这个间隔不断增大时,类似图2.1中给出的简单循环神经网络有可能丧失学习到距离如此远的信息的能力。或者在复杂语言场景中,有用信息的间隔有大有小、长短不一,循环神经网络的性能也会受到限制。
3.1 LSTM简介
长短记忆网络(long short term memory, LSTM)的设计正是为了解决上述RNN的依赖问题,即为了解决RNN有时依赖的间隔短,有时依赖的间隔长的问题。其中循环神经网络被成功应用的关键就是LSTM。
图3.1 LSTM单元结构图
它是一种特殊的循环体结构,与单一的tanh循环体结构不同,LSTM是一种拥有三个“门”结构的特殊网络结构。
所谓的“门”结构就是使用了sigmoid
激活函数的全连接神经网络和一个按位
做乘法的操作,sigmoid激活函数会输出一个0~1
之间的数值,这个数值描述的是当前有多少信息能通过“门”
,0
表示任何信息都无法通过,1
表示全部信息都可以通过。其中,“遗忘门”和“输入门”是LSTM单元结构的核心。下面我们来详细分析下三种“门”结构。
遗忘门
:用来让RNN“忘记”之前没有用的信息。比如“十年前,北京的天空是蓝色的”,但当看到“空气污染开始变得越来越严重”后,RNN应该忘记“北京的天空是蓝色的”这个信息。遗忘门会根据当前时刻节点的输入Xt
、上一时刻节点的状态C(t-1)
和上一时刻节点的输出h(t-1)
来决定哪些信息将被遗忘。
输入门:
用来让RNN决定当前输入数据中哪些信息将被留下来。在RNN使用遗忘门“忘记”
部分之前的信息后,还需要从当前的输入补充最新的记忆
。输入门会根据当前时刻节点的输入Xt
、上一时刻节点的状态C(t-1)
和上一时刻节点的输出h(t-1)
来决定哪些信息将进入当前时刻节点的状态Ct
,比如看到“空气污染开始变得越来越严重”后,模型需要记忆这个最新的信息。
输出门:
LSTM在得到最新节点状态Ct
后,结合上一时刻节点的输出h(t-1)
和当前时刻节点的输入Xt
来决定当前时刻节点的输出。比如当前时刻节点状态为被污染,那么“天空的颜色”后面的单词应该是“灰色”。
在TensorFlow中可以使用lstm = rnn_cell.BasicLSTMCell(lstm_hidden_size)
来声明一个LSTM结构。
3.2 LSTM详解
具体的LSTM每个门的公式如下:
图3.2 LSTM单元详细结构
所有循环神经网络都有一个重复结构的模型形式,在标准的RNN中,重复的结构是一个简单的循环体,如图3.2所示的A循环体。然而LSTM的循环体是一个拥有四个相互关联的全连接前馈神经网络的复制结构。
符号介绍:
图3.3 符号说明
- Neural NetWork Layer:该图表示一个神经网络层(自己可以定义大小)
- Pointwise Operation:该图表示一种操作,如加号表示矩阵或向量的求和、乘号表示向量的乘法操作;
- Vector Tansfer:每一条线表示一个向量,从一个节点输出到另一个节点;
- Concatenate:该图表示两个向量的合并,即由两个向量合并为一个向量,如有X1和X2两向量合并后为[X1,X2]向量;
- Copy:该图表示一个向量复制了两个向量,其中两个向量值相同。
门设计:
遗忘门:
LSTM的第一步是决定要从上一个时刻的状态中丢弃什么信息,其是由一个sigmoid全连接的前馈神经网络的输出管理,将这种操作称为遗忘门(forget get layer)。如图3.4所示。这个全连接的前馈神经网络的输入是ht−1h_{t-1}ht−1和XtX_tXt组成的向量,输出是ftf_tft向量。ftf_tft向量是由1和0组成,1表示能够通过,0表示不能通过。
图3.4 遗忘门
输入门:
第二步决定哪些输入信息要保存到神经元的状态中。这由两个前馈神经网络,如图3.5所示。首先是一个sigmoid层的全连接前馈神经网络,称为输入门(input gate layer),其决定了哪些值将被更新;然后是一个tanh层的全连接前馈神经网络,其输出是一个向量Ct~\tilde{C_t}Ct~,Ct~\tilde{C_t}Ct~向量可以被添加到当前时刻的神经元状态中;最后根据两个神经网络的结果创建一个新的神经元状态。
图3.5 输入门
状态控制:
第三步就可以更新上一时刻的状态Ct−1C_{t-1}Ct−1为当前时刻的状态CtC_tCt了。上述的第一步的遗忘门计算了一个控制向量,此时可通过这个向量过滤了一部分Ct−1C_{t-1}Ct−1状态,如图3.6所示的乘法操作;上述第二步的输入门根据输入向量计算了新状态,此时可以通过这个新状态和Ct−1状态根据一个新的状态C_{t-1}状态根据一个新的状态Ct−1状态根据一个新的状态C_t$。
图3.6 状态控制
输出门:
最后一步就是决定神经元的输出向量hth_tht是什么,此时的输出是根据上述第三步的CtC_tCt状态进行计算的,即根据一个sigmoid层的全连接前馈神经网络过滤到一部分CtC_tCt状态作为当前时刻神经元的输出,如图3.7所示。这个计算过程是:首先通过sigmoid层生成一个过滤向量;然后通过一个tanh函数计算当前时刻的CtC_tCt状态向量(即将向量每个值的范围变换到[-1,1]之间);接着通过sigmoid层的输出向量过滤tanh函数结果,即为当前时刻神经元的输出。
图3.7 输出门
LSTM有很多种变体:
Peephole connections:
一种流行的LSTM变体是由Gers&Schmidhuber(2000)提出的网络结构,如图 29所示。通过将上一时刻的状态Ct-1合并到各个门上,从而更详细控制各个门的管理。
Coupled forget and input gates:
另一种变体是使用耦合的遗忘门和输入门
Gated Recurrent Unit:
另一种变体是Gated Recurrrent Unit
3.3 循环神经网络的变体
双向循环神经网络(BRNN):
RNN和LSTM都只能依据之前时刻的时序信息来预测下一时刻的输出,但在有些问题中,当前时刻的输出不仅和之前的状态有关,还可能和未来的状态有关系。比如预测一句话中缺失的单词不仅需要根据前文来判断,还需要考虑它后面的内容,真正做到基于上下文判断。BRNN(bidirectional
RNN)有两个RNN上下叠加在一起组成的,输出由这两个RNN的状态共同决定。BRNN结构图如图3.8所示:
图3.8 BRNN结构图
从上图可以看出,双向循环神经网络就是两个单向循环神经网络的结合。在每一个时刻t,输入会同时提供给这两个方向相反的循环神经网络,而输出则是由这两个单向循环神经网路共同决定的。
深层循环神经网络(DRNN:
DRNN可以增强模型的表达能力,相比图3.2介绍的循环神经网络,深层循环神经网络主要是将每个时刻上的循环体重复多次,每一层循环体中参数是共享的,但不同层之间的参数可以不同。DRNN结构如图3.9所示:
图3.9 DRNN结构图
TensorFlow中可以通过rnn_cell.MultiRNNCell([lstm] * number_of_layer)
来构建DRNN,其中number_of_layer表示了有多少层。
3.4 循环神经网络的fropout
在构建实际的任务模型时,往往会设置dropout来让构建的网络模型更加健壮,类似在卷积神经网络只在最后全连接层使用dropout,DRNN一般只在不同层循环体结构中使用dropout,而不在同一层的循环体结构中使用。即从时刻t-1传递到t时刻时,RNN不进行状态的dropout,但在同一时刻t中,不同层循环体之间会使用dropout,图3.10展示了DRNN中使用dropout,其中实线箭头表示不使用dropout,虚线箭头表示使用dropout。
图3.10 DRNN中使用dropout
TensorFlow中可以使用tf.nn.rnn_cell.DropoutWrapper
类来实现dropout功能。
在实际编程中,可以通过TensorFlow的高层封装工具TFLearn来自定义模型,TFLearn封装了一些常用的神经网络模型,这里不再介绍。
参考:https://www.cnblogs.com/huliangwen/p/7464813.html
循环神经网络基础介绍相关推荐
- Task02:学习笔记文本预处理;语言模型;循环神经网络基础
Task02:学习笔记文本预处理:语言模型:循环神经网络基础 文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 读入文本 ...
- 动手学深度学习-12 循环神经网络基础
循环神经网络基础 循环神经网络 从零开始实现循环神经网络 我们先尝试从零开始实现一个基于字符级循环神经网络的语言模型,这里我们使用周杰伦的歌词作为语料,首先我们读入数据: import torch i ...
- AI之循环神经网络基础
AI之循环神经网络基础 循环神经网络的构造 从零开始实现循环神经网络 one-hot向量 初始化模型参数 定义模型 裁剪梯度 定义预测函数 困惑度 定义模型训练函数 训练模型并创作歌词 循环神经网络的 ...
- 动手学深度学习PyTorch版-循环神经网络基础
循环神经网络基础 从零开始实现循环神经网络 import torch import torch.nn as nn import time import math import sys sys.path ...
- 从零开始学Pytorch(十)之循环神经网络基础
本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型.我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符.循环神经网络引入一个隐藏变量HHH,用HtH_{t}Ht表示HHH ...
- 动手学深度学习(文本预处理+语言模型+循环神经网络基础)
文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) ...
- 《动手学》:循环神经网络基础 youthAI
循环神经网络 本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型.我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符.循环神经网络引入一个隐藏变量 H ,用 Ht 表示 H ...
- grad在python什么模块_深度学习(Deep Learning)基础概念1:神经网络基础介绍及一层神经网络的python实现...
此专栏文章随时更新编辑,如果你看到的文章还没写完,那么多半是作者正在更新或者上一次没有更新完,请耐心等待,正常的频率是每天更新一篇文章. 该文章是"深度学习(Deep Learning)&q ...
- 长文 | LSTM和循环神经网络基础教程(PDF下载)
来自公众号 机器学习算法与Python学习 目录: 前言 前馈网络回顾 循环网络 时间反向传播BPTT 梯度消失与梯度爆炸 长短期记忆单元(LSTM) 多时间尺度和远距离依赖 门控循环单元GRU LS ...
最新文章
- Linux 最常用命令(简单易学,但能解决95%以上的问题)
- 五行代码玩转GPT-2,新加坡高中生开源轻量级GPT-2“客户端”
- 定义一个圆类java用echo_正则表达式中圆括号的作用
- js 调 CDHtmlDialog API
- 如何开启/关闭SMTP路由调试
- java 拦截所有路径_Java或Web中解决所有路径问题
- anaconda如何卸载库_小白必看!Anaconda安装全攻略
- 如何学习开源项目及Ceph的浅析
- Python垃圾回收和内存管理
- 叫板 Android 开发!跨平台应用开发神器 Flutter 又添开源插件!| 技术头条
- CCF201612试题
- 每天一道剑指offer-把数组排成最小的数
- Java内部类访问局部变量时的final问题
- 《Java语言程序设计》(基础篇原书第10版)第十一章复习题答案
- 红帽Red Hat Linux镜像下载
- 从ISSCC2021论文看未来技术发展趋势
- 【前端性能优化】图片加载优化
- 利用python进行prosper贷款数据EDA分析(一)
- 匪夷所思!名校90后毕业生不顾父亲 “威胁”,坚持放弃当高薪程序员,改行当餐厅服务员!...
- Libgdx之正交相机 OrthographicCamera
热门文章
- Qt for QNX
- Qt Creator连接通用远程Linux设备
- C语言链表返回具有的回文序列的算法(附完整源码)
- OpenGL Texture Coordinates纹理坐标的实例
- OpenGL 3D 选择
- C++Rabin Karp算法字符串快速查找(附完整源码)
- C++Tower of Hanoi汉诺塔的实现算法(附完整源码)
- python的日期格式化_Python日期格式化-阿里云开发者社区
- yarn timeline1,timeline2官网解释
- Spring的@Scope的几种取值