目录

1、定义

2、有了CNN,为什么需要RNN?

3、RNN的主要应用领域有哪些呢?

4、RNN的计算过程

5、标准RNN前向输出流程

6、RNN的建模方式

1、一对多(vector-to-sequence )

2、多对一(sequence-to-vector )

3、多对多(Encoder-Decoder )

7、CNN和RNN的异同点

8、RNN中为什么会出现梯度消失?如何解决?

9、如何理解RNN的注意力机制


1、定义

循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network) 。

对循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learning)算法之一  ,其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的循环神经网络  。

2、有了CNN,为什么需要RNN?

在CNN网络中的训练样本的数据为IID数据(独立同分布数据),所解决的问题也是分类问题或者回归问题或者是特征表达问题。但更多的数据是不满足IID的,如语言翻译,自动文本生成。它们是一个序列问题,包括时间序列和空间序列。比如时间序列数据,这类数据是在不同时间点上收集到的数据,反映了某一事物、现象等随时间的变化状态或程度。一般的神经网络,在训练数据足够、算法模型优越的情况下,给定特定的x,就能得到期望y。其一般处理单个的输入,前一个输入和后一个输入完全无关,但实际应用中,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。 这时就要用到RNN网络,RNN的结构图如下所示:

序列样本一般分为:一对多(生成图片描述),多对一(视频解说,文本归类),多对多(语言翻译)。RNN不仅能够处理序列输入,也能够得到序列输出,这里的序列指的是向量的序列。RNN学习来的是一个程序,也可以说是一个状态机,不是一个函数。

3、RNN的主要应用领域有哪些呢?

RNN的应用领域有很多, 可以说只要考虑时间先后顺序的问题都可以使用RNN来解决.这里主要说一下几个常见的应用领域:

① 自然语言处理(NLP): 主要有视频处理, 文本生成, 语言模型, 图像处理

② 机器翻译, 机器写文章

③ 语音识别

④ 图像描述生成

⑤ 文本相似度计算

⑥ 推荐系统。例如:音乐推荐、网易考拉商品推荐、Youtube视频推荐等新的应用领域。

4、RNN的计算过程

在进一步了解RNN之前,先给出最基本的单层网络结构,输入是x,经过变换Wx+b和激活函数f得到输出y

在实际应用中,我们还会遇到很多序列形的数据,如:

  • 自然语言处理问题。x1可以看做是第一个单词,x2可以看做是第二个单词,依次类推。

  • 语音处理。此时,x1、x2、x3……是每帧的声音信号。

  • 时间序列问题。例如每天的股票价格等等。

    其单个序列如下图所示:

前面介绍了诸如此类的序列数据用原始的神经网络难以建模,基于此,RNN引入了隐状态h(hidden state),h​可对序列数据提取特征,接着再转换为输出。

为了便于理解,先计算h_1​:

注:图中的圆圈表示向量,箭头表示对向量做变换。

RNN中,每个步骤使用的参数U,W,b​相同,h_2的计算方式和h_1​类似,其计算结果如下:

计算h_3,h_4​也相似,可得:

接下来,计算RNN的输出y_1,采用Softmax作为激活函数,根据y_n=f(Wx+b),得y_1​:

使用和y_1​相同的参数V,c​,得到y_1,y_2,y_3,y_4​的输出结构:

以上即为最经典的RNN结构,其输入为x_1,x_2,x_3,x_4,输出为y_1,y_2,y_3,y_4,当然实际中最大值为y_n,这里为了便于理解和展示,只计算4个输入和输出。从以上结构可看出,RNN结构的输入和输出等长。

5、标准RNN前向输出流程

以x表示输入,h是隐层单元,o是输出,L为损失函数,y为训练集标签。t表示t时刻的状态,V,U,W是权值,同一类型的连接权值相同。以下图为例进行说明标准RNN的前向传播算法:

对于t时刻:

其中为激活函数,一般会选择tanh函数,b为偏置。

t时刻的输出为:

模型的预测输出为:

其中​为激活函数,通常RNN用于分类,故这里一般用softmax函数。

6、RNN的建模方式

序列样本一般分为:一对多(生成图片描述),多对一(视频解说,文本归类),多对多(语言翻译),针对不同的序列建模方式也不一样。

1、一对多(vector-to-sequence )

输入是一个单独的值,输出是一个序列。此时,有两种主要建模方式:

方式一:可只在其中的某一个序列进行计算,比如序列第一个进行输入计算,其建模方式如下:

方式二:把输入信息X作为每个阶段的输入,其建模方式如下:

应用场景:

1、从图像生成文字,输入为图像的特征,输出为一段句子 2、根据图像生成语音或音乐,输入为图像特征,输出为一段语音或音乐

2、多对一(sequence-to-vector )

输入是一个序列,输出是一个单独的值,此时通常在最后的一个序列上进行输出变换,其建模如下所示:

应用场景:

1、输出一段文字,判断其所属类别 2、输入一个句子,判断其情感倾向 3、输入一段视频,判断其所属类别

3、多对多(Encoder-Decoder )

建模步骤如下:

步骤一:将输入数据编码成一个上下文向量c,这部分称为Encoder,得到c有多种方式,最简单的方法就是把Encoder的最后一个隐状态赋值给c,还可以对最后的隐状态做一个变换得到c,也可以对所有的隐状态做变换。其示意如下所示:

步骤二:用另一个RNN网络(我们将其称为Decoder)对其进行编码,方法一是将步骤一中的c​作为初始状态输入到Decoder,示意图如下所示:

方法二是将c作为Decoder的每一步输入,示意图如下所示:

1、机器翻译,输入一种语言文本序列,输出另外一种语言的文本序列 2、文本摘要,输入文本序列,输出这段文本序列摘要 3、阅读理解,输入文章,输出问题答案 4、语音识别,输入语音序列信息,输出文字序列

7、CNN和RNN的异同点

类别 特点描述
相同点

1、传统神经网络的扩展。

2、前向计算产生结果,反向计算模型更新。

3、每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接。

不同点

1、CNN空间扩展,神经元与特征卷积;RNN时间扩展,神经元与多个时间输出计算

2、RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出

8、RNN中为什么会出现梯度消失?如何解决?

梯度消失的原因:sigmoid函数的导数范围是(0,0.25],tanh函数的导数范围是(0,1],他们的导数最大都不大于1,如果取tanh或sigmoid函数作为激活函数嵌套到RNN中,那么必然是一堆小数在做乘法,结果就是越乘越小。随着时间序列的不断深入,小数的累乘就会导致梯度越来越小直到接近于0,这就是“梯度消失“现象。

实际使用中,会优先选择tanh函数,原因是tanh函数相对于sigmoid函数来说梯度较大,收敛速度更快且引起梯度消失更慢。

 解决RNN中的梯度消失方法主要有:

1、选取更好的激活函数,如Relu激活函数。ReLU函数的左侧导数为0,右侧导数恒为1,这就避免了“梯度消失“的发生。但恒为1的导数容易导致“梯度爆炸“,但设定合适的阈值可以解决这个问题。

2、加入BN层,其优点包括可加速收敛、控制过拟合,可以少用或不用Dropout和正则、降低网络对初始化权重不敏感,且能允许使用较大的学习率等。

2、改变传播结构,选择更高级的模型,例如:LSTM结构可以有效解决这个问题。

9、如何理解RNN的注意力机制

在上述的Encoder-Decoder结构中,Encoder把所有的输入序列都编码成一个统一的语义特征c​再解码,因此,c​中必须包含原始序列中的所有信息,它的长度就成了限制模型性能的瓶颈。如机器翻译问题,当要翻译的句子较长时,一个c​可能存不下那么多信息,就会造成翻译精度的下降。Attention机制通过在每个时间输入不同的c​来解决此问题。

引入了Attention机制的Decoder中,有不同的c,每个c​会自动选择与当前输出最匹配的上下文信息,其示意图如下所示:

举例,比如输入序列是“我爱中国”,要将此输入翻译成英文:

假如用a{ij}衡量Encoder中第j阶段的h_j和解码时第i阶段的相关性,a{ij}从模型中学习得到,和Decoder的第i-1阶段的隐状态、Encoder 第j个阶段的隐状态有关,比如a_{3j}​的计算示意如下所示:

最终Decoder中第i阶段的输入的上下文信息 c_i来自于所有h_j对a_{ij}的加权和。

其示意图如下图所示:

在Encoder中,h_1,h_2,h_3,h_4分别代表“我”,“爱”,“中”,“国”所代表信息。翻译的过程中,c_1会选择和“我”最相关的上下午信息,如上图所示,会优先选择a{11},以此类推,c_2会优先选择相关性较大的a{22},c_3会优先选择相关性较大的a{33},a{34},这就是attention机制。

【RNN基础】——一文搞明白RNN相关推荐

  1. 一文搞懂RNN(循环神经网络)

    基础篇|一文搞懂RNN(循环神经网络) https://mp.weixin.qq.com/s/va1gmavl2ZESgnM7biORQg 神经网络基础 神经网络可以当做是能够拟合任意函数的黑盒子,只 ...

  2. 一文搞明白Python并发编程和并行编程

    目录 前言 一.基础知识 1.并行和并发 (1)定义 (2)联系 2.进程.线程和协程 (1)定义 (2)联系 3.生成器 (1)yield (2)send, next (3)yield from 4 ...

  3. 【直观理解】一文搞懂RNN(循环神经网络)基础篇

    推荐阅读时间8min~15min 主要内容简介:神经网络基础.为什么需要RNN.RNN的具体结构.以及RNN应用和一些结论 1神经网络基础 神经网络可以当做是能够拟合任意函数的黑盒子,只要训练数据足够 ...

  4. 一文搞明白GIT——Git原理解析与常用命令

    工作中经常用git,但是不少命令经常使用出现各种各样的问题,也不太理解其中的原理.今天专门总结一下git的原理,理解原理之后想实现什么样的功能直接找相应的命令即可.如有错误和不足,欢迎指正! 一. 工 ...

  5. rnn按时间展开_一文搞懂RNN(循环神经网络)基础篇

    神经网络基础 神经网络可以当做是能够拟合任意函数的黑盒子,只要训练数据足够,给定特定的x,就能得到希望的y,结构图如下: 将神经网络模型训练好之后,在输入层给定一个x,通过网络之后就能够在输出层得到特 ...

  6. 循环取矩阵的某行_一文搞懂RNN(循环神经网络)基础篇

    神经网络基础 神经网络可以当做是能够拟合任意函数的黑盒子,只要训练数据足够,给定特定的x,就能得到希望的y,结构图如下: 将神经网络模型训练好之后,在输入层给定一个x,通过网络之后就能够在输出层得到特 ...

  7. 软件测试 | 测试开发 | 测试开发基础|一文搞定计算机网络(一)

    计算机网络知识对测试人员来说是非常重要的基础技能.无论是在平时测试工作中(比如接口测试),还是测试技术面试时,都会经常涉猎.很多基础薄弱的同学靠临时抱佛脚突击搜索学习,对系统知识和重点难点的理解总是不 ...

  8. 测试开发基础|一文搞定计算机网络(一)

    计算机网络知识对测试人员来说是非常重要的基础技能.无论是在平时测试工作中(比如接口测试),还是测试技术面试时,都会经常涉猎.很多基础薄弱的同学靠临时抱佛脚突击搜索学习,对系统知识和重点难点的理解总是不 ...

  9. nginx转发请求_Nginx为什么高效?一文搞明白Nginx核心原理

    Nginx 的进程模型 Nginx 服务器,正常运行过程中: 多进程:一个 Master 进程.多个 Worker 进程 Master 进程:管理 Worker 进程 对外接口:接收外部的操作(信号) ...

最新文章

  1. SQL Server中读取XML文件的简单做法
  2. linux ora 00119,ORA-00119和ORA-00132的解决方案
  3. java编写创建数据库和表的程序
  4. 四十二、ETL工具Kettle的转换步骤
  5. 04JavaScript中函数也是对象
  6. .NET平台下Web树形结构程序设计
  7. Android2.2缩略图类ThumbnailUtils
  8. linux账号和权限管理思维导图,Linux系统支持的思维导图软件有哪些?
  9. 【leetcode】Trips and Users
  10. C++ 只要一句,输入重定向。讲讲编程竞赛本机调试技巧
  11. 深入理解Nginx~文件路径的定义
  12. VARCHART XGantt 甘特图如何创建和修改数据记录
  13. Spark机器学习实例
  14. 深圳绘制SVG地图数据
  15. java px pt转化_pt和px的转换
  16. Latex自由设置虚线的作用区间及间距
  17. 投屏索尼电视显示访问服务器,索尼电视投屏如何设置 苹果手机投屏索尼电视...
  18. bailian.openjudge 2712:细菌繁殖
  19. JS,VUE检测Video视频是否全屏播放
  20. 组合数学——插板模型

热门文章

  1. SELinux avc权限--audit2allow
  2. 人工神经网络技术及应用,人工神经网络发展前景
  3. element-ui下载失败如下显示解决方法
  4. 对象存储场景化开发实践-马毅-专题视频课程
  5. 2017毕设论文小结
  6. 强化学习——环境库OpenAI Gym
  7. 细说inchat系统客户端开发之路
  8. 项目:宅人食堂——点餐系统
  9. 迪士尼贺新春,推出猪年限定产品
  10. 的确,Java存在缺陷。但是……