下图是我看过对LSTM物理结构描述最清楚的图,参考自LSTM神经网络输入输出究竟是怎样的?

答主在图中对三种架构有简要的说明,这里根据自己的理解,再对它做进一步的解释。

图中的第一部分是LSTM的时序结构版本,它是单个LSTM Cell在多个时间步上展开的形式,实际上是只有一个Cell,因此也可以理解为LSTM是神经网络在时序上的权重共享(CNN是在空间上的权重共享)。嗯,单个LSTM/RNN是下面这样的。

图中的第二部分是LSTM单个Cell的逻辑结构版本,每一个 $sigma$ 对应一个 门,从左到右依次为遗忘门,输入门和输出门,时序的传递是在上下两条线中,上面的线对应较长的短时记忆「long short-term memory」,也即隐状态,下面的线对应短时记忆「short-term memory」,也即输出状态,在普通的RNN中,就只有输出状态会反馈到输入。

控制的角度看,这种时序的传递,其实类似反馈「PS:看来控制没白学hhh」。看一下经典的反馈图:

在控制中,反馈即是把当前输出回传到输入项,和下一时刻的输入共同决定下一时刻的输出,这里输入和输出的组合方式是通过做差得到误差项,然后通过误差项来得到控制量。

在LSTM中,网络的隐状态和输出状态同样会传递到下一个时刻, 和系统下一刻的输入一起共同决定下一刻的输出,这种传递和循环与控制理论中的反馈有异曲同工之妙。这也使得LSTM区别于一般的前馈和卷积神经网络,它能保留历史输入中的重要信息,刻画复杂的历史依赖,和当前输入一起去决定下一个输出。

图中第三部分的物理架构才是这幅图的精髓,看到这部分,才能真正理解LSTM内部的神经网络结构。

LSTM中的每一个门实际上就是一个以sigmoid作为激活函数的全连接层,因为这些门输出都是(0,1)的,也就相当于一个滤波器,0为全部过滤,1为全部通过,以这种方式来保留神经网络认为重要的信息。

LSTM中 'X' 符号对应的是按位做乘法的操作,而不是矩阵的乘法,'+' 号也是按位的加法。

LSTM中一个非常关键的参数,num_units,它是每一个门的神经元个数,它也是输出的维度,在图中它是128。

LSTM的输入和上一时刻的输出是通过concat的形式组合在一起的,然后作为每一个门的输入。

如获至宝的一幅图,希望能帮助大家揭开LSTM的神秘面纱~

双层lstm每层有自己的权重参数吗_一幅图真正理解LSTM的物理结构相关推荐

  1. 一幅图真正理解LSTM、BiLSTM

    目录 1 前言 1.1 RNN回忆与概览 1.2 LSTM回忆与概览 1.3 循环神经网络的几种输入输出结构 2 图解 LSTM 内部结构和数据流 2.1 简洁的结构图 2.2 LSTM的原理剖析图 ...

  2. 理解LSTM/RNN中的Attention机制

    转自:http://www.jeyzhang.com/understand-attention-in-rnn.html,感谢分享! 导读 目前采用编码器-解码器 (Encode-Decode) 结构的 ...

  3. 深度学习 卷积层与全连接层权重参数个数的计算

    1.卷积网络实例分析 构建卷积网络如下: from tensorflow.python.keras import datasets, models, layers class CNN(object): ...

  4. DL之LSTM:基于《wonderland爱丽丝梦游仙境记》小说数据集利用LSTM算法(层加深,基于keras)对单个character字符预测

    DL之LSTM:基于<wonderland爱丽丝梦游仙境记>小说数据集利用LSTM算法(层加深,基于keras)对单个character字符预测 目录 基于<wonderland爱丽 ...

  5. DL之DNN优化技术:自定义MultiLayerNetExtend算法(BN层使用/不使用+权重初始值不同)对Mnist数据集训练评估学习过程

    DL之DNN优化技术:自定义MultiLayerNetExtend算法(BN层使用/不使用+权重初始值不同)对Mnist数据集训练评估学习过程 目录 输出结果 设计思路 核心代码 更多输出 相关文章: ...

  6. tensorflow2 训练和预测使用不同的输出层、获取权重参数

    目标: youtubeNet通过训练tensorflow2时设置不同的激活函数,训练和预测采用不同的分支,然后可以在训练和测试时,把模型进行分离,得到训练和预测时,某些层的参数不同.可以通过类似迁移学 ...

  7. [转] 图 + 文 + 公式 理解LSTM

    转自公号"机器之心" LSTM入门必读:从入门基础到工作方式详解 长短期记忆(LSTM)是一种非常重要的神经网络技术,其在语音识别和自然语言处理等许多领域都得到了广泛的应用..在这 ...

  8. (译)理解 LSTM 网络 (Understanding LSTM Networks by colah)

    前言:其实之前就已经用过 LSTM 了,是在深度学习框架 keras 上直接用的,但是到现在对LSTM详细的网络结构还是不了解,心里牵挂着难受呀!今天看了 tensorflow 文档上面推荐的这篇博文 ...

  9. 【深度学习】深入理解LSTM

    LSTM Author:louwill From:深度学习笔记 原始结构的RNN还不够处理较为复杂的序列建模问题,它存在较为严重的梯度消失问题,最直观的现象就是随着网络层数增加,网络会逐渐变得无法训练 ...

最新文章

  1. Update of SharePoint Me
  2. GAN与力学系统的海森伯图像
  3. MySQL触发器的使用
  4. C#发布程序添加其他程序文件
  5. QQ通讯录VS360通讯录对新建信息界面中草稿的处理
  6. Shell编程基础(1)
  7. Halcon产品描述
  8. android mk subst功能,Android.mk(零)
  9. 单片机矩阵键盘扫描程序c语言,51单片机矩阵键盘扫描程序(源代码)
  10. 多径瑞利信道的一种matlab产生方法
  11. gimp 抠图_GIMP006:从简单抠图了解GIMP的浮动选区功能
  12. R语言多层桑基图_R语言可视化(二十三):桑基图绘制
  13. 【Python】面试官:元组列表都分不清,回去等通知pa
  14. 远程桌面连接不上是什么原因?怎么解决
  15. 2021极术通讯-使用Arm-2D在Cortex-M芯片中实现图形界面
  16. 入门 | 我们常听说的置信区间与置信度到底是什么?
  17. 一套效果图适配(Android和IOS)全尺寸和标注规范-(结果)
  18. html div转换为图片
  19. python 学习快速入门
  20. 一周用python完成2048小游戏

热门文章

  1. React中使用setState
  2. [bzoj1934][Shoi2007]Vote 善意的投票
  3. 转: Ubuntu 安装字体方法
  4. DFS 之 poj 2386 Lake Counting
  5. c语言long long类型赋值
  6. 2n个整数分为两组,使两组和差的绝对值最小
  7. 贝叶斯统计:信噪对偶与Dawid定理
  8. UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性
  9. UA MATH523A 实分析3 积分理论16 截口与单调类、特征函数的Fubini定理
  10. 一种更好的汇报性能测试结果的方法(译)