上面是LSTM的计算公式,首先找那几个门,其实好找,那三个Sigmod作为非线性函数的就是三个门,很明显其取值范围在0到1和门打开关闭的物理意义是很好对应起来的。

所以含义很清楚,

输入门是用来控制输入i’(t)进出多少或者是否允许进出的门控设备;

输出门是用来控制t时刻状态值m(t)对外多少是可见的门控设备;

遗忘门是控制RNN中历史状态m(t-1)流动到t时刻后允许多少进入t时刻的门控设备;

结合常见的LSTM示意图,以下就是三个门的控制,上面罗列的公式中mt就是Ct

遗忘门

输入门

输出门

LSTM是RNN模型,决定t时刻节点的除了当前输入值x(t)外,还有t-1时刻的隐层节点输出h(t-1),这代表了历史信息对当前的影响,所以决定门开关程度的除了当前输入 x(t)外,还有h(t-1),仅此区别而已。

所以关键在LSTM的状态值更新函数和隐层节点输出值函数上。对于状态更新函数来说:

f(t)是遗忘门门控,m(t-1)是历史状态信息,两者相乘代表t时刻允许多少历史信息进入来决定m(t)当前状态,如果遗忘门全关取值0,则历史对当前状态无影响,如果遗忘门全开取值1,则历史信息原封不动的传到t时刻,没有任何信息损失,当然更大可能是取值0到1之间,代表历史信息的部分流入;

i(t)是输入门门控,i’(t)是当前t时刻输入值, 两者相乘代表t时刻允许多少当前输入信息进入来决定m(t)当前状态,如果输入门全关取值0,则LSTM忽略当前输入的影响,等于没看到这个输入直接跳过去了,如果输入门全开取值1,则当前输入最大化地决定当前状态m(t),没有任何信息损失,当然更大可能是取值0到1之间,代表输入信息的部分流入;

经过上面两个门控控制历史信息的影响以及当前输入的影响,就形成了t时刻的隐层节点状态值m(t)。

隐层节点输出值h(t)好理解,就是说通过输出门控制当前状态m(t)对外有多少是可见的,因为m(t)是内部隐藏的状态信息,除了往t+1时刻隐层传输外,外部其它地方是看不到的,但是它们可以看到h(t)。

这就是LSTM是如何用三个门控以及抽离出的m状态存储器来表达运算逻辑的思路,其实可以看到它本质跟RNN一样,无非是体现历史影响及当前输入的影响,但是相对RNN来说,通过门控来自适应地根据历史和输入来控制信息的流动,当然其实更主要的是通过抽离出的m存储往后传递方式来解决梯度弥散问题的,因为今天主讲门控,所以这块不展开讲。

很多其它深度学习的工作也引入了门函数,其思路和上面介绍的猪家的门控系统思路本质上是一样的,无非是用门函数来控制信息流动程度的。在计算模型上怎么理解“有门”和“没门”的模型呢?其实你可以缺省地认为所有的模型都是“有门”的,而“没门”只是有门的一种特例情况。为什么呢?因为“没门”等价于什么,等价于:“有门”但是那个门是永远全开的,永远不会关上或者半遮半掩。所以引入门其实在干什么呢,就是加入控制,在有些情况下让你进入,有些情况下不让你进入,比如看见x不让进,看见y则自由出入。

|其它的类比

上面为了方便理解门函数的作用,我们用现实生活中的门作为类比例子。其实生活中还有很多起到类似类比作用的设备,比如水龙头,打开水龙头那么水就可以流进来,如果关上水龙头,那么就切断了水源,水龙头打开的大点,那么水流量就大些,水龙头打开的小点,那么水流量就小些。DL中的门函数其实跟这个水龙头调节的作用是一样的,区别无非是控制的不是水流量,而是流入的信息流量。

再比如,也可以把门函数类比为灯的光调节器,我们常见到带有光调节器的灯控设备,把设备调大,则照明强度增加,把设备调小,则照明强度减少。这个类比也能很形象地说明门函数的作用。

其实归纳起来,所有这些生活中的门起的是什么作用呢?其实起的作用是个“调节阀”的作用,通过开关调节阀来控制物体的流入;通过开关调节阀大小来控制流入程度;所以,所有起到调节阀作用的生活设施都可以用来做门函数的类比。

原文连接:https://blog.csdn.net/malefactor/article/details/51183989?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~first_rank_v2~rank_v25-3-51183989.nonecase&utm_term=%E9%97%A8%E4%B8%BB%E8%A6%81%E6%98%AF%E8%B5%B7%E4%BB%80%E4%B9%88%E4%BD%9C%E7%94%A8

LSTM中遗忘门,输入门和输出门的实际意义是什么相关推荐

  1. lstm原理_Mamp;DL | LSTM:遗忘门、记忆门、输出门

    LSTM(Long short term memory,长短时记忆网络),是一种特殊的RNN(Recurrent Neural Network,循环神经网络),能够学习长期的依赖关系.LSTM在这篇文 ...

  2. 深度学习原理与框架-RNN网络框架-LSTM框架 1.控制门单元 2.遗忘门单元 3.记忆门单元 4.控制门单元更新 5.输出门单元 6.LSTM网络结构...

    LSTM网络是有LSTM每个单元所串接而成的, 从下面可以看出RNN与LSTM网络的差异, LSTM主要有控制门单元和输出门单元组成 控制门单元又是由遗忘门单元和记忆门单元的加和组成. 1.控制门单元 ...

  3. lstm中look_back的大小选择_使用PyTorch手写代码从头构建LSTM,更深度的理解其工作原理

    这是一个造轮子的过程,但是从头构建LSTM能够使我们对体系结构进行更加了解,并将我们的研究带入下一个层次. LSTM单元是递归神经网络深度学习研究领域中最有趣的结构之一:它不仅使模型能够从长序列中学习 ...

  4. lstm中look_back的大小选择_LSTM 扫盲:长短期记忆网络解读及其 PyTorch 应用实现

    和普通 RNN 相比,LSTM 可以通过所谓"门"的结构控制主线细胞状态中.colah[1]讲解十分全面,但是对于扫盲贴来说,大佬写的有些难,我要做的内容是把这些再品,再细品,然后 ...

  5. lstm中look_back的大小选择_基于机器学习检测僵尸网络中的域名生成算法

    0x01 Absert 恶意软件通常使用域名生成算法(DGA)作为联系其C&C服务器的机制.近年来,基于机器学习已经提出了不同的方法来自动检测生成的域名.但也存在一些问题.第一个问题是,由于缺 ...

  6. Keras中LSTM中units解释

    Keras中Units解读 def __init__(self,units,activation='tanh',recurrent_activation='sigmoid',use_bias=True ...

  7. lstm timestep一般是多少_用LSTM中的不同时间步长预测使用keras

    我正在使用keras预测LSTM的时间序列,并且我意识到我们可以使用与我们用来训练的时间步不同的数据来预测.例如:用LSTM中的不同时间步长预测使用keras import numpy as np i ...

  8. python羊车门问题_「羊车门」经典概率题中不换门选中车的概率是多少?

    今天用Python求解「羊车门」经典的概率问题,对概率学基础和Python语法的灵活运用有所收货. 本次「羊车门」求解过程采用的是:穷举法计算概率已验证概率学基础理论.期间重点借鉴了'奥卡姆剃刀的博客 ...

  9. 详解自注意力机制及其在LSTM中的应用

    详解自注意力机制及其在LSTM中的应用 注意力机制(Attention Mechanism)最早出现在上世纪90年代,应用于计算机视觉领域.2014年,谷歌Mnih V等人[1] 在图像分类中将注意力 ...

最新文章

  1. TensorRT Samples: MNIST(serialize TensorRT model)
  2. Java 程序员薪资这么高,取决于什么?
  3. Java Excel表格数据的导入导出
  4. Dropout的前世与今生
  5. pgsql vs mysql查询_对比平台--SQL Server Vs PostgreSQL
  6. 7-2 是否完全二叉搜索树 (30分)
  7. 继承的方式编写日向家族
  8. Java面试之Synchronized无法禁止指令重排却能保证有序性
  9. 利用bwm-ng 实时监控系统
  10. 为什么java IO类不用基于继承的设计方案?
  11. 2020-09-30
  12. 会不会导致内存泄漏_mysql内存数据淘汰机制和大查询会不会把内存打爆?
  13. iPhone 13用什么蓝牙耳机?五款性能强悍蓝牙耳机推荐
  14. Java项目:在线购书商城系统(java+jsp+mysql+servlert+ajax)
  15. 数据结构学习之矩阵乘法与矩阵的转置
  16. 0宽字符隐藏文本加密及原理
  17. Spring学习笔记
  18. 图像相似的算法有哪些,图像相似的算法是什么
  19. dbm与功率之间简单换算
  20. API接口安全性设计

热门文章

  1. 累计销售[静态局部变量的使用]
  2. 华为mate 40 pro和mate 50 pro 的选购
  3. 枯木:天猫双11项目组织协同
  4. 正则表达式 数字大于0(包含小数点)
  5. C/C++ volite关键字
  6. CoreJava复习
  7. magicbook安装原厂华为定制deepin和win10双系统
  8. 基于链式存储结构图书信息表各项操作
  9. 万字长文分析AQS原理以及应用
  10. 【深度学习NLP】初识深度学习(DL)与自然语言(NLP)