上面是LSTM的计算公式,那三个Sigmoid作为非线性函数的就是三个门。LSTM是RNN模型,决定t时刻节点的除了当前x(t)外,还有t-1时刻的隐层节点输出h(t-1).这代表了历史信息对当前的影响,所以决定门开关程度的除了当前输入x(t)外,还有h(t-1)。

含义很清楚,输入门是用来控制输入i'(t)进出多少或者是否允许进出门的设备;输出门是用来控制t时刻状态值m(t)对外多少是可见的门设备。遗忘门是控制历史状态m(t-1)流动到t时刻后允许多少进入t时刻的门设备。

所以关键在LSTM的状态值更新函数和隐层节点输出值函数上。对于状态更新函数来说,

f(t)是遗忘门门控,m(t-1)是历史状态信息,两者相乘代表t时刻允许多少历史信息进入来决定m(t)当前状态,如果遗忘门取0值,则历史对当前状态无影响,如果遗忘门全开取1值,则历史信息原封不动的传到t时刻,没有任何信息损失,更大可能是取值为0到1,代表历史信息的部分流入。

i(t)是输入门门控,i'(t)是当前输入值,两者相乘代表t时刻允许多少历史信息进入来决定m(t)当前状态,如果输入门全关取值0,则LSTM忽略当前输入的影响,如果输入门全开取值1,则当前输入最大化地决定当前状态m(t),没有任何信息损失,当然更大可能取值是0到1之间,代表信息的部分流入。

经过两个门控制历史信息的影响以及当前当前输入的影响,就形成了t时刻的隐层节点状态值m(t),其实可以看到它本质跟RNN一样,无非是体现历史影响和当前输入的影响,但是相对RNN,通过门控来自适应地根据历史和输入来控制信息的流动,当然更主要的是通过抽离出的m存储往后传递方式来解决梯度弥散问题的

隐层节点输出值h(t)好理解,就是说通过门控制当前状态m(t)对外多少是可见的,因为m(t)是内部隐藏的状态信息,除了往t+1时刻隐层传输外,外部其它地方是看不到的,但是他们可以看到h(t)。

这就是LSTM是如何用三个门控以及抽离出的m状态存储器来表达逻辑的思路

深度学习计算模型中门函数的作用相关推荐

  1. MXNET:深度学习计算-模型参数

    我们将深入讲解模型参数的访问和初始化,以及如何在多个层之间共享同一份参数. 之前我们一直在使用默认的初始函数,net.initialize(). from mxnet import init, nd ...

  2. 【深度学习】深度学习中模型计算量(FLOPs)和参数量(Params)等的理解以及四种在python应用的计算方法总结

    接下来要分别概述以下内容: 1 首先什么是参数量,什么是计算量 2 如何计算 参数量,如何统计 计算量 3 换算参数量,把他换算成我们常用的单位,比如:mb 4 对于各个经典网络,论述他们是计算量大还 ...

  3. 如何从系统层面优化深度学习计算?

    编者按:在图像.语音识别.自然语言处理.强化学习等许多技术领域中,深度学习已经被证明是非常有效的,并且在某些问题上已经达到甚至超越了人类的水平.然而,深度学习对于计算能力有着很大的依赖,除了改变模型和 ...

  4. 手把手教你从系统层面优化深度学习计算

    来源: 微软研究院AI头条 本文约5643字,建议阅读10分钟. 在图像.语音识别.自然语言处理.强化学习等许多技术领域中,深度学习是非常有效的,并且某些问题已经达到甚至超越了人类的水平.除了改变模型 ...

  5. 系统层面优化深度学习计算

    百度首页 yuancsnuist 如何从系统层面优化深度学习计算? 搜狐科技05-1717:18 编者按:在图像.语音识别.自然语言处理.强化学习等许多技术领域中,深度学习已经被证明是非常有效的,并且 ...

  6. 深度学习计算框架综述(二)计算框架的组成与设计要点

    本章主要介绍一个通用计算框架主要包含哪几个模块,以及这些模块的设计要点,建议大家阅读本章前,了解一下Protocol Buffer 以及 FlatBuffer 的概念及基本用法. 首先,我们先分析一下 ...

  7. 深度学习实战——模型推理优化(模型压缩与加速)

    忆如完整项目/代码详见github:https://github.com/yiru1225(转载标明出处 勿白嫖 star for projects thanks) 目录 系列文章目录 一.实验思路综 ...

  8. 谷歌、阿里们的杀手锏:三大领域,十大深度学习CTR模型演化图谱

    作者 | 王喆 来源 | 转载自知乎专栏王喆的机器学习笔记 今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望能帮大家梳理推荐系统.计算广告领域在深度学习方面的前 ...

  9. 谷歌、阿里们的杀手锏:3大领域,10大深度学习CTR模型演化图谱(附论文)

    来源:知乎 作者:王喆 本文约4000字,建议阅读8分钟. 本文为你介绍近3年来的所有主流深度学习CTR模型. 今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望 ...

最新文章

  1. arraylist 后往前遍历_面试官:谈谈常用的Arraylist和Linkedlist的区别
  2. 原创 深度 技术:WatchStor焦点周刊创刊号
  3. boost::hana::default_用法的测试程序
  4. IDEA中多行注释及取消注释的快捷键分享
  5. 《穿越火线:枪战王者》手游客户端技术方案: 实时同步与手感优化
  6. mybatis学习(28):获取自增id方式二(在全局中配置setting选项)
  7. 如何读H.264的标准和代码
  8. 查看linux服务器的配置
  9. PyCharm 下提示 'no module named time'
  10. 黑苹果uhd630黑屏_UHD630核显驱动方法及驱动后闪屏严重问题解决记录
  11. JMX详解及JConsole使用
  12. 一个开源在线IDE项目
  13. ubuntu下使用笔记本摄像头
  14. w7电脑蓝屏怎么解决_电脑蓝屏怎么解决win7
  15. sqlsugar模糊查询
  16. 宏旺半导体为你解释手机内存不够用的原因
  17. 900 Sentences
  18. 安装ubuntu后必须做的事情(对我而言)
  19. 【CF940E】Cashback(单调队列dp)
  20. java毕业生设计学生公寓管理系统计算机源码+系统+mysql+调试部署+lw

热门文章

  1. mac 视频转文字工具
  2. 6个步骤教你用Python解数独!(含实例代码)
  3. 重磅!京东云自研第四代云主机发布;曝国外物理学家开发出用于量子计算机的汇编语言...
  4. Python数据分析与挖掘实战学习12
  5. 您需要来自administrator 的权限才能对此文件进行更改
  6. 安装eclipse c++版本neno
  7. Anaconda中Python版本更新
  8. iOS-Swift3富文本(UILable文本图文混排)
  9. 行走在数据库上的行癫(三)
  10. 指纹支付 java lang6_支付宝;超6成人使用指纹、刷脸支付,网友;喜欢用密码!...