深度学习计算模型中门函数的作用
上面是LSTM的计算公式,那三个Sigmoid作为非线性函数的就是三个门。LSTM是RNN模型,决定t时刻节点的除了当前x(t)外,还有t-1时刻的隐层节点输出h(t-1).这代表了历史信息对当前的影响,所以决定门开关程度的除了当前输入x(t)外,还有h(t-1)。
含义很清楚,输入门是用来控制输入i'(t)进出多少或者是否允许进出门的设备;输出门是用来控制t时刻状态值m(t)对外多少是可见的门设备。遗忘门是控制历史状态m(t-1)流动到t时刻后允许多少进入t时刻的门设备。
所以关键在LSTM的状态值更新函数和隐层节点输出值函数上。对于状态更新函数来说,
f(t)是遗忘门门控,m(t-1)是历史状态信息,两者相乘代表t时刻允许多少历史信息进入来决定m(t)当前状态,如果遗忘门取0值,则历史对当前状态无影响,如果遗忘门全开取1值,则历史信息原封不动的传到t时刻,没有任何信息损失,更大可能是取值为0到1,代表历史信息的部分流入。
i(t)是输入门门控,i'(t)是当前输入值,两者相乘代表t时刻允许多少历史信息进入来决定m(t)当前状态,如果输入门全关取值0,则LSTM忽略当前输入的影响,如果输入门全开取值1,则当前输入最大化地决定当前状态m(t),没有任何信息损失,当然更大可能取值是0到1之间,代表信息的部分流入。
经过两个门控制历史信息的影响以及当前当前输入的影响,就形成了t时刻的隐层节点状态值m(t),其实可以看到它本质跟RNN一样,无非是体现历史影响和当前输入的影响,但是相对RNN,通过门控来自适应地根据历史和输入来控制信息的流动,当然更主要的是通过抽离出的m存储往后传递方式来解决梯度弥散问题的。
隐层节点输出值h(t)好理解,就是说通过门控制当前状态m(t)对外多少是可见的,因为m(t)是内部隐藏的状态信息,除了往t+1时刻隐层传输外,外部其它地方是看不到的,但是他们可以看到h(t)。
这就是LSTM是如何用三个门控以及抽离出的m状态存储器来表达逻辑的思路
深度学习计算模型中门函数的作用相关推荐
- MXNET:深度学习计算-模型参数
我们将深入讲解模型参数的访问和初始化,以及如何在多个层之间共享同一份参数. 之前我们一直在使用默认的初始函数,net.initialize(). from mxnet import init, nd ...
- 【深度学习】深度学习中模型计算量(FLOPs)和参数量(Params)等的理解以及四种在python应用的计算方法总结
接下来要分别概述以下内容: 1 首先什么是参数量,什么是计算量 2 如何计算 参数量,如何统计 计算量 3 换算参数量,把他换算成我们常用的单位,比如:mb 4 对于各个经典网络,论述他们是计算量大还 ...
- 如何从系统层面优化深度学习计算?
编者按:在图像.语音识别.自然语言处理.强化学习等许多技术领域中,深度学习已经被证明是非常有效的,并且在某些问题上已经达到甚至超越了人类的水平.然而,深度学习对于计算能力有着很大的依赖,除了改变模型和 ...
- 手把手教你从系统层面优化深度学习计算
来源: 微软研究院AI头条 本文约5643字,建议阅读10分钟. 在图像.语音识别.自然语言处理.强化学习等许多技术领域中,深度学习是非常有效的,并且某些问题已经达到甚至超越了人类的水平.除了改变模型 ...
- 系统层面优化深度学习计算
百度首页 yuancsnuist 如何从系统层面优化深度学习计算? 搜狐科技05-1717:18 编者按:在图像.语音识别.自然语言处理.强化学习等许多技术领域中,深度学习已经被证明是非常有效的,并且 ...
- 深度学习计算框架综述(二)计算框架的组成与设计要点
本章主要介绍一个通用计算框架主要包含哪几个模块,以及这些模块的设计要点,建议大家阅读本章前,了解一下Protocol Buffer 以及 FlatBuffer 的概念及基本用法. 首先,我们先分析一下 ...
- 深度学习实战——模型推理优化(模型压缩与加速)
忆如完整项目/代码详见github:https://github.com/yiru1225(转载标明出处 勿白嫖 star for projects thanks) 目录 系列文章目录 一.实验思路综 ...
- 谷歌、阿里们的杀手锏:三大领域,十大深度学习CTR模型演化图谱
作者 | 王喆 来源 | 转载自知乎专栏王喆的机器学习笔记 今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望能帮大家梳理推荐系统.计算广告领域在深度学习方面的前 ...
- 谷歌、阿里们的杀手锏:3大领域,10大深度学习CTR模型演化图谱(附论文)
来源:知乎 作者:王喆 本文约4000字,建议阅读8分钟. 本文为你介绍近3年来的所有主流深度学习CTR模型. 今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望 ...
最新文章
- arraylist 后往前遍历_面试官:谈谈常用的Arraylist和Linkedlist的区别
- 原创 深度 技术:WatchStor焦点周刊创刊号
- boost::hana::default_用法的测试程序
- IDEA中多行注释及取消注释的快捷键分享
- 《穿越火线:枪战王者》手游客户端技术方案: 实时同步与手感优化
- mybatis学习(28):获取自增id方式二(在全局中配置setting选项)
- 如何读H.264的标准和代码
- 查看linux服务器的配置
- PyCharm 下提示 'no module named time'
- 黑苹果uhd630黑屏_UHD630核显驱动方法及驱动后闪屏严重问题解决记录
- JMX详解及JConsole使用
- 一个开源在线IDE项目
- ubuntu下使用笔记本摄像头
- w7电脑蓝屏怎么解决_电脑蓝屏怎么解决win7
- sqlsugar模糊查询
- 宏旺半导体为你解释手机内存不够用的原因
- 900 Sentences
- 安装ubuntu后必须做的事情(对我而言)
- 【CF940E】Cashback(单调队列dp)
- java毕业生设计学生公寓管理系统计算机源码+系统+mysql+调试部署+lw
热门文章
- mac 视频转文字工具
- 6个步骤教你用Python解数独!(含实例代码)
- 重磅!京东云自研第四代云主机发布;曝国外物理学家开发出用于量子计算机的汇编语言...
- Python数据分析与挖掘实战学习12
- 您需要来自administrator 的权限才能对此文件进行更改
- 安装eclipse c++版本neno
- Anaconda中Python版本更新
- iOS-Swift3富文本(UILable文本图文混排)
- 行走在数据库上的行癫(三)
- 指纹支付 java lang6_支付宝;超6成人使用指纹、刷脸支付,网友;喜欢用密码!...