背景:在我之前的一篇博客中说了一下对RNN的理解,RNN对于长句子表示的不是很好,超过六七层的网络之后就很难获得之前内容的信息了,目前的框架是基于梯度的,多层网络很容易出现梯度弥散的情况。但是对于NLP任务中,输入序列长度会很长,基本的RNN网络就不太适合处理这些任务了。于是大牛们Hochreiter & Schmidhuber [1]就提出了LSTM网络,让处理长序列也变得可能。

原理:LSTM的详细原理和各个cell的作用详细参考colah's blog[2],这篇博客讲的很清楚,下图也是出自这篇博客中。

图1 RNN网络

图2 LSTMs

总结:LSTMs通过三个门,忘记门,输入门,输出门,四个神经网络,控制着信息的保留和传输,它相比起RNN能够将需要保留的信息直接传到下一层,从而解决了长依赖的问题。LSTM中四个网络的神经元个数是一样的,假如都是128个,那么输出维度和上下文的维度也是128,假如Xt的维度是64维,现在需要看看四个神经网络的输入都是128+64维,四个神经网络的大小都是(128+64)* 128。现在看看另外一个问题,就是sigmoid和tanh网络,所有的门控制网络都是sigmoid,这是因为sigmoid函数输出是(0,1),为0就表示完全没有影响,为1表示影响最大;tanh网络和RNN网络相同,是个标准的神经网络。在输出之前有个tanh操作,它的目的是保证值在-1到1之间,因为之前的忘记操作和输入操作会让值不在-1到1之间。

参考:

[1] http://www.bioinf.jku.at/publications/older/2604.pdf

[2]http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Long Short Term Memory networks(LSTMs)相关推荐

  1. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths

    Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths 概述 论文提出了一种 ...

  2. 理解LSTMs (Long Short Term Memory Networks)

    Understanding LSTMs Model 本文主要参考了大神 Christopher Olah,关于LSTMs论述的博客(Ref[1]),同时加入了自己的理解,最终得以形成了这篇博文. 在读 ...

  3. 有哪些LSTM(Long Short Term Memory)和RNN(Recurrent)网络的教程?

    知乎用户,阿里巴巴数据应用部门长期招聘「算法,分- 500 人赞同 刚好毕设相关,论文写完顺手就答了 先给出一个最快的了解+上手的教程: 直接看theano官网的LSTM教程+代码:LSTM Netw ...

  4. 递归神经网络变形之 (Long Short Term Memory,LSTM)

    1.长短期记忆网络LSTM简介 在RNN 计算中,讲到对于传统RNN水平方向进行长时刻序列依赖时可能会出现梯度消失或者梯度爆炸的问题.LSTM 特别适合解决这种需要长时间依赖的问题. LSTM(Lon ...

  5. LSTM(long short term memory)长短期记忆网络

    bags of word(WOE) 它的基本思想是假定对于一个文本,忽略其词序和语法.句法,仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的 循环神经网络(recurrent neural ...

  6. 详细讲解RNN+LSTM+Tree_LSTM(Tree-Long Short Term Memory)基于树状长短期记忆网络

    14天阅读挑战赛 详细讲解RNN+LSTM+Tree_LSTM(Tree-Long Short Term Memory)基于树状长短期记忆网络 一.RNN 要讲解Tree_LSTM,这必须得从RNN开 ...

  7. Stanford NLP 第六课: Long Short Term Memory

    RNN存在着梯度消失的问题, 难以学习长期的依赖关系.如何解决RNN的梯度消失问题? Long  Short Term Memory (LSTM) 就是解决这个问题的. 上图是LSTM的一个整体结构. ...

  8. 简单聊聊Long Short Term Memory Network (LSTM)和 Gated Recurrent Unit (GRU)两种强大的RNN变体

    上一篇关于RNN的文章最后,我们提到过由于梯度消失和梯度爆炸问题,使得RNN很难处理长距离的依赖.本文我们介绍两种改进后的RNN:LSTM(Long Short Term Memory Network ...

  9. 3_Long Short Term Memory (LSTM)

    文章目录 一.LSTM核心思想 1.1 Conveyor Belt(传输带) 二.LSTM分布指南 2.1 Forget Gate(遗忘门) 2.2 Input Gate(输入门) 2.3 New v ...

最新文章

  1. 重磅直播|基于格雷码结合相移技术的高鲁棒性高效率动态三维面形测量
  2. 第1章、蓄势待发准备篇
  3. Android加速度传感器实现“摇一摇”,带手机振动
  4. java绑定变量怎么加_在JAVA 源程序中编写SQL语句时使用ORACLE 绑定变量
  5. javascript --- 原生的拖拽功能实现
  6. springboot ---坑 tomcat部署springboot 一直运行不起来
  7. MachineLearning(4)-核函数与再生核希尔伯特空间
  8. react native笔记-个人记录-初始化工程遇到的问题
  9. mysql数据库模型相应解释_数据库事务系列-MySQL跨行事务模型
  10. 使用EntityFramework Core和Enums作为字符串的ASP.NET Core Razor页面——第四部分
  11. 做海外市场,如何在Facebook20多亿用户中分一杯羹?
  12. 机器视觉:锡膏印刷质量3D检测光学系统
  13. c# 基于layui的通用后台管理系统_简单通用的Java后台管理系统
  14. IIS连接oralce数据提示“System.Data.OracleClient 需要 Oracle 客户端软件 8.1.7 或更高版本”...
  15. 操作文件读写JSON的建议工具类
  16. 《数据挖掘概念与技术》第三版 范明 孟小峰译 课后习题答案(一)
  17. 数据集成-2-xml
  18. word公式居中 编号右对齐(制表位) - 公式自动编号(题注)- 公式交叉引用 - word无法粘贴
  19. 蚂蚁金服11.11:支付宝和蚂蚁花呗的技术架构及实践读后感
  20. jQuery选择器代码详解(一)——Sizzle方法

热门文章

  1. Mybatis-Plus用纯注解完成一对多多对多查询
  2. mysql级联删除_每天学一点学点MySQL数据库之第二节
  3. mysql 1代表true(MySQL数据类型详解)
  4. 百度Ai实现网络图片文字识别--Java
  5. 从秋香,芳娜到不嫁国人的女大学生
  6. 【M语言编程学习笔记之一, 查找当前路径下文件】
  7. 2、深度剖析ConcurrentHashMap
  8. 抖音3d相册html代码,抖音3D立体相册表白代码.doc
  9. 机器人导航学习历程(一)简介
  10. 【算法】Catalan数