Tree-Structured LSTM模型

论文概要

由于能够保持按照时序的序列信息,LSTM(Long Short-Term Memory)网络在序列模型任务上能够有非常好的表现。但是该模型只能输入线型的序列,对于树型的输入(比如依赖树)无法很好的处理,由此,论文提出两种Tree-LSTM的模型,将LSTM拓展到树型的输入结构上,并在两个任务:预测语义相关性和语义分类任务上超过所有现存模型。

模型介绍和比较

大多数短语或句子的分布式表示分为三类:bag-of-words模型、sequence模型、tree-structured模型。词袋模型直接使用词汇的统计信息,没有考虑词汇的顺序,序列模型考虑的是序列结构,树型结构模型通过在给定句子的语法结构树上进行获取句子表示

在标准的LSTM中,当前时刻的隐藏状态从当前时刻输入和上一时刻的状态得到,而对于Tree-LSTM,此刻的状态从该处的输入和任意数量的孩子单元的隐藏状态得到。传统的RNN的转换函数就是一个仿射变换接着一个tanh的激活函数:

但是,这种结构在序列比较长的时候会导致梯度爆炸或消失,对于长距离的信息很难进行传递。LSTM通过使用记忆单元来保存记忆信息,由此缓解了长距离的信息传递问题,标准的LSTM的转换方程如下:

前三个方程分别是产生“输入门”、“遗忘门”和“输出门”的方程,需要重点关注一下“遗忘门”,因为遗忘门涉及到标准的LSTM如何从上一时刻的信息中筛选出有用信息,对应于该论文的Tree-LSTM,就是涉及到父辈节点如何从孩子节点筛选出有用信息,显然,差别就在于后者可能有很多个孩子节点,需要筛选多个信息,而前者只需要筛选一个信息(就是上一时刻的信息)。

其中,  是在该时刻的输入,   是sigmoid函数,   表示按元素乘法。基于标准的LSTM结构,还有两种LSTM的变体模型,双向LSTM和多层LSTM,双向LSTM使用两个LSTM单元分别顺序和逆序地对输入序列进行处理,每一时刻的输出就将两个LSTM单元的输出拼接起来,多层LSTM就是将多个LSTM单元叠起来,前一层的LSTM的输出作为后一层LSTM的输入,最后一层的输出作为模型的输出。

Tree-Structured LSTM模型

论文提出两个Tree-LSTM模型结构:Child-Sum Tree-LSTM模型和N-ary Tree-LSTM模型,两种模型都能够处理树型结构的输入。标准的LSTM含有输入门 和输出门 ,记忆单元 和隐藏状态 标准的LSTM和树型LSTM之间的区别在于门向量和记忆单元向量的更新要基于多个child units,前者只需要从上一时刻筛选出信息,而后者需要从多个孩子节点筛选出信息

Child-Sum Tree-LSTMs

给定一个树,假设  表示节点 j 所有孩子节点集合,模型的转化方程为:

可以看出,第一个方程就是名副其实的Child-Sum,直接将所有孩子节点的隐藏状态求Sum,第三个方程就是和标准的LSTM不同, 表示对于 j 节点的每一个孩子节点 k ,都会生成一个遗忘门,用于筛选对应孩子节点的信息

由于该模型是直接将孩子节点的隐藏状态求和,因此,非常适合于分支因子比较大,或者孩子节点是无序的情况。

N-ary Tree-LSTMs

该模型适用于分支因子最大为 N 的情况,而且孩子节点有序,比如说,孩子节点可以被从1到N进行索引,对于节点 j,假设第k个孩子节点的隐藏状态和记忆单元分别为,该模型的转换方程如下

模型设置

Tree-LSTM的分类模型

句子对的语义相关性

Tree-Structured LSTM模型相关推荐

  1. 【直播】陈安东,但扬:CNN模型搭建、训练以及LSTM模型思路详解

    CNN模型搭建.训练以及LSTM模型思路详解 目前 Datawhale第24期组队学习 正在如火如荼的进行中.为了大家更好的学习"零基础入门语音识别(食物声音识别)"的课程设计者 ...

  2. lstm需要优化的参数_通过Keras 构建基于 LSTM 模型的故事生成器

    LSTM 网络工作示意图 什么是 LSTM 网络? LSTM (Long Short Term Memory, 长短期神经网络)是一种特殊的循环神经网络(RNN, Recurrent neural n ...

  3. 使用Keras 构建基于 LSTM 模型的故事生成器

    LSTM 网络工作示意图 什么是 LSTM 网络? LSTM (Long Short Term Memory, 长短期神经网络)是一种特殊的循环神经网络(RNN, Recurrent neural n ...

  4. 如何判断LSTM模型的过度拟合和欠拟合——长短期记忆(LSTM)系列_LSTM的建模方法(3)

    导读: 本文主要讲了一些模型中一个常见的问题,训练不足和过度拟合. 过度拟合指的是由于训练数据过少,或者对训练集训练的次数过多,导致模型的结果不是找到所有数据的一般共有特性,而是仅对训练数据进行了特征 ...

  5. LSTM模型与前向反向传播算法

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 前  言 在循环神经网络(RNN)模型与前向反向传播算法中,我们总 ...

  6. 漂亮,LSTM模型结构的可视化

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 最近在学习LSTM应用在时间序列的预测上,但是遇到一个很大的问题就 ...

  7. R使用LSTM模型构建深度学习文本分类模型(Quora Insincere Questions Classification)

    R使用LSTM模型构建深度学习文本分类模型(Quora Insincere Questions Classification) Long Short Term 网络-- 一般就叫做 LSTM --是一 ...

  8. LSTM模型(基于Keras框架)预测特定城市或者区域的太阳光照量实战

    LSTM模型(基于Keras框架)预测特定城市或者区域的太阳光照量实战 LSTM在解决序列预测的问题时非常强大,因为它们能够存储之前的信息. LSTM是一种时间递归神经网络,它出现的原因是为了解决RN ...

  9. 文本分类实战(七)—— Adversarial LSTM模型

    1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

最新文章

  1. android游戏加载,Android 游戏引擎libgdx 资源加载进度百分比显示案例分析
  2. java test 用法_Java的testcase用法
  3. mysqldumper 与 Innobackupex的备份和恢复操作实验过程
  4. 11座城市,58个.NET最新岗位速览,内推直通面试官!
  5. java学习文档_资深程序员带你深入了解JAVA知识点,实战篇,PDF文档
  6. Web Service学习总结
  7. 我的AndroidManifest
  8. VC++6.0 单步调试
  9. tgp饥荒 服务器无响应,饥荒TGP版常见运行问题有哪些_TGP版礼包领取及邀请添加好友方法详解_快吧单机游戏...
  10. 不显示负频率的部分,坐标轴转换为频率,幅值量纲还原改善频谱图以及功率谱和对数功率谱
  11. 30多个Java实战项目,全部在这里了。
  12. 成都天府机场附近哪里停车便宜,成都天府机场停车攻略
  13. win10计算机上的策略禁止用户安装,win10电脑安装摄像头驱动时提示策略禁止安装此设备的解决教程...
  14. 用QuickCHM v2.6 制作帮助文档
  15. airpods有一只耳机冒红光_AirPods单只耳机连接不上、充不上电、闪灯等问题解决方式...
  16. android 正三角,倒三角的实现代码
  17. 长沙银河计算机中等职业学校图片,长沙银河中等职业学校
  18. android微信照片,一张能让安卓版微信崩溃的图片
  19. 算法可以用不同的语言描述如果用c语言,【判断题】算法可以用不同的语言描述,如果用C 语言或PASCAL语言等高级语言来描述,则算法实际上就是程序了。...
  20. Facebook名人软件Mentions有了Android版本

热门文章

  1. 百万美元技术大奖,雷军颁给了秒充和隐私保护技术团队
  2. 曝光!十万开发者喜爱的顶级当红讲师
  3. Python正则表达式,看这一篇就够了
  4. 20万个法人、百万条银行账户信息,正在暗网兜售
  5. 清华AI学堂班:姚期智担任首席教授,2019年首批招收30人
  6. 68款大规模机器学习数据集,涵盖CV、语音、NLP | 十年资源集
  7. 专访中国移动钱岭:大数据更像是一种“倍增器”
  8. 2019秋招AI岗位竞争究竟有多激烈?
  9. AI一分钟|特斯拉股价收跌近 5%,私有化引发市场疑虑;三星发布智能音箱Galaxy Home...
  10. 比起商汤IPO,我们更关心那1亿美金和C轮融资的背后大料