Tree-Structured LSTM模型

2024-05-29 17:52:49

Tree-Structured LSTM模型

论文概要

由于能够保持按照时序的序列信息，LSTM(Long Short-Term Memory)网络在序列模型任务上能够有非常好的表现。但是该模型只能输入线型的序列，对于树型的输入(比如依赖树)无法很好的处理，由此，论文提出两种Tree-LSTM的模型，将LSTM拓展到树型的输入结构上，并在两个任务：预测语义相关性和语义分类任务上超过所有现存模型。

模型介绍和比较

大多数短语或句子的分布式表示分为三类：bag-of-words模型、sequence模型、tree-structured模型。词袋模型直接使用词汇的统计信息，没有考虑词汇的顺序，序列模型考虑的是序列结构，树型结构模型通过在给定句子的语法结构树上进行获取句子表示。

在标准的LSTM中，当前时刻的隐藏状态从当前时刻输入和上一时刻的状态得到，而对于Tree-LSTM，此刻的状态从该处的输入和任意数量的孩子单元的隐藏状态得到。传统的RNN的转换函数就是一个仿射变换接着一个tanh的激活函数：

但是，这种结构在序列比较长的时候会导致梯度爆炸或消失，对于长距离的信息很难进行传递。LSTM通过使用记忆单元来保存记忆信息，由此缓解了长距离的信息传递问题，标准的LSTM的转换方程如下：

前三个方程分别是产生“输入门”、“遗忘门”和“输出门”的方程，需要重点关注一下“遗忘门”，因为遗忘门涉及到标准的LSTM如何从上一时刻的信息中筛选出有用信息，对应于该论文的Tree-LSTM，就是涉及到父辈节点如何从孩子节点筛选出有用信息，显然，差别就在于后者可能有很多个孩子节点，需要筛选多个信息，而前者只需要筛选一个信息(就是上一时刻的信息)。

其中， $x_{t}$ 是在该时刻的输入， $\sigma$ 是sigmoid函数， $\odot$ 表示按元素乘法。基于标准的LSTM结构，还有两种LSTM的变体模型，双向LSTM和多层LSTM，双向LSTM使用两个LSTM单元分别顺序和逆序地对输入序列进行处理，每一时刻的输出就将两个LSTM单元的输出拼接起来，多层LSTM就是将多个LSTM单元叠起来，前一层的LSTM的输出作为后一层LSTM的输入，最后一层的输出作为模型的输出。

Tree-Structured LSTM模型

论文提出两个Tree-LSTM模型结构：Child-Sum Tree-LSTM模型和N-ary Tree-LSTM模型，两种模型都能够处理树型结构的输入。标准的LSTM含有输入门 $i_{j}$ 和输出门 $O_{j}$ ，记忆单元 $C_{j}$ 和隐藏状态 $h_{j}$ ，标准的LSTM和树型LSTM之间的区别在于门向量和记忆单元向量的更新要基于多个child units，前者只需要从上一时刻筛选出信息，而后者需要从多个孩子节点筛选出信息。

Child-Sum Tree-LSTMs

给定一个树，假设 $C(j)$ 表示节点 j 所有孩子节点集合，模型的转化方程为：

可以看出，第一个方程就是名副其实的Child-Sum，直接将所有孩子节点的隐藏状态求Sum，第三个方程就是和标准的LSTM不同， $f_{jk}$ 表示对于 j 节点的每一个孩子节点 k ，都会生成一个遗忘门，用于筛选对应孩子节点的信息。

由于该模型是直接将孩子节点的隐藏状态求和，因此，非常适合于分支因子比较大，或者孩子节点是无序的情况。

N-ary Tree-LSTMs

该模型适用于分支因子最大为 N 的情况，而且孩子节点有序，比如说，孩子节点可以被从1到N进行索引，对于节点 j,假设第k个孩子节点的隐藏状态和记忆单元分别为 $h_{jk}$ 和 $C_{jk}$ ，该模型的转换方程如下

模型设置

Tree-LSTM的分类模型

句子对的语义相关性

Tree-Structured LSTM模型相关推荐

【直播】陈安东，但扬：CNN模型搭建、训练以及LSTM模型思路详解
CNN模型搭建.训练以及LSTM模型思路详解目前 Datawhale第24期组队学习正在如火如荼的进行中.为了大家更好的学习"零基础入门语音识别(食物声音识别)"的课程设计者 ...
lstm需要优化的参数_通过Keras 构建基于 LSTM 模型的故事生成器
LSTM 网络工作示意图什么是 LSTM 网络? LSTM (Long Short Term Memory, 长短期神经网络)是一种特殊的循环神经网络(RNN, Recurrent neural n ...
使用Keras 构建基于 LSTM 模型的故事生成器
LSTM 网络工作示意图什么是 LSTM 网络? LSTM (Long Short Term Memory, 长短期神经网络)是一种特殊的循环神经网络(RNN, Recurrent neural n ...
如何判断LSTM模型的过度拟合和欠拟合——长短期记忆(LSTM)系列_LSTM的建模方法（3）
导读: 本文主要讲了一些模型中一个常见的问题,训练不足和过度拟合. 过度拟合指的是由于训练数据过少,或者对训练集训练的次数过多,导致模型的结果不是找到所有数据的一般共有特性,而是仅对训练数据进行了特征 ...
LSTM模型与前向反向传播算法
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达前言在循环神经网络(RNN)模型与前向反向传播算法中,我们总 ...
漂亮，LSTM模型结构的可视化
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达最近在学习LSTM应用在时间序列的预测上,但是遇到一个很大的问题就 ...
R使用LSTM模型构建深度学习文本分类模型（Quora Insincere Questions Classification）
R使用LSTM模型构建深度学习文本分类模型(Quora Insincere Questions Classification) Long Short Term 网络-- 一般就叫做 LSTM --是一 ...
LSTM模型（基于Keras框架）预测特定城市或者区域的太阳光照量实战
LSTM模型(基于Keras框架)预测特定城市或者区域的太阳光照量实战 LSTM在解决序列预测的问题时非常强大,因为它们能够存储之前的信息. LSTM是一种时间递归神经网络,它出现的原因是为了解决RN ...
文本分类实战（七）—— Adversarial LSTM模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

最新文章

热门文章