论文笔记整理:窦春柳,天津大学硕士,方向:自然语言处理


链接:https://arxiv.org/pdf/1503.00075.pdf

动机

由于长短期记忆网络(LSTM)这种具有复杂单元的循环神经网络具有良好的表示序列信息的能力,其在多种序列模型任务中都取得了非常好的结果。到目前为止一直被使用的LSTM是一个线性结构。然而,自然语言表现一种将单词组合在一起形成短语的句法结构。本文引入了Tree-LSTM,将LSTM推广到树状的网络拓扑结构。在两个任务的baseline上,Tree-LSTMs都要优于现有的系统:预测两个句子的语义相关性和情感分类。

亮点

本文的亮点主要包括:

(1)将LSTM推广到树状的网络拓扑结构,并且它展示出比序列LSTM更好的性能。标准LSTM可以看作是Tree-LSTM的一种特殊情况。

(2)利用实验验证了Tree-LSTM作为句子的表示模型,具有很好的效果。主要在两个任务上去评估Tree-LSTM结构:句子对间的语义相关性的预测以及来自于电影影评的句子情感分类。

概念及模型

本文提出了由基本LSTM扩展出的两种结构:Child-Sum Tree-LSTM和N-ary Tree-LSTM。这两个变种均允许更丰富的网络拓扑结构,其中每个LSTM单元能够联合来自多个子单元的信息。

  • Tree-LSTM单元

正如标准的LSTM单元那样,Tree-LSTM单元(由j标识)都包含输入输出门i_j, o_j,一个记忆单元 c_j,以及隐藏状态 h_j。其与标准LSTM单元的不同之处在于,门向量和记忆单元的更新依赖于许多子单元。另外,该单元并不只包含一个遗忘门,Tree-LSTM单元对每一个子单元均包含一个遗忘门 f_jk。这有助于Tree-LSTM单元有选择地联合来自于每一个子单元的信息。

每一个Tree-LSTM单元都有一个输入向量 x_j。在我们的应用当中,每一个 x_j 是一句话中一个单词的向量表示。每一个节点的输入单词依赖于当前网络的树结构。

  • Child-Sum Tree-LSTMs

给定一棵树,令 C(j) 为节点j的所有子节点的集合。Child-Sum Tree-LSTM的转移等式如下:

应用:Dependency Tree-LSTMs

由于Child-Sum Tree-LSTM单元根据子单元隐藏状态 h_k 的总和调整其组件,因此适用于具有多分支或其子节点无序的树。例如,它是依存树的一个很好的选择,其中头的依存数目可以是高度可变的我们将应用于依存树的Child-Sum Tree-LSTM称为Dependency Tree-LSTM。

  • N-ary Tree-LSTMs

N -ary Tree-LSTM可用于树结构,其中分支因子最多为N,并且子项是有序的,即它们可以从1到N索引。对于任何节点j,分别将其第k个孩子节点的隐藏状态和记忆细胞表示为 h_jk 和 c_jk。N -ary Tree-LSTM的转移等式如下:

为每个孩子k引入单独的参数矩阵允许N-Tree Tree-LSTM模型在单元上对孩子状态学习比Child Sum Tree-LSTM更细粒度。例如,考虑一个选区树应用程序,其中节点的左孩子节点对应于名词短语,右孩子节点对应动词短语。假设在这种情况下强调表示中的动词短语是有利的。

遗忘门参数化。在等式10中定义了第k个孩子的遗忘门 f_jk,其中包含了“非对角线”参数矩阵 U_kl^(f)。此参数化允许更灵活地控制从孩子到父节点的信息传播。例如,这允许二叉树中的左隐藏状态对右孩子的遗忘门具有兴奋或抑制效果。但是,对于较大的N值,这些附加参数是不切实际的,可以绑定或固定为零。

应用:Constituency Tree-LSTMs

我们可以自然地将Binary Tree-LSTM单元应用于二值化选区树,因为区分了左右子节点。我们将Binary Tree-LSTM的这种应用称为Constituency Tree-LSTM。注意,在选区树-LSTM中,节点j仅在它是叶节点时才接收输入向量。

  • 模型

现在描述两个应用是上面描述的Tree-LSTM架构的特定模型。

1.Tree-LSTM分类

在此背景中,我们希望从树的一些子节点的离散类Y中预测标签。例如,解析树中节点的标签可以对应于该节点所跨越的短语的某些属性。

在每个节点j,我们使用softmax分类器来预测标签,给定在以j为根的子树中的节点处观察到的输入 {x}_j。分类器将节点处的隐藏状态 h_j 作为输入:

代价函数是每个标记节点上正确类标签 y^(k) 的负对数似然:

其中m是训练集中标记节点的数量,上标k表示第k个标记节点,λ是L2正则化超参数。

2.句子对的语义相关性

给定句子对,我们希望预测[1,K]在某个范围内的实值相似度得分,其中是K>1整数。序列{1,2,...,K}是一些序数相似度,其中较高的分数表示较高的相似度。首先使用每个句子的解析树上的Tree-LSTM模型为对每个句子生成句子表示 h_L 和 h_R。给定这些句子表示,使用神经网络预测的相似性得分,该神经网络同时考虑(h_L, h_R) 对之间的距离和角度:

其中 r^T = [1,2,3...K]。使用距离测量 h_x和 h_+ 是出于经验:发现组合优于单独使用任何一种测量。乘法度量 h_x 可以解释为输入表示符号的元素比较。

本文希望给定模型参数 Theta 的预测分布下的预期评级接近评级 。因此,定义了满足 y=r^T p 的系数目标分布:

代价函数是p和 之间正则化的KL-发散:

其中m是训练对的数量,上标k表示第k个句子对。

理论分析

实验

1.Sentiment Classification

数据集采用Stanford Sentiment Treebank(SST),任务主要是二分类和fine-grained(五分类)。结果如下图所示:

结果分析:在fine-grained的task上,作者提出的 Constituency Tree-LSTM 获得了最好的效果,Glove vectors,tuned指使用Glove词向量初始化embedding,在训练过程中不断更新embedding;在二分类上,达到了SOA的结果,但是并没有实现指标上的超越。

Constituency Tree-LSTM比Dependency Tree-LSTM表现好的原因可能在于前者使用了更多的labeled 数据,因为仅从二者树结构对比来说,前者会比后者产生更多的nodes(319K vs 150K).

2.   Semantic Relatedness

数据集采用Sentences Involving Compositional Knowledge (SICK),评价指标包括Pearson系数,Spearman相关系数和MSE。结果如下图所示:

结果分析:作者在这个数据集上分别跟non-LSTM模型、RNN模型、LSTM模型做了对比,均实现了指标上的超越。

总结

本文引入了Tree-LSTM,将LSTM推广到树状的网络拓扑结构。通过在两个任务证明了Tree-LSTM的有效性:语义相关性和情感分类,两者均优于现有系统。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 从树结构的长短期记忆网络改进语义表示相关推荐

  1. 论文浅尝 | CoRR - 面向复杂知识问答的框架语义解析方法

    论文笔记整理:谭亦鸣,东南大学博士. 来源:CoRR abs/2003.13956 (2020) 链接:https://arxiv.org/pdf/2003.13956.pdf KBQA任务中的语义解 ...

  2. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  3. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  4. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  5. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

  6. 论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码

    本文内容源自往期「论文浅尝」,由 PaperWeekly 精选并重新排版整理,感谢 PaperWeekly. ISWC 2018 ■ 链接 | http://www.paperweekly.site/ ...

  7. 论文解读:《一种基于长短期记忆网络深度学习的药物靶相互作用预测方法》

    论文解读:<A deep learning-based method for drug-target interaction prediction based on long short-ter ...

  8. ###好好好#######论文浅尝 | 基于图注意力的常识对话生成

    论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...

  9. 长短期记忆网络_科研成果快报第181期:改进的长短期记忆网络用于长江上游干支流径流预测...

    改进的长短期记忆网络用于长江上游干支流径流预测 An improved Long Short-Term Memory Network for Streamflow Forecasting in the ...

最新文章

  1. 启动 ServiceFabric Windows服务报1053
  2. Eclipse UML插件AmaterasUML的配置及使用
  3. 开发板通过NTS挂载在PC机中的文件夹
  4. fpga初始化错误_一种SRAM型FPGA单粒子效应加固平台设计
  5. 适配器模式(类适配器)
  6. php中 和 的优先级,理解php中的运算符优先级
  7. 这也能发Nature??年度奇葩论文大赏
  8. nginx高性能web服务器详解_Nginx服务器高性能优化轻松实现10万并发访问量
  9. rhel6 dhcp dns配置小贴士
  10. codevs 1683 车厢重组
  11. 机器学习实现计算不规则图形面积_【名师课堂】苏教数学五年级上2.11校园绿地面积...
  12. Springboot URL Rewrite
  13. Hyperledger Fabric(1) - 整体架构和源码结构
  14. 面试算法 香槟塔 ,算法:暴力算法
  15. 系统流程图、数据流程图、IPO图 和甘特图
  16. Sublime Text:选择变量的所有实例并编辑变量名称
  17. 使用MOG2对运动物体进行检测
  18. android 无法播放mp4视频,Android VideoView无法播放视频错误,特别是.mp4
  19. 访问网址 token的格式_一文彻底搞懂Cookie、Session、Token到底是什么
  20. 语法转换_近五年高考语法填空词性转换汇总(含答案)

热门文章

  1. 服务器开发中网络数据分析与故障排查经验漫谈
  2. 【漫画】25岁程序员 VS 35岁程序员,塑造自己的不可替代性,才能让自己更有价值 ​...
  3. 我们应该这样理解鸿蒙
  4. c语言找出最大值和最小值并按降序排输出,大学一年级下学期C语言程序设计实验报告答案 完整版...
  5. Python3 —— 逗号分隔值CSV
  6. C++ —— C++程序编译的四个过程
  7. VS2010创建ATL工程及使用C++测试COM组件
  8. java 原子类_小学妹教你并发编程的三大特性:原子性、可见性、有序性
  9. java agent 监控tomcat_promethues监控tomcat
  10. nts包如何下周 php_windows下PHP7安装方法(ts版和nts版)