写在前面

Attention mechanism 作为一种模型效果提升的方法,再很多领域都有应用,这篇论文也算是学习 Attention mechanism的经典论文之一,文中提出了一种 Attention based 的神经网络模型,用于文本蕴含推理,并取得state-of-art 的结果(当时)。

文中最主要的模型是建立 word-by-word Attention 模型,与之做对比的还有几个模型,像基础的 LSTM 模型以及更深一步的双向Attention 等等,具体来说,就是这四个模型(当然提到了不止这四种,也可以理解更多个,像LSTM那部分就可以拆开来看,不过大部分是背景板。。问题不大):

  • 第一个模型实际上就是之前常见的文本蕴含推理的方式,首先使用一个 LSTM 处理 premise,然后将 最后的状态作为第二个 LSTM 的输入,然后处理 hypothesis ,最后输出的向量作为分类的依据这在文中 2.1,2。2节介绍。
  • 第二个模型是加入Attention 的模型,这里的 Attention 建立在整个文本层面,在2.3节中介绍。
  • 第三个是文中主要的模型,也是最后证明效果最好的模型,我理解是逐字注意力机制模型,在2.4节中介绍。
  • 最后是第三个模型的改版,只是改成了双向的 Attention,但是实验中证明这样做反而结果下降了,在2.5节中介绍。

个人觉得这篇论文最好的一部分是实验环节,从实验部分可以看到很多设计对比试验的很多tricks,像应该从什么角度挑选有说服力的例子等等。

以下为个人理解和总结,欢迎指正~

1. Abstract & Introduction

按照惯例,这一部分对全文的工作做了一个基本的概括。论文中提到,自动的文本蕴含识别一直以来都是依靠手工特征工程,端到端的神经网络模型在这一问题上都失败了,论文提出了一种基于LSTM的神经网络模型,同时处理两个句子来判断它们之间的蕴含关系,并且使用了 Attention machanism 来改进模型。

在 Introduction 部分,对文本蕴含识别(Recognizing textual entailment, RTE)任务作了介绍,对于两个文本,这种蕴含关系判断实际上就是判断三种关系:

  • Neutral (不相关)
  • Contradiction(矛盾)
  • Entailment (蕴含)

并且这一任务在很多NLP任务中都有应用(例如信息提取,关系提取,机器翻译,文本自动摘要等等)

此外,这一部分还提到了关于这一任务的一个重要因素:数据集质量,SNLI数据集的质量相较之前提高了很多,这也是文中模型效果更好地一个原因。

这一部分最后提到了论文的三个贡献:

  • 提出了一个基于LSTM的模型来处理文本蕴含任务
  • 使用 word-by-word 的 Attention mechanism 来改进模型
  • 详细定性分析了实验结果

2. Methods

这部分实际上划分了四个模型,开始部分介绍了 LSTM单元的计算过程,然后接下来是四种模型分别介绍,四种结构都在图中展示,也就是文中 Figure 1:

2.2 RTE with LSTMs

这一部分介绍了如何使用 LSTM 构建RTE任务的神经网络模型,这里提到,之前的模型都是分别建立两个文本的稠密向量表示(encding the premise and hypothesis as dense vectors, 我们在很多论文中都会看到 premise 和 hypothesis,这只是两个文本的惯称,就像输入输出一样),然后将这两个向量做一个 concatenate , 然后输入到一个 MLP 网络中,然后通过这个网络进行分类。总之,这个过程就是先得到两个文本的表示向量,然后再进行分类任务。再之后的改进就是不单独处理两个文本,而是像一个序列一样处理,也就是第一个模型,先处理 premise, 然后最后一个隐状态作为第二部分的输入状态,这样最后输出的向量作为分类依据。

关于这个模型,有几点说明:

  • 图中实际上有两个 LSTM 结构,C1-C5 是第一个 LSTM, C6-C9 是第二个
  • 第一个 LSTM 结构处理完 premise 之后,最后的隐状态直接作为第二个 LSTM 结构的初始隐状态
  • 使用的词向量为 word2vec,在训练过程中不进行调整,这里不进行调整的原因在文中做了解释,这样处理是为了在 inference 的时候,如果出现OOV,但是在 word2vec 词表存在的单词,仍然能保持近似(这里有点绕,其实就像是一视同仁,公平对待一样)
  • 对于 OOV(out of vocabulary)的单词,采用随机初始化的方法

最后,这个结构输出的是一个联合表示 premise 和 hypothesis 的向量,然后使用一个 softmax 层对输出结果进行分类。

2.3 Attention

这一小节介绍了第一种应用 Attention mechanism 的模型,也就是第二个模型,因为最终的目标是判断两个句子之间的关系,并不像机器翻译中要生成一个个单词, 所以实际上这里是对 hypothesis整体 与之前 premise 建立注意力机制(这个地方有点绕:类比机器翻译,假设我们的 hypothesis 有三个词(ABC),那么我们会 A-premise, B-premise, C-premise分别建立注意力,但是这里,我们相当于不对hypothesis逐个单词与premise建立注意力,实际上,文中后面会提到,就是使用 hypothesis 最后一个状态与 premise 建立注意力,注意图中 B 表示的就是这个模型,B指向的箭头也就是 hypothesis 的最后一个状态)

2.4 word-by-word attention

这里介绍第三个模型结构,实际上是打破了上面第二个模型的只使用 hypothesis 最后一个状态与 premise 建立注意力的规则,这个模型实际上就与机器翻译中使用的注意力一致了,也就是对于 premise 和 hypothesis 的每个单词都建立注意力,看图中 C,也就是展示了这个过程,主要是上面的连线,把他们想想成有箭头单项(从hypothesis 方向指向 premise)也就是 word-by-word 的来历了。具体可以参考公式计算。

2.5 two-way attention

这里在文中提到, 来源于 BiLSTM 的想法,也就是相当于两个方向上建立注意力, 首先是 hypothesis 中每个单词对 premise 建立注意力,然后反过来,premise 中每个单词对 hypothesis 建立,所以称为 “two-way”,但是后面会看到,实验证明这种方式效果并不好。

Experiments

首先第一部分介绍了 SNLI 数据集的一些基本情况,这个数据集相对于之前的数据集无论是数量级还是质量都有了提升,此外这一部分还介绍了论文模型所采用的优化算法以及一些参数设置。

Result and Discussion

这一章有两部分内容,首先对四种模型的实验结果做了介绍,或者可以说是定量分析,第二部分是定性分析,这也就是之前文中提到的本文贡献之三。

定量分析

首先是对各种模型的实验结果的简要分析,就是文中的 Table 1:

在开始的介绍中可以学到一些设计对比实验的技巧吧算是,比如作者在文中强调了实验参数量保持一致等等,就比如第一个LSTM模型是随着数据集的模型,算是一个基准模型,它的参数量是 10M, 相比之下其他的模型都要少很多,主要是这个模型在训练过程中会对词向量也进行微调(fine-tuning),后面会提到,实际上对词向量微调反而会使模型效果下降,第二个 Classifer 是一个从特征工程角度的模型,总之,第一行的两个模型是背景板。

再来看第二行中的三个模型,这对应于文中加重的 LSTM 部分,其中 ‘shared’ 的模型是指使用一个 LSTM 处理 premise 和 hypothesis ,也就是参数共享?,最后一个 LSTMs 则是两个 LSTM 分别处理 premise 和 hypothesis, 这三个模型除了结构上不同,还有就是 K ,也就是隐层神经元的数量不同,可以看到效果显然比背景板的两个模型要好,这里要提一下背景板的 LSTM 模型是分别对 premise 和 hypothesis 进行encode,然后再进行之后的处理,而下面的三个模型都是两个文本一块处理,文中给出的原因是,不分别进行处理的话,是的一个文本的信息可以流向另一个文本的表示,另外这部分也提到了词向量微调的问题,文中给出的原因是微调可能会使得模型产生一定的过拟合问题。其实,我倒是觉得这里的 LSTMs 是对下面的 attention 系列模型的对比,这样更合适,因为下面的模型都是基于使用两个 LSTM 的。

第三行的 Attention 模型,这是一般的注意力机制,也就是我在上面 2.3 部分所说的那样,文中提到,加入 Attention 后的模型可以总结 premise 的上下文特征,这里的解释其实就是一般注意力机制的优点了。

最后是文中提出的模型 :逐字注意力的模型,可以看到,单项的逐字注意力模型效果最好,这里解释双向逐字地注意力模型效果不好因是因为 premise 和 hypothesis 的关系不是对称的,因此这样的结果会产生一些噪声,从而结果反而不好。

定性分析

这一部分的图表做的是真的很好看,用这种图表示 Attention 是真的很直观了,这里通过这种可视化的方式对 普通的Attention以及 word-by-word Attention 进行了分析。

首先看第一部分介绍一般的 Attention 机制的使用,就像之前提到的,这里实际上是对 hypothesis 整体的表示和 premise 建立联系,从 Figure 2 中看的更清楚也就是看看 hypothesis 和 premise 中那些词更有联系,在之前总的结构图中我们看到这里实际上 hypothesis 的表示实际上就是最后一个隐状态。

对于 word-by-word Attention ,从 Figure 3 中可以看出,是对 premise 和 hypothesis 的单词对之间建立联系,这里论文中提到了一些现象,可以很轻松的检测仅仅重构了顺序的句子(3a中可以看出来),以及可以检测到同义词和多个单词对应一个单词的情况,也可以处理更深层的语义句子。这里也提到了 Attention 失效的情况,那就是两个文本完全不相关的时候。

Conclusion

结论部分简单总结了工作以及未来工作的方向,不再赘述。

论文笔记:Reasoning about Entailment with Neural Attention相关推荐

  1. 【论文笔记】Reasoning about Entailment with Neural Attention

    Reasoning about Entailment with Neural Attention 这篇论文主要讲了他们第一次应用深度学习取得了比现阶段人工特征更好的结果(201509),模型架构大体是 ...

  2. Reasoning about Entailment with Neural Attention

    前面几篇文章分享的都是seq2seq和attention model在机器翻译领域中的应用,在自动文摘系列文章中也分享了六七篇在自动文摘领域中的应用.本文将分享的这篇文章研究了seq2seq+atte ...

  3. REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记

    原文链接:http://cn.arxiv.org/pdf/1509.06664 读这篇论文的目的在于另一篇阅读理解的文章使用了这其中的方法 摘要部分 问题的引入,目前自然语言处理领域对于句子的蕴含关系 ...

  4. 《Reasoning about Entailment with Neural Attention》阅读笔记

    题目直译的话就是使用神经网络注意力机制实现蕴涵推理,文章主要讲述了如何使用LSTM和Attention做英文阅读理解,结合数据集讲就是给出一段话或者说是上下文文本1(hypothesis),然后给出一 ...

  5. Reasoning about Entailment with Neural Attention-学习笔记

    Reasoning about Entailment with Neural Attention LSTM可以学习丰富的语句表示,这些语句适合于确定文本含义.LSTM神经网络很适用于文本蕴含类的任务. ...

  6. 【论文笔记】DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene Change Detection

    论文 论文题目:DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene Change Detection 收录: ...

  7. 论文笔记:GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition

    GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition 1.四个问题 要解决什么问题? 3D shape re ...

  8. 【论文笔记】Adaptive Reinforcement Learning Neural Network Control for Uncertain Nonlinear System

    Adaptive Reinforcement Learning Neural Network Control for Uncertain Nonlinear System With Input Sat ...

  9. 论文笔记:EGAT: Edge Aggregated Graph Attention Networks and Transfer Learning

    文章目录 论文概况 摘要 1 介绍 2 方法 2.1 特征表示 2.1.1 蛋白质的图表示 2.1.3 边特征表示 2.2 EGAT的结构 2.2.2 边缘聚合图关注层 2.2.3 预测概率 2.2. ...

最新文章

  1. 标准K-means算法的缺陷、K-mean++初始化算法、初始化算法步骤、Kmeans++算法实现
  2. Spring Boot入门——全局异常处理
  3. 双绞线网线的连接方式
  4. 如何快速截取某段时间内的日志
  5. Python知道cos值求角度_Python——画一棵漂亮的樱花树
  6. python编写人机交互界面_Python编写个天气查询应用(可视化界面)
  7. oss图片尺寸调用方式_是时候来一场轰轰烈烈的OSS升级了
  8. java get null_java 获取对象中为null的字段实例代码
  9. Hello, Android 快速入门
  10. 面向IT专业人员的8个新兴AI工作
  11. 3- 基于代理 Dao 实现 CRUD 操作
  12. AJAX(Asynchronous JavaScript And XML,异步JavaScript + XML)
  13. [前端随笔][Javascript][物理引擎] 给元素添加简单的物理属性
  14. Project Euler problem 61
  15. 6m缓存和8m缓存差距_i7-9700和i7-9700K性能差距多大?i7-9700和i7-9700K区别对比评测...
  16. w10 计算机配置管理模板,Win10系统这些设置能提高电脑的使用效率
  17. verilog编程,可能你一直在错误地使用计数器cnt
  18. 2022-2028年中国再生塑料行业市场全景评估及发展策略分析报告
  19. 11.构建Ubuntu系统
  20. C++春招实习和秋招面试过程记录

热门文章

  1. 查找Windows和MacBook序列号
  2. twiproxy - 基于GTAP 0.4的twitter API proxy
  3. 2.4G wifi 的频道/信道 20M 40M的概念
  4. 常用语言注释使用格式
  5. python需要cpu还是显卡问题_买新电脑是cpu重要还是显卡重要?该怎么选择?
  6. 原创-VBA金税盘开票XML生成
  7. linux java 缓存服务器,linux服务器缓存环境memcached筹建及应用(java)
  8. 具名插槽 slot使用
  9. Ant Design Charts绘制中国地图并动态添加标记点
  10. TI-Davinci开发系列之七DVSDK-4.03目录介绍