本文介绍了一种用于自然语言语句匹配的模型：BiMPM

Reference：arXiv:1702.03814v3 [cs.AI] 14 Jul 2017

在三种任务上达到了sota

paraphrase identification 释义识别
natural language inference 自然语言推断
answer sentence select 答案语句选择

模型

从图上可以看到整个模型分为5层，中间有交互，并且都是使用的双向LSTM，定义了一个特殊的
操作，文中会给出解释

Word Representation Layer

word representation层有两个词嵌入操作，一个是直接使用pre-trained的GloVe词向量，然后还使用了character-composed embedding，具体的来说，通过将单词中的每个字符（表示为字符嵌入）输入一个LSTM网络，计算字符的组合embedding，字符嵌入将使用随机初始化生成，并与NLSM任务中的其他网络参数一起学习。

Context Representation Layer

这一层非常简单，就是把前一层的词嵌入丢到双向LSTM里面

Matching Layer

该层的目标是将一个句子的每个上下文嵌入（time step）与另一个句子的所有上下文嵌入（time step）进行比较

这个跟卷积（或者说互相关）同一个符号的操作，是由以下四种操作构成的

Full-Matching

Maxpooling-Matching

Attentive-Matching

Max-Attentive-Matching

Aggregation Layer

该层用于将两个匹配向量序列聚合为一个固定长度的匹配向量。

Prediction Layer

该层的目的是评估概率分布 $Pr(y∣P,Q)Pr(y\mid{P,Q})$

实验

评价

总体读下来感觉首先是表示层word embedding和char embedding一起使用，在这里相对于只用一种增强了特征表达能力，然后进入BiLSTM层进一步编码

可能是matching layer的四个猛如虎操作增强了表达能力？（反正也是很玄学）

能一次性在三种任务上达到sota，说明这个model确实是work的，根据free launch定理，说明这个model的语言理解能力确实超越了之前的模型

Raki的读paper小记：Bilateral Multi-Perspective Matching for Natural Language Sentences相关推荐

相似度：多边视角：2017：Bilateral Multi-Perspective Matching for Natural Language Sentences
Bilateral Multi-Perspective Matching for Natural Language Sentences 以前的方法要么是从单一方向匹配句子,要么只应用单一的粒度(逐字或 ...
Raki的读paper小记：Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战基于判别模型的预训练模型的f ...
Raki的读paper小记：OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务多模式预训练的统一范式包括图像生成.visual-grounding(visual grounding ...
Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务语言+视觉模态预训练任务已有方法和相关工作 masked data已经成为一种主流面临挑战现有的多 ...
Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）
Abstract & Introduction & Related Work 研究任务无标注数据NER学习已有方法和相关工作 Unsupervised domain adaptat ...
Raki的读paper小记：Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务用子网络做CL 已有方法和相关工作彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
Raki的读paper小记：Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作面临挑战创新思路利用持续学习过程中的持续稀 ...
Stetman读paper小记：ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
Stetman读paper小记：BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
Bilateral Multi-Perspective Matching for Natural Language Sentences---读书笔记
自然语言句子的双向.多角度匹配,是来自IBM 2017 年的一篇文章.代码github地址:https://github.com/zhiguowang/BiMPM 摘要这篇论文主要提出了一个双向多角 ...

Raki的读paper小记：Bilateral Multi-Perspective Matching for Natural Language Sentences

模型