自然语言句子的多视角匹配

github: https://github.com/daiyizheng/shortTextMatch/blob/master/src/DL_model/classic_models/models/BIMPM.py

介绍

本文作者提出了一个双边多视角匹配(BiMPM)模型。给定两个句子P和Q，模型首先用BiLSTM编码器对它们进行编码。接下来，我们将两个编码后的句子在两个方向P对Q, Q对P进行匹配。在每个匹配的方向上，一个句子的每一个时间步都从多个角度匹配另一个句子的所有时间步。然后，利用另一个BiLSTM层将匹配结果聚合成固定长度的匹配向量。最后，基于匹配向量，通过全连通层进行决策。模型的结构如下：

自然语言句子匹配是比较两个句子并识别它们之间的关系。随着神经网络模型的复兴，有人提出了两种深度学习框架，第一个框架是基于“Siamese”架构，第二种框架“matching-aggregation”架构。但是这些框架仍然有一定的限制。本文作者就推出了BiMPM模型，用于NLSM任务。

方法

BiMPM模型来估计概率分布Pr(y|P,Q)，属于“匹配-聚合”框架。与之前的“匹配-聚合”方法相反，我们的模型在两个方向上匹配P和Q (P->Q和P<-Q)。

Word Representation Layer

这一层的目标是用一个D维向量来表示P和Q中的每个词，包含两个分量的D维向量：一个词嵌入和一个字符组合嵌入。

Context Representation Layer

该层的目的是将上下文信息纳入P和Q的每个时间步长的表示中。使用双向LSTM做上下文嵌入，公式如下：

Matching Layer

这是我们的模型中的核心层。该层的目标是将一个句子的每个上下文嵌入（时间步）与另一个句子的所有上下文嵌入（时间步）进行比较。两个句子P和Q进行两个方向的匹配：将P的每个时间步与Q的所有时间步进行匹配，将Q的每个时间步与P的所有时间步进行匹配。如下图所示：

Aggregation Layer

该层用于将两个匹配向量序列聚合成一个固定长度的匹配向量。利用另一个BiLSTM模型，分别将其应用于两个匹配向量序列。然后，通过将BiLSTM模型最后一个时间步长的四个绿色向量串联起来，构造定长匹配向量。

Prediction Layer

这一层的目的是计算概率分布Pr(y|P,Q)。为此，我们采用了两层前馈神经网络来计算定长匹配向量，并在输出层应用了softmax函数。

Multi-perspective Matching Operation

这里定义了一个多角度余弦匹配函数fm来比较两个向量：如下

其中 $v_1$ 和 $v_2$ 是两个d维的向量， $W$ 是具有 $l x d$ 维的可训练参数， $l$ 为perspective的数量，返回值 $m$ 是一个 $l$ 维度的向量 $m=m[m_1,…,m_l]$ 。每个元素 $m_k$ 从第 $k$ 个角度得到一个匹配值，并由两个加权向量之间的余弦相似度计算得到。

其中， $o$ 表示向量乘法， $W_k$ 代表 $W$ 的第 $k$ 行，它控制第 $k$ 个角度，并为 $d$ 维空间的不同维度分配不同的权重。

基于 $f_m$ 定义了四种匹配策略来比较一个句子的每个时间步和另一个句子的所有时间步。为了避免重复，我们只定义了一个匹配方向P->Q的匹配策略。

Full-Matching

每个向前(向后)上下文嵌入 $\overrightarrow{h}^p_i or( \overleftarrow{h}^p_i)$

ipor(h

ip)与其他句子

\overrightarrow{h}^q_N or( \overleftarrow{h}^q_1)

最后的时间步相比。

Maxpooling-Matching

每个向前(向后)上下文嵌入 $\overrightarrow{h}^p_i or( \overleftarrow{h}^p_i)$

ipor(h

ip)与每一个其他句子的前向(后向)上下文嵌入

\overrightarrow{h}^q_j or( \overleftarrow{h}^q_j) j \in (1...N)

比较，而只保留每个维度的最大价值。

Attentive-Matching

首先计算每个前向(后向)上下文嵌入之间的余弦相似性 $\overrightarrow{h}^p_i or( \overleftarrow{h}^p_i)$

ipor(h

ip)和每一个其他句子的前向(后向)上下文嵌入

\overrightarrow{h}^q_j or( \overleftarrow{h}^q_j) j \in (1...N)

。

然后计算

\overrightarrow{\alpha}_{i,j} or ( \overleftarrow{\alpha}_{i,j})

作为

\overrightarrow{h}^q_j or( \overleftarrow{h}^q_j)

的权重，并且为整个句子

Q

计算一个attentive vector并对

Q

所有上下文嵌入项进行加权求和。

将 $\overrightarrow{h}^p_i or( \overleftarrow{h}^p_i)$

ipor(h

ip)的每一个前向(或后向)上下文嵌入与其对应的attentive向量进行匹配。

Max-Attentive-Matching

策略类似于注意力匹配策略。然而，我们没有将所有上下文嵌入的加权和作为注意力向量，而是选择余弦相似度最高的上下文嵌入作为注意力向量。然后，我们将句子 P 的每个上下文嵌入与其新的注意力向量相匹配。

实验设置

word_embedding: 300(freeze)
OOV: initialize randomly
character-composed embedding: 初始化为20维向量, 然后将每个词输入到50维的lstm
BiLSTM hidden layer: 100
dropout: 0.1
损失函数: cross entropy
optimizer: ADAM
learning rate: 0.001

结论

在“匹配聚合”框架下提出双边多视角匹配（BiMPM）模型。与之前的“匹配聚合”方法不同，模型在两个方向（P → Q 和 P ← Q）匹配句子 P 和 Q。在标准基准数据集上的实验结果表明，模型在所有任务上都达到了最先进的性能。

文本匹配、文本相似度模型之BIMPM相关推荐

【文本匹配】表示型模型
基于表示的匹配模型的基本结构包括: (1)嵌入层,即文本细粒度的嵌入表示: (2)编码层,在嵌入表示的基础上进一步编码: (3)表示层:获取各文本的向量表征: (4)预测层:对文本pair的向量组进行 ...
文本相似度、文本匹配、文本聚类
1 1在Keras的Embedding层中使用预训练的word2vec词向量:https://blog.csdn.net/u012052268/article/details/90238282 imp ...
谈谈文本匹配和多轮检索
非常详细全面的文本匹配和多轮检索发展整理,建议收藏 1. 关于文本匹配文本匹配是NLP的基础任务之一,按照论文中的实验对传统的文本匹配任务进行分类,大致可以分为「文本检索(ad-hoc),释义识别 ...
【NLP】深度文本匹配综述
目录 1.研究背景与意义 2.深度学习在自然语言处理的应用 3.深度文本匹配与传统文本匹配 4.深度文本匹配国内外研究现状 4.1基于单语义表达的文本匹配 4.2基于多语义表达的文本匹配 ...
对话系统-“问答型”单轮对话：FAQ检索式对话系统【步骤：①用户意图判断、②文本检索召回、③文本匹配计算排序】【搜索引擎的最终形态】
一.基本概念文本匹配:计算文本之间的相似度,主要分为两大类: 1)基于句子向量表示的相似度模型(适合初始召回): 2)基于词级别匹配的相似度模型(适合对召回结果重排) 问答系统:信息检索的一种高级形 ...
laravel 分词搜索匹配度_DSSM文本匹配模型在苏宁商品语义召回上的应用
文本匹配是自然语言处理中的一个核心问题,它不同于MT.MRC.QA 等end-to-end型任务,一般是以文本相似度计算的形式在应用系统中起核心支撑作用1.它可以应用于各种类型的自然语言处理任务中,例 ...
nc65语义模型设计_文本匹配方法系列––多维度语义交互匹配模型
摘要本文基于接着多语义匹配模型[1]和BERT匹配模型[2]介绍一些多维度语义交互匹配模型,包括2017 BiMPM模型[3]和腾讯出品的2018 MIX[4].这些方法的核心特征都是在多语义网络的 ...
文本匹配（语义相似度/行为相关性）技术综述
NLP 中,文本匹配技术,不像 MT.MRC.QA 等属于 end-to-end 型任务,通常以文本相似度计算.文本相关性计算的形式,在某应用系统中起核心支撑作用,比如搜索引擎.智能问答.知识检索.信 ...
文本匹配开山之作--双塔模型及实战
作者 | 夜小白整理 | NewBeeNLP 在前面一篇文章中,总结了Representation-Based文本匹配模型的改进方法, 基于表征(Representation)的文本匹配.信息检索. ...

文本匹配、文本相似度模型之BIMPM

自然语言句子的多视角匹配

介绍

方法

Word Representation Layer

Context Representation Layer

Matching Layer

Aggregation Layer

Prediction Layer

Multi-perspective Matching Operation

Full-Matching

Maxpooling-Matching

Attentive-Matching

Max-Attentive-Matching

实验设置

结论

文本匹配、文本相似度模型之BIMPM相关推荐

最新文章

热门文章