RE2 - Simple and Effective Text Matching with Richer Alignment Features

这篇论文来自阿里，19年的ACL论文。《Simple and Effective Text Matching with Richer Alignment Features》：https://arxiv.org/abs/1908.00300

Intro

很多深层网络只拥有一层alignment layer，导致模型需要很多额外的语义信息或手工特征或复杂alignment机制或后处理。

本文的创新点就在于用multiple alignment processes。

R - Residual vectors：previous aligned features

E - Embedding vectors：original point-wise features

E - Encoded vectors：contextual features

简称RE2

具体代表什么呢？让我们往下看。

Model

空白格子表示embedding vectors，斜线方格表示augmented residual connections，经过一个encoder生成的context vectors用黑色方格表示。如图所示，把这三个向量concat起来都放进alignment layer里，再用alignment layer的input和output都concat起来放入fusion layer中。一个block包含encoding、alignment和fusion三层，重复N次且每个block都是独立的参数。 fusion layer的output经过池化层，得到最后的固定长度向量。利用左右两侧的固定长度向量做预测，Loss采用交叉熵。

Augmented Residual Connections

为了给alignment layer（attention layer）提供更丰富的特征，RE2用了残差网络来连接连续的n个blocks。

The input of the $n$ -th block $x^{(n)}$ ( $n$ ≥ 2), is the concatenation of the input of the first block $x^{(1)}$ and the summation of the output of previous two blocks (denoted by rectangles with diagonal stripes in Figure 1):

$xi(n)=[xi(1);oi(n−1)+oi(n−2)]x^{(n)}_i=[x^{(1)}_i;o^{(n-1)}_i+o_i^{(n-2)}]$

Alignment Layer

alignment的方法仍是采取点积（可指路上一篇【文本匹配】之经典ESIM论文详读）。 $F$ 指identity function或单层前向神经网络，这个作为超参数自行指定。

$e_{ij}=F(a_i)^TF(b_j)$

求得相似度e后，我们用同样的方法得到加权和。 $a'_i$ 就是 ${bj}j=1lb\{b_j\}^{l_b}_{j=1}$ 中关于 $a_i$ 的内容。

$ai′=∑j=1lbexp(eij)∑k=1lbexp(eik)bj,∀i∈[1,...,la]bj′=∑i=1laexp(eij)∑k=1laexp(ekj)ai,∀j∈[1,...,lb]a'_i=\sum^{l_b}_{j=1}\frac{exp(e_{ij})}{\sum^{l_b}_{k=1}exp(e_{ik})} b_j, \forall i\in [1,...,l_a]\\b'_j=\sum^{l_a}_{i=1}\frac{exp(e_{ij})}{\sum^{l_a}_{k=1}exp(e_{kj})} a_i, \forall j\in [1,...,l_b]$

Fusion Layer

对输入sequence $aˉ\bar{a}$ 进行以下三个计算，并进行concat。这里的 $G$ 是单层前向神经网络，因为参数不共享所以用不同角标进行区别。

$aˉi1=G1([ai;ai′])aˉi2=G2([ai;ai−ai′])aˉi3=G3([ai;ai⊙ai′])aˉi=G([aˉi1;aˉi2;aˉi3])\bar{a}_i^1=G_1([a_i;a_i'])\\\bar{a}_i^2=G_2([a_i;a_i-a_i'])\\\bar{a}_i^3=G_3([a_i;a_i \odot a_i'])\\\bar{a}_i=G([\bar{a}_i^1;\bar{a}_i^2;\bar{a}_i^3])\\$

相减主要是为了提取difference，相乘是为了提取similarity。

Prediction Layer

输入 $v_1,v_2$ 两个vector，输出的值为：

$y^=H([v1;v2;v1−v2;v1⊙v2])\hat{y}=H([v1;v2;v1-v2;v1\odot v2])$

其中H为多层前向神经网络。

简化版，这个也作为超参数调试：

$y^=H([v1;v2])\hat{y}=H([v1;v2])$

Difference with ESIM

从公式来看，和ESIM还是比较相似，最大的不同点在于使用残差网络进行信息增强。由于每个block都含有alignment层，从单一的alignment process变成了multiple alignment processes。这个方法放弃了复杂的计算alignment方式（complicated multi-way alignment mechanisms, heavy distillations of alignment results, external syntactic features, or dense connections to connect stacked blocks when the model is going deep），所以在保证性能的基础上尽可能地快。

作者给出了github地址：

tf1.x：alibaba-edu/simple-effective-text-matching

pytorch：alibaba-edu/simple-effective-text-matching-pytorch

【文本匹配】之 RE2论文详解相关推荐

文本匹配与ESIM模型详解
ESIM(Enhanced Sequential Inference Model)是一个综合应用了BiLSTM和注意力机制的模型,在文本匹配中效果十分强大,也是目前为止我见过结构最复杂的模型,下面将会 ...
智能城市dqn算法交通信号灯调度_博客 | 滴滴 KDD 2018 论文详解：基于强化学习技术的智能派单模型...
原标题:博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共 ...
transfromer-XL论文详解
transfromer-XL论文详解 – 潘登同学的NLP笔记文章目录 transfromer-XL论文详解 -- 潘登同学的NLP笔记 Vanilla Transformer Segment-Le ...
【论文精读3】MVSNet系列论文详解-P-MVSNet
P-MVSNet全名为"P-MVSNet: Learning Patch-wise Matching Confidence Aggregation for Multi-View Stereo ...
Spark RDD 论文详解（七）讨论
前言本文隶属于专栏<1000个问题搞定大数据技术体系>,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见1000个问题搞定大数据技 ...
文本相似性计算之编辑距离详解
文本相似性计算之编辑距离详解概述: 编辑距离(Edit Distance):是一个度量两个字符序列之间差异的字符串度量标准,两个单词之间的编辑距离是将一个单词转换为另一个单词所需的单字符编辑(插入. ...
Linux——文本编辑器（Vi）详解介绍
Linux--文本编辑器(Vi)详解介绍 1.Vi的简介 Vi是Visual interface的简称,可以执行输出.删除.查找.替换.块操作等众多文本操作,而且用户根据自己的需要对其进行制定,这是v ...
Spark 3.2.0 版本新特性 push-based shuffle 论文详解（二）背景和动机
前言本文隶属于专栏<大数据技术体系>,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见大数据技术体系目录 Spark 3.2.0 ...
pix2pix论文详解
pix2pix论文详解 – 潘登同学的对抗神经网络笔记文章目录 pix2pix论文详解 -- 潘登同学的对抗神经网络笔记 pix2pix简介模型输入与GAN的区别 Loss函数的选取 condi ...

【文本匹配】之 RE2论文详解