论文总结之任务型对话NLU

最近学习了关于任务型对话NLU的一些论文。大致总结了近些年比较经典的学术界的NLU模型。虽然有些方法现在来看比较常见了，但是思想依旧可以有参考价值。像seq2seq、attention、gate机制对于NLU步骤的优化。
预训练模型Bert、GPT2的提出以及改进刷榜了各项自然语言处理任务。所以贴上了一篇bert做nlu的baseline文章。另外实验室同门最新研究成果基于bert的改进达到了Sota，还未发表就不贴啦。
最后一篇也是实验室师兄关于融入上下文和知识的NLU文章

【一】《Slot-Gated Modeling for Joint Slot Filling and Intent Prediction》

NLU经典论文。
本文提出SF和IP联合训练的思路，attention和gate

x经过Bilstm后得到h1-ht隐状态
（1）slot和intent都考虑attention
a.即每一个hi和其他时刻的所有h做attention得到注意力ci；Slot=softmax（（hi+ci））
b. Intent值=softmax（（ht+ct））即t时刻的hi
（2）仅intent考虑attention
仅有b，slot由hi单独决定
另外提出了门控机制：
用i时刻的注意力ci和意图向量ct做计算得到他们的关系权重g，Slot=softmax（hi+g*ci）

创新点：本篇论文都是对输出层做了操作，用注意力和门控权重优化输出。本质上模型内部的隐层值并没有改变（仅仅是BLSTM嘛）
参考链接：https://blog.csdn.net/shine19930820/article/details/83052300

【二】《A Stack-Propagation Framework with Token-Level Intent Detection for Spoken Language Understanding》

编码端：
将x做self-attention的编码让每个字获得上下文信息。对每个字通过LSTM后得到每个字的意图，这句话的intent就是所有token投票决定。。。
Slot解码端：
Slot的值得到是将每个字通过另一层lstm，每个时间步输入除了上一个时间步，还有（编码和token意图的拼接）
创新点：token级别的意图识别。
参考链接：https://zhuanlan.zhihu.com/p/85792864

【三】《A Self-Attentive Model with Gate Mechanism for Spoken Language Understanding》

1.编码层
Embedding从word-level和char-level编码，然后self-attention后拼接喂入下一层。
2.通过Bilstm后得到每一个token隐层表示hi 以及 intent向量vt。
每个hi再self-attention得到si，si和vt通过MLP得到关系向量hi*（这一步目的是为了获取slot和intent之间影响因子，做法不是很理解）
3.Slot输出就是 hi*点乘hi; intent输入就是H={h1,h2…ht}
创新点：
这篇论文发表于bert出现不久，所以编码阶段和隐层处理阶段都是用了self-attention。
参考链接：https://zhuanlan.zhihu.com/p/266710823

【四】《A Novel Bi-directional Interrelated Model for Joint Intent Detection and Slot Filling》

本文提出的SF-ID network由SF subnet 和ID subnet组成，这两个子网络执行的顺序是可以交换的，因此模型分为两种模式：SF-First Mode和ID-First Mode。

首先，计算出每个隐状态hi（用于slot）的注意力向量ci，以及最后一个隐状态ht（用于intent）的注意力向量ct。
1.SF-First Mode
这种模式下，先执行SF subnet。
（1）具体的，利用ci和ct去计算slot和intent之间的相关因子f。将相关因子和注意力隐状态相乘，得到槽值slot的值 rslot=f*ci。（可以理解为挖掘slot和intent之间的联系增强slot）
（2）在i时刻，通过rslot和每个时间步隐状态h的注意力机制，得到i时刻的rslot的权值向量。将每个时刻的rslot加权求和得到全局slot向量r。意图值就是intent=r+ct（挖掘slot和intent联系去增强intent）
（3）第1步和第2步重复执行，不断交互更新参数。最后softmax得到intent和slot结果。
2. ID-First Mode
跟SF-first相比，就是用ci代替rslot先执行第（2）步，得到intent。再执行第（1）步。然后反复迭代。
最后实验结果表明，ID-First Mode在槽填充任务上表现得更好，而SF-First Mode在意图识别任务上表现得更好。因为ID-First是将槽填充看做一个更重要的任务，而SF-First是将意图识别看做一个更重要的任务。
创新点：将intent和slot值不断交互，利用彼此信息精确自身值

【五】《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》

Seq2seq用于SLU的一个模型。
SF：
ID：（输入是编码端最后一个时刻隐状态和对应的注意力向量）
参考：https://blog.csdn.net/shine19930820/article/details/83052232

【六】《BERT for Joint Intent Classification and Slot Filling》

本篇论文bert在sf和id的尝试，做法没啥好说的，熟悉bert的都知道做法很简单，效果直接刷新sota。短期内都会是一篇baseline
参考链接：https://www.jianshu.com/p/2144cb5b222f?utm_campaign=haruki
启发：实验室也有做SLU在bert上改进的，CLS向量和各个token向量之间的交互，以及训练策略都是改进点。

【七】《Effective Utilization of External Knowledge and History Context in Multi-turn Spoken Language Understanding Model》

当前语句编码后经过两个部分加工
（1）上下文注意模块
做法就是当前utterance对context中每一句做attention，得到加权向量（ps：并不求和）。然后把所有向量和当前utterance向量一起送到Blstm中编码出这个模块最终向量
（2）知识注意模块
将当前utterance的每个token都检索出知识图谱里所包含的知识，transE编码出每个三元组向量。
将三元组向量关系和尾实体和utterance做attention得到权重（就是个神经网络）将所有三元组实体加权求和（这个是加权求和）
（3）jointmodel
最终是Bilstm解码。用（1）的编码结果作为初始状态，每一个字的解码输入是（该字编码向量，该字知识向量）