文章目录

  • 1、加入Attention机制和对齐机制的RNN编码器-解码器模型
    • 1.1 底层特征:
      • 1.1.1 BiRNN(GRU or LSTM)
    • 1.2 attention:
  • 2、加入Attention机制的RNN模型。
  • 实验结果:
  • Conclusions
  • Reference

来自于论文:《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》

基于attention的encoder-decoder网络在机器翻译取得成功,本文提出基于attention的网络联合对齐模型用于IC和SF,在ATIS任务上实现了最先进的效果-ID错误率和SF的f1 score。

问题:
attention在seq2seq中用于学习soft对齐同时解码,本身SF就是对齐的情况下,attention应该如何应用。

前向和后向RNN的hi会丢失长依赖的信息,通过映入context向量ci,来提供hi没有捕捉到的长依赖的信息。对于IC,如果没有attention,对各个hi使用mean-pooling的方式输入IC,但加入attention之后,输入将是hi的加权和。

文章一共介绍了两种模型:

1、加入Attention机制和对齐机制的RNN编码器-解码器模型

1.1 底层特征:

Embeding

窗口词向量:

xtd=e(wt)x^d_t = e(w_t)xtd=e(wt)

1.1.1 BiRNN(GRU or LSTM)

ht→=RNN→(xt,ht−1→)\overrightarrow{h_t} = \overrightarrow{RNN}(x_t, \overrightarrow{h_{t-1}})ht

=RNN

(xt,ht1

)

ht←=RNN←(xt,ht−1←)\overleftarrow{h_t} = \overleftarrow{RNN}(x_t, \overleftarrow{h_{t-1}})ht

=RNN

(xt,ht1

)

输出: ht↔=[ht→,ht←]\overleftrightarrow{h_t} = [\overrightarrow{h_t}, \overleftarrow{h_t}]ht

=[ht

,ht

]

1.2 attention:

  1. slot filling:

    1. 权重计算:

    ciS=∑j=1Tαi,jShj,(1)c_i^S = \sum^T_{j=1} \alpha^S_{i,j} h_j,\tag{1} ciS=j=1Tαi,jShj,(1)

αi,jS=exp(ei,j)∑k=1Texp(ej,k)(2)\alpha^S_{i,j} = \frac{exp(e_{i,j})}{\sum_{k=1}^T exp(e_{j,k})} \tag{2} αi,jS=k=1Texp(ej,k)exp(ei,j)(2)

ei,k=VTσ(WheShk+Wiehi)(3)e_{i,k} = V^T \sigma(W_{he}^S h_k + W_{ie} h_i) \tag{3} ei,k=VTσ(WheShk+Wiehi)(3)

ciS∈Rbs∗Tc_i^S \in R^{bs*T}ciSRbsT,和hjh_jhj一致。
ei,k∈R1e_{i,k} \in R^1ei,kR1ei,ke_{i,k}ei,k计算的是hkh_khk和当前输入向量hih_ihi之间的关系。
作者TensorFlow源码WkeShkW_{ke}^S h_kWkeShk用的卷积实现,而WieShiW_{ie}^S h_iWieShi用的线性映射_linear()。
T是attention维度,一般和输入向量一致,源码其实ei,k=reduce_sum(VTσ(WkeShk+Wiehi))e_{i,k} = reduce\_sum(V^T \sigma(W_{ke}^S h_k + W_{ie} h_i))ei,k=reduce_sum(VTσ(WkeShk+Wiehi)),将其变为1维度,一共T个word,就有T个e。

  1. SF

yiS=softmax(WhyS(RNN(hi+ciS)))(4)y_i^S = softmax(W_{hy}^S(RNN (h_i+c_i^S))) \tag{4} yiS=softmax(WhyS(RNN(hi+ciS)))(4)

  1. Intent Prediction:其输入时BiLSTM的最后一个单元的输出hTh^ThT以及其对应的context向量。
    yI=softmax(WhyI(hT+cI))(5)y^I = softmax(W_{hy}^I (h_T+c^I)) \tag{5} yI=softmax(WhyI(hT+cI))(5)

2、加入Attention机制的RNN模型。

计算和模型1类似,公式不在列出。

实验结果:

model ic error slot F1
Attention Encoder-Decoder NN 1.57 95.87
Attention BiRNN 1.79 95.98

词槽抽取的实验结果比目前最好的要好0.1%左右。
意图识别的实验结果比目前最好的要提高1%左右。

Conclusions

获得了stae of the art的表现,但是没有指出未来的点,以及一些可能会有的问题,

个人认为数据集问题,有待在更大更多数据集验证效果,例如ATIS数据量其实还是比较小,一共4478+500+893,对于百分点的提升有一定的随机性,有待统计假设检验验证等。(其实模型还是挺靠谱的,只是实验还可以做得更严谨)

csdn原文:https://blog.csdn.net/shine19930820/article/details/83052232

Reference

  1. 来源论文:https://arxiv.org/abs/1609.01454
  2. 代码:https://github.com/HadoopIt/rnn-nlu

『 论文阅读』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling相关推荐

  1. Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling论文笔记

    文章目录 摘要 方法 Encoder-Decoder Model with Aligned Inputs Attention-Based RNN Model 实验 论文连接:Attention-Bas ...

  2. 论文阅读:A Primer on Neural Network Models for Natural Language Processing(1)

    前言 2017.10.2博客园的第一篇文章,Mark. 由于实验室做的是NLP和医疗相关的内容,因此开始啃NLP这个硬骨头,希望能学有所成.后续将关注知识图谱,深度强化学习等内容. 进入正题,该文章是 ...

  3. 【论文阅读】Attention Based Spatial-Temporal GCN...Traffic Flow Forecasting[基于注意力的时空图卷积网络交通流预测](1)

    [论文阅读]Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting[基于注 ...

  4. 论文阅读 [TPAMI-2022] ManifoldNet: A Deep Neural Network for Manifold-Valued Data With Applications

    论文阅读 [TPAMI-2022] ManifoldNet: A Deep Neural Network for Manifold-Valued Data With Applications 论文搜索 ...

  5. 『论文阅读』SIF:一种简单却难以打败的句子嵌入方法

      文献:A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS   在进行了词嵌入的研究后,我们往往会联想到这样一个问题:既然单词可以 ...

  6. 论文浏览:Edge Based Graph Neural Network to Recognize Semigraph Representation of English Alphabets

    一.简介 介绍了基于边的图神经网络,用于识别英文大写半字母. 图神经网络(GNN)是一种连接主义模型,由过渡网络(两个前馈神经网络(FNN))和输出网络根据图拓扑结构的递归体系结构连接而成.将图中边的 ...

  7. 『 论文阅读』LightGBM原理-LightGBM: A Highly Efficient Gradient Boosting Decision Tree

    17年8月LightGBM就开源了,那时候就开始尝试上手,不过更多还是在调参层面,在作者12月论文发表之后看了却一直没有总结,这几天想着一定要翻译下,自己也梳理下GBDT相关的算法. Abstract ...

  8. 论文阅读笔记《Siamese Convolutional Neural Network for Camera Pose Estimation and Visual Servoing》

    小样本学习&元学习经典论文整理||持续更新 核心思想   该文使用基于孪生网络结构的CNN来实现相机的位姿估计和视觉伺服,过程也比较好理解,输入是当前位置的图像和期望位置的图像,输出的是两个图 ...

  9. 论文阅读【Multi-modal Knowledge-aware Event Memory Network for Social Media Rumor Detection】

    摘要 谣言检测存在的问题,学习了旧事件,新事件表现不好. 提出新的多模态知识事件记忆网络(MKEMN),利用多模态知识感知网络(MKN)和事件记忆网络作为构建模块(EMN),用于社交媒体谣言检测.MK ...

  10. 【论文阅读】Recurrent Neural Network Regularization

    本来是打算搜搜RNN或者LSTM的原文,结果arxiv上没搜到(求求,帮帮),然后就搜到知乎上一个回答: 心想完蛋,年份跨度比较远的论文读起来会不会很费劲啊.结果搜到LSTM的原论文了(论文链接:ht ...

最新文章

  1. 关于寒假和春季开学!教育部通知来了!近400所高校寒假时间已公布!
  2. Go 语言编程 — 并发 — 同步原语与锁
  3. 招募 | 清华大学计算机系副教授黄民烈招募NLP方向博士后
  4. php添加开机启动脚本_centos 7.2 添加php7 的 php-fpm 开机启动
  5. 谈谈两种标准库类型---string和vector
  6. [数学][欧拉降幂定理]Exponial
  7. failed to load kernel library!处理办法
  8. SSL协议之数据加密过程详解
  9. 计算机科学导论考试A卷试题,计算机科学导论试题A答案
  10. 计算机英语摘要,跪求计算机论文摘要英文翻译
  11. 如何比较两种方法的灵敏度和特异度
  12. 荣耀3x android 5.0,华为荣耀3X畅玩版_EMUI2.3_Android4.4_完整
  13. 大数据与云计算 | 华科软院2020年期末考试试题及答案
  14. EFS加密文件系统应用心得
  15. Flask教程(十六)RESTful-API
  16. input搜索框在ios系统中兼容问题
  17. 外挂框架开发(1)HOOKAPI
  18. 基于微信小程序的医院预约挂号系统设计与实现 毕业设计论文 课题题目参考(1)功能和界面效果
  19. win10运行快捷键_阿销带你看世界——电脑技巧之电脑快捷键(WIN篇2)
  20. python实现画图工具

热门文章

  1. IDEA更改主题颜色
  2. 【Excel】Excel条件格式设置背景色
  3. tiny4412移植U-Boot 2020.07
  4. 高通 锁定DDR频率
  5. DHT11温湿度传感器原理剖析
  6. 百科不全书之Python常用库
  7. 11种免费获取SSL证书的方式
  8. js动态添加的元素如何设置点击事件
  9. python解析_第107天: Python 解析 PDF
  10. 《守望先锋》架构设计与网络同步 -- GDC2017 精品分享实录