一、简介

这篇论文由IBM Watson发表在2016 ICLR,目前引用量92。这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learning to Answer Selection: A Study and An Open Task] [ 论文笔记链接 ],对模型的网络结构进行了改进,使用双向LSTM对question和answer进行编码,在LSTM之后分别使用CNN和attention提取组合特征并做了对比试验,在InsuranceQA公开数据集上得到了提升。

二、模型

2.1 QA-LSTM

模型结构如上图所示,分别对question和answer使用Bi-LSTM,这样就得到了分布表示,然后使用cosine相似度计算两者的距离。损失函数使用hinge loss:

其中a+是ground truth answer,a-是经过随机采样得到的错误answer。

在LSTM层之后可以采取三种方法得到question和answer的表示:

  1. Average pooling
  2. max pooling
  3. the concatenation of the last vectors on both directions

参考Applying Deep Learning to Answer Selection: A Study and An Open Task论文中的实验观测,对question和answer使用共享参数比分别单独使用一套参数的效果要好。这是因为在共享参数的网络中,question和answer中对应的部分的输出是一样的,而在单独使用参数训练的网络中没有此约束,而且单独使用参数的网络的参数数量是共享参数网络两倍,更不容易训练。

2.2 QA-LSTM/CNN

在前面这种模型中,只使用最大池化和平均池化得到question和anwser表示,在这个模型中对LSTM的输出使用CNN结构从而得到更为丰富的信息,网络结构如下图。对LSTM的输出进行卷积,然后使用max-k pooling,最终得到了question和answer的组合特征。

最终,作者使用了N个不同参数初始化的filter,配合使用max-k pooling 这样就得到了N*k维的向量。作者实验发现k=1效果最好,k>1并不能带来性能的提升。

2.3 ATTENTION-BASED QA-LSTM

不同与上一个模型,这个模型不在使用CNN,而是在LSTM的输出后,基于question信息对answer向量使用attention机制。在对anwser向量使用pooling层之前,对LSTM的输出的每个向量分配一个权值,这个权值是由question经过LSTM得到向量而决定的。

如上模型所示,对于answer,LSTM层对于answer中每个词都会得到一个向量,而通过attention可以计算每个输出的词向量与question信息的匹配的权重。直觉上来看就类似给每个answer的词向量分配了一个tf-idf权重。

2.4 QA-LSTM/CNN WITH ATTENTION

这个模型的不同之处是在attention之后继续使用CNN,首先如上面模型方法对question的LSTM输出向量进行average pooling,得到向量o,基于o可以对answer输出计算attention。然后分别对原始的question向量和经过attention的answer向量使用CNN,后面的流程与以上模型就类似了。

三、实验

3.1 数据集

使用InsuranceQA数据集,其中测试集的pool size为500,数据规模如下表:

3.2 baseline

  1. Bag-of-word。基于预训练词向量,使用tf-idf作为权重加权求和得到question和answer的表示。然后通过计算cosine距离ranking。
  2. Metzler-Bendersky IR model。权重依赖模型(weighted dependency ),使用term-based和term proximity-based ranking features组合权重计算question和answer的分值。
  3. Architecture-II in(Feng et al., 2015)
  4. Architecture-II with Geometricmean of Euclidean and Sigmoid Dot product (GESD)(Feng et al., 2015)

结果如下表所示,使用共享参数的CNN+GESD效果最好,在test1上准确率为65.3

3.3 模型实验结果

实验结果如上表所示,一些实验的结论 :

  1. 对比结果A/B/C可以看出来,concatenate效果最差,max-pooling效果最好。原因是max-pooling能捕捉到更多的局部信息,这些局部信息更能表示输出的embedding
  2. 对比结果D/E/F,使用4000个filter在验证集上得到准确率最高
  3. 对比结果G/H,attention后使用avg pooling的效果比max pooling高很多。
  4. 模型I比模型F提升了1%,但是跟模型H比下降了。作者推测是因为CNN使前一步的attention结果失效了

作者 为了测试模型在长文本answer的效果,把测试集按照answer的长度分成了11个桶,在测试集上发现作者设计的模型的确能够解决长文本的answer问题,实验结果如下图:

最后,作者还是用多层感知机(MLP )代替cosine相似度,但发现准确率下降了。作者推测原因之一是使用MLP使得模型参数变多从而难以训练。

除此之外,作者还在TREC-QA数据集上进行了实验,也达到了SOTA结果。

【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION相关推荐

  1. 【论文笔记】Multi-task deep learning based CT imaging analysis for COVID-19 pneumonia: Classification and

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV.NLP.Data Fusion.Digital Twin 论文标题:Multi-task deep le ...

  2. 论文笔记 【Wide Deep Learning for Recommender Systems】

    标题 * 表示未完成 论文原文传送门 文章提出了 m e m o r i z a t i o n a n d g e n e r a l i z a t i o n memorization\ and ...

  3. 【论文笔记】APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK

    一.简介 这篇论文的任务是问答,输入一个question,从候选集中找到对应的answer.其实也可以看成paraphrase identification任务,或者是短文本匹配. 文中使用的数据集是 ...

  4. 论文笔记-Applications of Deep Learning in Fundus Images: A Review(1)

    文章目录 目录 摘要 1.引言 2.损伤检测 2.1 出血HEs(对应label:渗透) 2.2 微血管瘤 2.3渗出物(对应label:无灌注区) 2.4.多种病变 3.疾病诊断/分级 3.1糖尿病 ...

  5. 论文笔记:Do We Really Need Deep Learning Models for Time Series Forecasting?

    Do We Really Need Deep Learning Models for Time Series Forecasting? Elsayed S, Thyssens D, Rashed A, ...

  6. [论文解读] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey

    Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey 文章目录 Adversaria ...

  7. 【笔记】Comparison of Object Detection and Patch-Based Classification Deep Learning Models on Mid- to La

    <Comparison of Object Detection and Patch-Based Classification Deep Learning Models on Mid- to La ...

  8. 【读点论文】Fawkes: Protecting Privacy against Unauthorized Deep Learning Models 添加像素扰动来实现图片的对抗AI识别

    Fawkes: Protecting Privacy against Unauthorized Deep Learning Models 当今强大的面部识别系统的激增对个人隐私构成了真正的威胁.正如C ...

  9. 论文笔记2:Deep Attention Recurrent Q-Network

    参考文献:[1512.01693] Deep Attention Recurrent Q-Network (本篇DARQN) [1507.06527v3] Deep Recurrent Q-Learn ...

最新文章

  1. 全国大学生智能车单车行进组中的单车改造飞轮安装方案参考
  2. Nginx隐藏PHP入口文件index.php
  3. 倒水问题(Fill,UVA 10603) lrj白书 p202
  4. 「BJOI2019」奥术神杖(AC自动机+DP)
  5. 小程序成长之路(四)-- 深入腾讯云(环境搭建)
  6. 单进程服务器-select版
  7. SPT20 协议_【笔试时间有变】关于国家电网三方协议的那些事!
  8. FFMPEG增加和提取字幕流
  9. networkx怎么显示图_如何将标签添加到networkx图形中的节点?
  10. 实验2-2-4 计算分段函数[2] (10 分)
  11. SQL那些事儿(一)
  12. HDU2191 珍惜现在,感恩生活【背包】
  13. 手把手教你用R语言制作网络爬虫机器人(一)
  14. 4行代码,Python玩转美图秀秀
  15. 免费微信公众号专用h5在线电影票API
  16. 微信公众平台接口API
  17. Specular mode: Specular parameter 高光模式:高光参数 Standard Shader系列7
  18. 智慧档案室改造建设方案 - 一站式建设智慧档案馆建设方案
  19. 考研计算机专业课时长,计算机考研复习经验
  20. 用python模拟球赛

热门文章

  1. 总结|机器视觉中三大坐标系及其相互关系
  2. 我们是在搞学术,还是被学术搞?
  3. 从5个经典工作开始看语义SLAM
  4. oracle mysql 乱码_解决Oracle数据库中文乱码
  5. SpringBoot BasicService
  6. git 下载项目和更新项目(1)
  7. DataFrame类型数据的主要处理方法
  8. c语言编程题及答案-难,C语言常见编程题及答案40题
  9. R语言绘制不一样的条形图
  10. pathview包绘制富集的kegg图