【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION
一、简介
这篇论文由IBM Watson发表在2016 ICLR,目前引用量92。这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learning to Answer Selection: A Study and An Open Task] [ 论文笔记链接 ],对模型的网络结构进行了改进,使用双向LSTM对question和answer进行编码,在LSTM之后分别使用CNN和attention提取组合特征并做了对比试验,在InsuranceQA公开数据集上得到了提升。
二、模型
2.1 QA-LSTM
模型结构如上图所示,分别对question和answer使用Bi-LSTM,这样就得到了分布表示,然后使用cosine相似度计算两者的距离。损失函数使用hinge loss:
其中a+是ground truth answer,a-是经过随机采样得到的错误answer。
在LSTM层之后可以采取三种方法得到question和answer的表示:
- Average pooling
- max pooling
- the concatenation of the last vectors on both directions
参考Applying Deep Learning to Answer Selection: A Study and An Open Task论文中的实验观测,对question和answer使用共享参数比分别单独使用一套参数的效果要好。这是因为在共享参数的网络中,question和answer中对应的部分的输出是一样的,而在单独使用参数训练的网络中没有此约束,而且单独使用参数的网络的参数数量是共享参数网络两倍,更不容易训练。
2.2 QA-LSTM/CNN
在前面这种模型中,只使用最大池化和平均池化得到question和anwser表示,在这个模型中对LSTM的输出使用CNN结构从而得到更为丰富的信息,网络结构如下图。对LSTM的输出进行卷积,然后使用max-k pooling,最终得到了question和answer的组合特征。
最终,作者使用了N个不同参数初始化的filter,配合使用max-k pooling 这样就得到了N*k维的向量。作者实验发现k=1效果最好,k>1并不能带来性能的提升。
2.3 ATTENTION-BASED QA-LSTM
不同与上一个模型,这个模型不在使用CNN,而是在LSTM的输出后,基于question信息对answer向量使用attention机制。在对anwser向量使用pooling层之前,对LSTM的输出的每个向量分配一个权值,这个权值是由question经过LSTM得到向量而决定的。
如上模型所示,对于answer,LSTM层对于answer中每个词都会得到一个向量,而通过attention可以计算每个输出的词向量与question信息的匹配的权重。直觉上来看就类似给每个answer的词向量分配了一个tf-idf权重。
2.4 QA-LSTM/CNN WITH ATTENTION
这个模型的不同之处是在attention之后继续使用CNN,首先如上面模型方法对question的LSTM输出向量进行average pooling,得到向量o,基于o可以对answer输出计算attention。然后分别对原始的question向量和经过attention的answer向量使用CNN,后面的流程与以上模型就类似了。
三、实验
3.1 数据集
使用InsuranceQA数据集,其中测试集的pool size为500,数据规模如下表:
3.2 baseline
- Bag-of-word。基于预训练词向量,使用tf-idf作为权重加权求和得到question和answer的表示。然后通过计算cosine距离ranking。
- Metzler-Bendersky IR model。权重依赖模型(weighted dependency ),使用term-based和term proximity-based ranking features组合权重计算question和answer的分值。
- Architecture-II in(Feng et al., 2015)
- Architecture-II with Geometricmean of Euclidean and Sigmoid Dot product (GESD)(Feng et al., 2015)
结果如下表所示,使用共享参数的CNN+GESD效果最好,在test1上准确率为65.3
3.3 模型实验结果
实验结果如上表所示,一些实验的结论 :
- 对比结果A/B/C可以看出来,concatenate效果最差,max-pooling效果最好。原因是max-pooling能捕捉到更多的局部信息,这些局部信息更能表示输出的embedding
- 对比结果D/E/F,使用4000个filter在验证集上得到准确率最高
- 对比结果G/H,attention后使用avg pooling的效果比max pooling高很多。
- 模型I比模型F提升了1%,但是跟模型H比下降了。作者推测是因为CNN使前一步的attention结果失效了
作者 为了测试模型在长文本answer的效果,把测试集按照answer的长度分成了11个桶,在测试集上发现作者设计的模型的确能够解决长文本的answer问题,实验结果如下图:
最后,作者还是用多层感知机(MLP )代替cosine相似度,但发现准确率下降了。作者推测原因之一是使用MLP使得模型参数变多从而难以训练。
除此之外,作者还在TREC-QA数据集上进行了实验,也达到了SOTA结果。
【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION相关推荐
- 【论文笔记】Multi-task deep learning based CT imaging analysis for COVID-19 pneumonia: Classification and
声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV.NLP.Data Fusion.Digital Twin 论文标题:Multi-task deep le ...
- 论文笔记 【Wide Deep Learning for Recommender Systems】
标题 * 表示未完成 论文原文传送门 文章提出了 m e m o r i z a t i o n a n d g e n e r a l i z a t i o n memorization\ and ...
- 【论文笔记】APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK
一.简介 这篇论文的任务是问答,输入一个question,从候选集中找到对应的answer.其实也可以看成paraphrase identification任务,或者是短文本匹配. 文中使用的数据集是 ...
- 论文笔记-Applications of Deep Learning in Fundus Images: A Review(1)
文章目录 目录 摘要 1.引言 2.损伤检测 2.1 出血HEs(对应label:渗透) 2.2 微血管瘤 2.3渗出物(对应label:无灌注区) 2.4.多种病变 3.疾病诊断/分级 3.1糖尿病 ...
- 论文笔记:Do We Really Need Deep Learning Models for Time Series Forecasting?
Do We Really Need Deep Learning Models for Time Series Forecasting? Elsayed S, Thyssens D, Rashed A, ...
- [论文解读] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey
Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey 文章目录 Adversaria ...
- 【笔记】Comparison of Object Detection and Patch-Based Classification Deep Learning Models on Mid- to La
<Comparison of Object Detection and Patch-Based Classification Deep Learning Models on Mid- to La ...
- 【读点论文】Fawkes: Protecting Privacy against Unauthorized Deep Learning Models 添加像素扰动来实现图片的对抗AI识别
Fawkes: Protecting Privacy against Unauthorized Deep Learning Models 当今强大的面部识别系统的激增对个人隐私构成了真正的威胁.正如C ...
- 论文笔记2:Deep Attention Recurrent Q-Network
参考文献:[1512.01693] Deep Attention Recurrent Q-Network (本篇DARQN) [1507.06527v3] Deep Recurrent Q-Learn ...
最新文章
- 全国大学生智能车单车行进组中的单车改造飞轮安装方案参考
- Nginx隐藏PHP入口文件index.php
- 倒水问题(Fill,UVA 10603) lrj白书 p202
- 「BJOI2019」奥术神杖(AC自动机+DP)
- 小程序成长之路(四)-- 深入腾讯云(环境搭建)
- 单进程服务器-select版
- SPT20 协议_【笔试时间有变】关于国家电网三方协议的那些事!
- FFMPEG增加和提取字幕流
- networkx怎么显示图_如何将标签添加到networkx图形中的节点?
- 实验2-2-4 计算分段函数[2] (10 分)
- SQL那些事儿(一)
- HDU2191 珍惜现在,感恩生活【背包】
- 手把手教你用R语言制作网络爬虫机器人(一)
- 4行代码,Python玩转美图秀秀
- 免费微信公众号专用h5在线电影票API
- 微信公众平台接口API
- Specular mode: Specular parameter 高光模式:高光参数 Standard Shader系列7
- 智慧档案室改造建设方案 - 一站式建设智慧档案馆建设方案
- 考研计算机专业课时长,计算机考研复习经验
- 用python模拟球赛