【论文笔记】APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK
一、简介
这篇论文的任务是问答,输入一个question,从候选集中找到对应的answer。其实也可以看成paraphrase identification任务,或者是短文本匹配。
文中使用的数据集是insuranceQA,数据规模如下。
这篇论文的特色是“齐全”,作者设计了6种CNN结构 + 8种相似度实验,最终在数据集上得到0.653的准确率。作者给出了详细的实验结果,这些结论可以让我们少走许多弯路。
二、模型
2.1 CNN结构
符号定义
- HL(hidden layer) ,W是权重矩阵,B是偏置向量。
- CNN。卷积层
- P。1-MaxPooling
- T。tanh层
2.1.1 CNN结构1
如图1所示,对于输入Q和A分别使用HL层+CNN层提取特征,然后经过MaxPooling+tanh得到sentence的信息,再计算Q和A的相似度。
2.2.2 CNN结构2
输入Q和A通过权值共享的HL+ CNN层得到特征,然后各种经过MaxPooling + tanh得到sentence的信息,最后计算Q和A的相似度。如图2所示。
2.2.3 CNN结构3
与CNN结构2类似,不同的地方是在计算相似度之前加入对Q和A分别加一层HL。如图3所示:
2.2.4 CNN结构4
与CNN结构2类似,不同的是在计算相似度之前,对Q和A使用一个权值共享的HL层。如图4所示:
2.2.5 CNN结构5
此结构在CNN结构2的基础上,在CNN后又加了一层CNN,其他类似。如图5所示:
2.2.6 CNN结构6
与CNN结构5类似,都是2层CNN,不同的是结构6每层CNN后都会接P+T,然后计算两次损失函数。如图6所示:
2.2.7 其他结构
除此之外,作者还对以下三个方面进行实验
- CNN的filter数量
- 卷积操作加入了skip-bigrams,会对不相邻的词进行卷积
- 使用了不同的相似度指标进行实验
2.3 损失函数
对于输入的Q,训练集中有一个正确的A+(groud truth),同时通过采样得到一个负样本A-,我们计算cos(Q, A+),和cos(Q, A-)。那最终的目标就是使这两个相似度之间的距离大于m,对应的hinge loss如下:
2.4 实验结果
2.3.1 不同CNN结构实验
如上表所示,实验中第一个baseline是使用Wordvector的词袋模型,第二个baseline是信息检索的WD模型。其中Architecture就是前面介绍的各种CNN结构,AugmentedCNN结构使用了skip-bigrams。下面说一些实验结论
- 论文提出的新方法优于两个baseline
- 对于Q和A分别使用的HL和CNN的模型,准确率没有共享权重的网络高。这是因为使用共享参数可以保证Q和A的对应的部分输出相同的结果。而且非共享权重网络需要优化双倍的参数
- 在CNN后加HL层降低了准确率,说明CNN已经充分捕捉输入的信息
- 增加CNN中filter数量可以捕捉更多信息,提高准确率
- 两层CNN可以表示高度抽象信息,从而提高准确率
- Layer-wise supervision不能提高准确率
- 加入skip-gram在test1上有效,但在test2上无效
- 在相似度指标上,作者设计的两个相似度指标(GESD,AESD)表现最好。具体结果详见论文
【论文笔记】APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK相关推荐
- 《Applying Deep Learning to Answer Selection: A Study And an Open Task》文章理解小结
本篇论文是2015年的IBM watson团队的. 论文地址: 这是一篇关于QA问题的一篇论文: 相关论文讲解1.https://www.jianshu.com/p/48024e9f7bb22.htt ...
- 图像隐写术分析论文笔记:Deep learning for steganalysis via convolutional neural networks
好久没有写论文笔记了,这里开始一个新任务,即图像的steganalysis任务的深度网络模型.现在是论文阅读阶段,会陆续分享一些相关论文,以及基础知识,以及传统方法的思路,以资借鉴. 这一篇是Medi ...
- 论文笔记:Deep Learning [nature review by Lecun, Bengio, Hinton]
如今,机器学习的技术在我们的生活中扮演着越来越重要的角色.从搜索引擎到推荐系统,从图像识别到语音识别.而这些应用都开始逐渐使用一类叫做深度学习(Deep Learning)的技术. 传统机器学习算法的 ...
- 论文笔记 - 《Deep Learning》(Yann LeCun Yoshua Bengio Geoffrey Hinton) 精典
深度学习的奠基 作者:Yann LeCun,Yoshua Bengio & Geoffrey Hinton(三位大神) Geoffrey Hinton:谷歌副总裁 兼 工程研究员(多伦多大学的 ...
- 论文笔记之Deep Learning on Image Denoising: An Overview
2 图像去噪深度学习方法的基本框架 2.1图像去噪的机器学习方法 监督学习; 无监督学习; 半监督学习; 2.2用于图像去噪的神经网络 2.3 用于图像去噪的CNN LeNet使用不同大小的卷积核来提 ...
- Machine Learning 务实----Applying deep learning to real-world problems
1. Pre-tuning method 在现实世界里应用ML,得到大量精确标注的数据是昂贵的. 如果只有少量精确标注的数据,pre-tuning method可以帮助提升最后训练模型的精度[1]. ...
- 加密流量分类-论文1:Deep Learning for Encrypted Traffic Classification: An Overview
加密流量分类-论文1:Deep Learning for Encrypted Traffic Classification: An Overview 0.摘要 1.介绍 2.网络流量分类流程框架 2. ...
- 读Applying Deep Learning To Airbnb Search有感
读Applying Deep Learning To Airbnb Search有感 介绍 Airbnb的房屋预订系统对于房主和租客来说是一个双向的平台,房主想出租他们的空间,租客想预订房间.airb ...
- 论文阅读:Deep Learning in Mobile and Wireless Networking:A Survey
论文阅读:Deep Learning in Mobile and Wireless Networking:A Survey 从背景介绍到未来挑战,一文综述移动和无线网络深度学习研究 近来移动通信和 5 ...
最新文章
- 设计一个成功的微服务,堪称必备的9个基础知识
- python读取excel文件-python读取excel文件
- 设计模式之: 装饰器模式
- 深入剖析Redis系列(四) - Redis数据结构与全局命令概述
- 洛谷 P2919 [USACO08NOV]守护农场Guarding the Farm
- Android 之WebView实现下拉刷新和其他相关刷新功能
- python连接数据库步骤_Python连接mysql数据库
- jQueryPager(JQuery分页插件pagination实现Ajax分页)
- 日前加拿大平板厂商 Datawind和印度运营商Reliance Communications日前宣布合作
- 手机下载的Termux如何利用you-get 下载视频
- html展开折叠菜单,纯CSS竖向滑动展开折叠菜单
- 混淆电路的优化:PP、Free XOR、GRR
- 游戏制作流程全息解密
- 阿里云校验用户身份证信息是否是真实有效,姓名和身份证号是参数
- 如何手动下载并安装 Visual Studio Code 的 SAP Fiori tools - Extension Pack 扩展
- 021淘宝轮播图制作
- java中 Excel文件解析及超大Excel文件读写
- java和js实现省市县级连
- 7-14 电话聊天狂人(25 分)
- 如何给网站做SEO优化?
热门文章
- 重磅直播|激光雷达在高精地图中的应用
- 那些你所不知道的arXiv使用技巧
- 【SLAM】ORB-SLAM:让人Orz的SLAM
- js调整数组某些元素到指定位置顺序_Js数组里剔除指定的元素(不是指定的位置)...
- Reinhard经典色彩迁移算法
- RDKit | 基于RDKit和化学信息学探索化学空间
- GROMACS运行参数整理(一)
- 第十二课.统计推断的基本思想
- 第一课.深度学习简介
- c语言包括在方括号中的序号称为,自考《高级语言程序设计》知识点总结(四)...