一、简介

这篇论文的任务是问答,输入一个question,从候选集中找到对应的answer。其实也可以看成paraphrase identification任务,或者是短文本匹配。

文中使用的数据集是insuranceQA,数据规模如下。

这篇论文的特色是“齐全”,作者设计了6种CNN结构 + 8种相似度实验,最终在数据集上得到0.653的准确率。作者给出了详细的实验结果,这些结论可以让我们少走许多弯路。

二、模型

2.1 CNN结构

符号定义

  1. HL(hidden layer) ,W是权重矩阵,B是偏置向量。
  2. CNN。卷积层
  3. P。1-MaxPooling
  4. T。tanh层

2.1.1 CNN结构1​​​​​​​

如图1所示,对于输入Q和A分别使用HL层+CNN层提取特征,然后经过MaxPooling+tanh得到sentence的信息,再计算Q和A的相似度。

2.2.2  CNN结构2

输入Q和A通过权值共享的HL+ CNN层得到特征,然后各种经过MaxPooling + tanh得到sentence的信息,最后计算Q和A的相似度。如图2所示。

2.2.3 CNN结构3

与CNN结构2类似,不同的地方是在计算相似度之前加入对Q和A分别加一层HL。如图3所示:

2.2.4 CNN结构4

与CNN结构2类似,不同的是在计算相似度之前,对Q和A使用一个权值共享的HL层。如图4所示:

2.2.5 CNN结构5

此结构在CNN结构2的基础上,在CNN后又加了一层CNN,其他类似。如图5所示:

2.2.6 CNN结构6

与CNN结构5类似,都是2层CNN,不同的是结构6每层CNN后都会接P+T,然后计算两次损失函数。如图6所示:

2.2.7 其他结构

除此之外,作者还对以下三个方面进行实验

  1. CNN的filter数量
  2. 卷积操作加入了skip-bigrams,会对不相邻的词进行卷积
  3. 使用了不同的相似度指标进行实验

2.3 损失函数

对于输入的Q,训练集中有一个正确的A+(groud truth),同时通过采样得到一个负样本A-,我们计算cos(Q, A+),和cos(Q, A-)。那最终的目标就是使这两个相似度之间的距离大于m,对应的hinge loss如下:

2.4 实验结果

2.3.1 不同CNN结构实验

如上表所示,实验中第一个baseline是使用Wordvector的词袋模型,第二个baseline是信息检索的WD模型。其中Architecture就是前面介绍的各种CNN结构,AugmentedCNN结构使用了skip-bigrams。下面说一些实验结论

  1. 论文提出的新方法优于两个baseline
  2. 对于Q和A分别使用的HL和CNN的模型,准确率没有共享权重的网络高。这是因为使用共享参数可以保证Q和A的对应的部分输出相同的结果。而且非共享权重网络需要优化双倍的参数
  3. 在CNN后加HL层降低了准确率,说明CNN已经充分捕捉输入的信息
  4. 增加CNN中filter数量可以捕捉更多信息,提高准确率
  5. 两层CNN可以表示高度抽象信息,从而提高准确率
  6. Layer-wise supervision不能提高准确率
  7. 加入skip-gram在test1上有效,但在test2上无效
  8. 在相似度指标上,作者设计的两个相似度指标(GESD,AESD)表现最好。具体结果详见论文

【论文笔记】APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK相关推荐

  1. 《Applying Deep Learning to Answer Selection: A Study And an Open Task》文章理解小结

    本篇论文是2015年的IBM watson团队的. 论文地址: 这是一篇关于QA问题的一篇论文: 相关论文讲解1.https://www.jianshu.com/p/48024e9f7bb22.htt ...

  2. 图像隐写术分析论文笔记:Deep learning for steganalysis via convolutional neural networks

    好久没有写论文笔记了,这里开始一个新任务,即图像的steganalysis任务的深度网络模型.现在是论文阅读阶段,会陆续分享一些相关论文,以及基础知识,以及传统方法的思路,以资借鉴. 这一篇是Medi ...

  3. 论文笔记:Deep Learning [nature review by Lecun, Bengio, Hinton]

    如今,机器学习的技术在我们的生活中扮演着越来越重要的角色.从搜索引擎到推荐系统,从图像识别到语音识别.而这些应用都开始逐渐使用一类叫做深度学习(Deep Learning)的技术. 传统机器学习算法的 ...

  4. 论文笔记 - 《Deep Learning》(Yann LeCun Yoshua Bengio Geoffrey Hinton) 精典

    深度学习的奠基 作者:Yann LeCun,Yoshua Bengio & Geoffrey Hinton(三位大神) Geoffrey Hinton:谷歌副总裁 兼 工程研究员(多伦多大学的 ...

  5. 论文笔记之Deep Learning on Image Denoising: An Overview

    2 图像去噪深度学习方法的基本框架 2.1图像去噪的机器学习方法 监督学习; 无监督学习; 半监督学习; 2.2用于图像去噪的神经网络 2.3 用于图像去噪的CNN LeNet使用不同大小的卷积核来提 ...

  6. Machine Learning 务实----Applying deep learning to real-world problems

    1. Pre-tuning method 在现实世界里应用ML,得到大量精确标注的数据是昂贵的. 如果只有少量精确标注的数据,pre-tuning method可以帮助提升最后训练模型的精度[1]. ...

  7. 加密流量分类-论文1:Deep Learning for Encrypted Traffic Classification: An Overview

    加密流量分类-论文1:Deep Learning for Encrypted Traffic Classification: An Overview 0.摘要 1.介绍 2.网络流量分类流程框架 2. ...

  8. 读Applying Deep Learning To Airbnb Search有感

    读Applying Deep Learning To Airbnb Search有感 介绍 Airbnb的房屋预订系统对于房主和租客来说是一个双向的平台,房主想出租他们的空间,租客想预订房间.airb ...

  9. 论文阅读:Deep Learning in Mobile and Wireless Networking:A Survey

    论文阅读:Deep Learning in Mobile and Wireless Networking:A Survey 从背景介绍到未来挑战,一文综述移动和无线网络深度学习研究 近来移动通信和 5 ...

最新文章

  1. 设计一个成功的微服务,堪称必备的9个基础知识
  2. python读取excel文件-python读取excel文件
  3. 设计模式之: 装饰器模式
  4. 深入剖析Redis系列(四) - Redis数据结构与全局命令概述
  5. 洛谷 P2919 [USACO08NOV]守护农场Guarding the Farm
  6. Android 之WebView实现下拉刷新和其他相关刷新功能
  7. python连接数据库步骤_Python连接mysql数据库
  8. jQueryPager(JQuery分页插件pagination实现Ajax分页)
  9. 日前加拿大平板厂商 Datawind和印度运营商Reliance Communications日前宣布合作
  10. 手机下载的Termux如何利用you-get 下载视频
  11. html展开折叠菜单,纯CSS竖向滑动展开折叠菜单
  12. 混淆电路的优化:PP、Free XOR、GRR
  13. 游戏制作流程全息解密
  14. 阿里云校验用户身份证信息是否是真实有效,姓名和身份证号是参数
  15. 如何手动下载并安装 Visual Studio Code 的 SAP Fiori tools - Extension Pack 扩展
  16. 021淘宝轮播图制作
  17. java中 Excel文件解析及超大Excel文件读写
  18. java和js实现省市县级连
  19. 7-14 电话聊天狂人(25 分)
  20. 如何给网站做SEO优化?

热门文章

  1. 重磅直播|激光雷达在高精地图中的应用
  2. 那些你所不知道的arXiv使用技巧
  3. 【SLAM】ORB-SLAM:让人Orz的SLAM
  4. js调整数组某些元素到指定位置顺序_Js数组里剔除指定的元素(不是指定的位置)...
  5. Reinhard经典色彩迁移算法
  6. RDKit | 基于RDKit和化学信息学探索化学空间
  7. GROMACS运行参数整理(一)
  8. 第十二课.统计推断的基本思想
  9. 第一课.深度学习简介
  10. c语言包括在方括号中的序号称为,自考《高级语言程序设计》知识点总结(四)...