点击上方,选择星标置顶,每天给你送干货

阅读大概需要9分钟

跟随小博主,每天进步一丢丢

来自:专知

【导读】本篇论文使用时间门同步学习文本对之间的语义特征,在 Quasi Recurrent Neural Network (QRNN) 模型的基础上进行创新,提出新的模型Cross Temporal Recurrent Network (CTRN)。论文通过对问题和答案对的遗忘门和输出门的信息中获益,从而学习QA的联合序列对。

QRNN

01

通过结合LSTM和CNN的特征构成的QRNN,其结合了RNN和CNN的特征:

  • 像CNN一样,基于时间步维度和minibatch维度上进行并行计算

  • 像RNN一样,允许输出依赖之前的元素,即过去时间依赖性

与LSTM和CNN一样,QRNN可以分解为2个组件:卷积和池化

与LSTM相比,并行化提高了QRNN的速度,因此作者论文中提出的模型基于QRNN,因为门是预先学习的,它能够容易的在两个QRNN之间对齐时间门。而在LSTM中对齐时间门可能非常麻烦且低效。更重要的一点是QRNN的时间门具有关于整个序列的全局信息而LSTM不具有全局信息。

  • 卷积

给一组长L的序列,每个向量的维度为m,QRNN的卷积内部结构遵循如下公式:

X表示维度为m,长度为L的序列,都是R^{k×n×m}的张量,*表示是以k为宽度的序列维度上的窗口滑动。

  • 池化

Bradbury et al. 2016在论文中池化部分提到了3种方案:f-pooling(动态平均池化)、fo-pooling(基于动态平均池化)、ifo-pooling,本篇论文作者提到了fo-pooling(基于动态平均池化),具有一个独立的输入门和遗忘门:

用公式表示:

这里,c_t表示为神经元状态,h_t表示为隐藏状态,f_t,o_t分别表示为t时刻的遗忘门和输出门。

CTRN

02

作者在论文中提出的模型为 Cross Temporal Recurrent Network (CTRN)

  • Embedding+Projection Layer

模型输入包括两部分(问题q和答案a对),通过embedding层输出一个n维向量,然后通过projection layer输出m维向量

  • Quasi-Recurrent Layer (即QRNN网络)

输入L个向量,并经过3个1D卷积运算获得矩阵Zs,Fs,Os,s={q,a}

  • Light weight Temporal Crossing(LTC)

LTC是作者模型的创新点,在QRNN的基础上进行延伸,在这一层中,有两个CTRN cell,分别是CTRN-Q,CTRN-A,分别代表问题和答案两个部分。从图中可以看出这层中CTRN cell的出入包括5部分,拿CTRN-Q来说,一部分来自自身卷积的输出zq,fq,oq,另一部分来自answer的卷积输出oa,f_a,具体情况如下所示:

这个CTRN-Q包括两步,首先在Zq上应用Fq,Oq,其次将Fa,Oa应用到Zq上,具体计算如下:

t∗ 在这里表示问题和答案的对齐时间,因为他们的序列长度可能不同,计算公式为:

又因为CTRN-Q和CTRN-A是对称的,所以我们可以写出CTRN-A的计算公式:

然后,我们对得到的问题和答案用一个公式表达,对于每个t的隐藏状态进行点乘计算,即:

  • Temporal Mean Pooling Layer

CTRN的输出为一组隐藏状态[h1s,h2s…hLs],在这一层对 CTRN-Q和CTRN-A进行平均pooling计算

  • Softmax Layer and Optimization

最后,将上层的 输出进行二分类的softmax计算:

损失函数:

θ 包含所有的参数,优化器为Adam Optimizer。

实验

03

作者在3个数据集上进行对比:YahooQA、QatarLiving、 TrecQA

TrecQA 数据集有两种训练集:TRAIN、TRAIN-ALL。TRAIN-ALL中包含更多的QA对,同时也包含更多的不利因素。

  • 评估指标

不同数据集采用不同的评估指标。对于YahooQA,采用 P@1 (Precision@1) 和 MRR (Mean Reciprocal Rank);对于QatarLiving,采用n P@1 和 MAP (Mean Average Precision);对于TrecQA,采用MAP和MRR。

  • 实验细节

对于CTRN模型,将输出维度(filter的数量)调整为128的倍数,并且使用单层的CTRN和QRNN,MLP的层数从[1,3]中调整,学习率在{10−3,10−4,10−5},批量大小调整为{64,128,256,512},dropout设置为0.5,L2正则化设置为4×10−6。

  • 实验结果

从上述表格我们可以看到:在这个数据集上,LTC机制比soft-attention更有效;这个评价指标更能看出CTRN与QRNN之间的差异。

作者将CTRN模型与其他模型在数据集TRECQA进行比较,可以看出CTRN的效果更胜一筹。

从时间上边看,完成一个epoch的训练时长相差甚远,QRNN与CTRN相差无几,其他三个模型的时长都相对来说较长。

方便交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。记得备注呦推荐阅读:
【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文
【一分钟论文】IJCAI2019 | Self-attentive Biaffine Dependency  Parsing【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译【一分钟论文】Semi-supervised Sequence Learning半监督序列学习【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing详解Transition-based Dependency parser基于转移的依存句法解析器
经验 | 初入NLP领域的一些小建议学术 | 如何写一篇合格的NLP论文干货 | 那些高产的学者都是怎样工作的?一个简单有效的联合模型
近年来NLP在法律领域的相关研究工作
让更多的人知道你“在看”

【论文笔记】基于LSTM的问答对排序相关推荐

  1. AAAI 2018论文解读 | 基于文档级问答任务的新注意力模型

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  2. 论文笔记--基于 FCM 聚类的跨模态人物图像标注方法-2015

    期刊论文-基于 FCM 聚类的跨模态人物图像标注方法-2015-微型电脑应用-赵昀,张翌翀 文末附人脸标注相关论文下载地址 文章目录 摘要 技术 人脸检测与特征表示(与2012年吴伟硕士论文<跨 ...

  3. [论文笔记]基于 CNN+双向LSTM 实现服饰搭配的生成

    论文:<Learning Fashion Compatibility with Bidirectional LSTMs> 论文地址:https://arxiv.org/abs/1707.0 ...

  4. 论文笔记 | 基于深度学习的乳腺转移瘤识别(Deep Learning for Identifying Metastatic Breast Cancer)

    论文阅读笔记:原文链接 摘要 生物医学图像国际研讨会(International Symposium on Biomedical Imaging,ISBI)举办了一个在前哨淋巴节点全幻灯图中自动检测转 ...

  5. 论文笔记-基于BiLSTM 模型的漏洞检测

    一.摘要 ​ 首先从源代码中提取方法体,形成方法集:为方法集中的每个方法构建抽象语法树,借助抽象语法树抽取方法中的语句,形成语句集:替换语句集中程序员自定义的变量名.方法名及字符串,并为每条语句分配一 ...

  6. 论文笔记-基于代码属性图和Bi-GRU的软件脆弱性检测方法

    一.摘要 ​提出了一种基于代码属性图和Bi-GRU的软件脆弱性检测方法.该方法通过从函数的代码属性图中提取出抽象语法树序列.控制流图序列作为函数表征的表征方式,减少代码表征过程中的信息的损失,并通过选 ...

  7. 论文笔记——基于多传感器融合的移动机器人SLAM算法研究

    创新点: 1.松耦合地图匹配优化算法: 采用了独立运行各SLAM系统并通过附加的管理程序实现各SLAM系统数据的交互.由于激光SLAM在位姿估计精度上优于视觉SLAM,管理程序在SLAM运行过程中实时 ...

  8. 论文笔记——基于多传感器融合的紧耦合SLAM系统

    思路:基于视觉.激光雷达.IMU紧耦合的SLAM系统,实现了一个基于非线性优化的滑动窗口的状态估计方案. 创新点: (1)采用加强平面特征点空间约束的特征提取方案对点云进行特征提取,在降低点云总数的同 ...

  9. 论文笔记——基于因子图消元优化的多传感器融合定位算法

    创新点: 为了提高抗干扰性和容错能力,在链式因子图模型中加入滑动窗口用于保留窗口内历史状态信息:同时为了避免高维矩阵运算,引入消元算法将因子图转化为贝叶斯网络,依次边缘化历史状态,实现矩阵降维. 提出 ...

  10. 论文笔记: 基于 BMF 和 GreConD 的推荐

    Context-Aware Recommender System Based on Boolean Matrix Factorisation 1.1 使用了 BMF-based approach 这个 ...

最新文章

  1. 设置默认Browser
  2. OpenCASCADE绘制测试线束:几何命令之概述
  3. 业务配置开发平台qMISPlat 2.0 产品介绍
  4. C++静态数据成员和静态成员函数
  5. Jquery Div居中
  6. 18复变函数的积分(四)
  7. 三、JVM — 类加载过程
  8. 在C#中什么时候用分号?
  9. 泛微E-Office v9任意文件上传(CNVD-2021-49104)复现
  10. js pdf文件 如何调用打印机打印_js直接打印pdf文件内容
  11. 计算机算法相关英文词汇,2021计算机算法相关术语的英语词汇
  12. 双人版井字棋游戏c语言设计报告,井字棋游戏课程设计总结报告.doc
  13. 用python输出世界你好_Hello World! (你好,世界!)
  14. shader篇-动画
  15. 使用Windows自带工具WINSat给硬盘测速
  16. 台式计算机联网,台式电脑怎么联网宽带
  17. 广东省计算机二级c语言真题,广东省计算机二级考试题及答案
  18. JSP设置Excel表格换行_外企大公司的 Excel 表格,都是这样设置隐藏的
  19. 电子商务系统的设计与实现:数据库设计
  20. 谢少荣到计算机学院,我校校友谢少荣应邀回母校交流并受聘顾问教授

热门文章

  1. 转移符 个人工作中使用记录一下
  2. scala Basic 第三课
  3. Phoenix 映射 HBase + Maven
  4. IDA7.0安装keypatch和findcrypt-yara插件
  5. python函数语法学习
  6. spring 容器的理论知识
  7. 2. Linear Model
  8. python入门必备知识总结
  9. 整合Settings.bundle显示版本信息
  10. 数据库语句数据库学习(3)——数据库的创建与删除