论文笔记整理:王春培,天津大学硕士。


链接:https://arxiv.org/pdf/1912.00879.pdf

动机

本文主要聚焦问答系统(Q&A)的反问题---问题生成(Question Generation,Q&G)。问题生成的目的是在给定上下文和相应答案的情况下生成语义相关的问题,问题生成任务可分为两类:一类是基于规则的方法,即在不深入理解上下文语义的情况下手动设计词汇规则或模板,将上下文转换成问题。另一类是基于神经网络的、直接从语句片段中生成问题词汇的方法,包括序列-序列模型(seq-to-seq)、编码器解码器(encoder-decoder)等。本文讨论的是后一种基于神经网络的问题生成方法。

目前,基于神经网络的问题生成模型主要面临以下两个问题:(1)错误的关键词和疑问词:模型可能会使用错误的关键词和疑问词来提问;(2)糟糕的复制机制:模型复制与答案语义无关的上下文单词。本文旨在解决以上两个问题。

亮点

本文的亮点主要包括:

(1)以多任务学习的方式学习句子级语义

(2)引入答案位置感知。

概念及模型

本文提出,现有的基于神经网络的问题生成模型之所以出现上述两个问题是因为:

(1)解码器在生成过程中可能只关注局部词语义而忽略全局问题语义;

(2)复制机制没有很好地利用答案位置感知特征,导致从输入中复制与答案无关的上下文单词。为了解决这两个问题,作者提出以多任务学习的方式学习句子级语义,以及引入答案位置感知。

模型体系结构

下图为具有句子级语义匹配、答案位置推断和门控融合的神经问题生成模型图:

给定包含答案 A 的语句 X=[x1,x2,...,xm],基于连续扩展的语句,生成与 X 和 A 语义匹配的问题 Y。与文献 [1] 的方法一致,利用扩展的语义和词汇特征、部分语音标签、答案位置特征等作为 seq-to-seq 模型嵌入层的输入,利用双向 LSTM 作为编码器,通过链接前向隐藏状态和后向隐藏状态生成句子表示 H=[h1,h2,...,hm]:

答案感知门控融合:使用两个由 Sigmoid 函数计算的信息流门来控制句子向量和答案向量的信息流,将答案起始位置的隐藏状态作为答案向量 h_a,使用双向 LSTM 编码整个答案语义。

解码器(Decoder):以编码器的隐藏状态 H=[h1,h2,…,hm] 作为上下文和改进的答案感知句子向量 z 作为初始隐藏状态 s1,一层单向 LSTM 用先前解码的单词作为输入wt更新其当前隐藏状态st。

利用注意力机制将当前解码器状态 s_t 赋给编码器上下文 H=[h1,h2,…,hm]。使用归一化处理后的注意向量α_t 的加权求和结果计算上下文向量 c_t。基于词典 V,计算问题单词 y_t:

其中,f 由两层前馈网络实现。

注意力机制:使用注意力机制生成大小为 V 的单词,或从输入语句 X 中复制单词。在生成问题词 y_t 时,考虑到当前解码器的隐藏状态 s_t 和上下文向量 c_t,计算一个复制开关来确定生成的词是从字典生成的还是从源语句复制的。

生成模式概率和复制模式概率相结合,得到最终的单词分布:

使用负对数似然来计算序列-序列的损失:

句子级语义匹配:通过门控融合得到了改进的答案感知句子向量 z。对于解码器(单向 LSTM),采用最后一个隐藏状态 s_n 作为问题向量。训练两个分类器,分别将非语义匹配对 [z,S』_n](S,Q』)和 [z』,S_n](S,Q)与语义匹配对 [z,S_n](S,Q)区分开来,其中 z』和 s』是同一段落中随机抽取的不匹配句子和问题的向量。

将两个分类器的二元交叉熵之和作为句子级语义匹配损失:

具体流程如下所示:

答案位置推断:引入双向注意力流网络推断答案位置,如下图:

采用句子对问题注意和问题对句子注意来强调每个句子词和每个问题词之间的相互语义关联,并利用相似的注意机制得到了问题感知的句子表征 H 和句子感知的问题表征 S:

然后,使用两个两层双向 LSTMs 来捕获以问题为条件的句子词之间的相互作用。答案起始索引和结束索引由输出层使用 Softmax 函数预测:

其中,f 函数是一个可训练的多层感知(MLP)网络。使用真值答案起始标记 y1 和结束标记的负对数似然来计算损失:

为了在多任务学习方法中联合训练生成模型和所提出的模块,训练过程中的总损失函数记为:

实验

作者在 SQuAD 和 MARCO 两个数据集上进行了实验,使用 NQG++[1]、Point-generator[2] 以及 SOTA 模型、门控自注意力机制模型等作为基线对比算法。表 3 给出了 SQuAD 和 MS-MARCO 数据集上不同模型的主要指标,在文章所述的实验条件下,本文提出的模型在全部主要指标上都优于基线对比算法。

总结

与现有的问答系统、问题生成模型的处理方式不同,本文并不是通过引入更多的有效特征或者改进复制机制本身等来改进模型效果,而是直接在经典序列-序列模型(seq-to-seq)中增加了两个模块:句子级语义匹配模块和答案位置推断模块。此外,利用答案感知门控融合机制来增强解码器的初始状态,从而进一步改进模型的处理效果。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 - AAAI2020 | 通过句子级语义匹配和答案位置推断改善问题生成相关推荐

  1. 论文浅尝 - AAAI2020 | 从异质外部知识库中进行基于图的推理实现常识知识问答...

    会议:AAAI2020 论文链接:https://arxiv.org/pdf/1909.05311.pdf 摘要 常识问答旨在回答需要背景知识的问题,而背景知识并未在问题中明确表达.关键的挑战是如何从 ...

  2. 论文浅尝 - AAAI2020 | 多轮对话系统中的历史自适应知识融合机制

    论文笔记整理:潘锐,天津大学硕士. 链接:https://www.aaai.org/ojs/index.php/AAAI/article/view/6425 来    源:AAAI 2020 论文简介 ...

  3. 论文浅尝 - AAAI2020 | 通过知识库问答改善知识感知对话生成

    论文笔记整理:胡楠,东南大学博士. 来源:AAAI 2020 动机 现在的将外部知识整合到对话系统中的研究仍然存在一定缺陷.首先,先前的方法难以处理某些语句的主语和关系,比如当语句中的相关实体彼此相距 ...

  4. 论文浅尝 - ACL2022 | 基于多语言语义解耦表示的跨语言迁移方法实现多语言阅读理解...

    论文作者:吴林娟,天津大学,研究方向为自然语言理解 论文链接:http://arxiv.org/abs/2204.00996 代码地址:https://github.com/wulinjuan/SSD ...

  5. 论文浅尝 - AAAI2020 | 多通道反向词典模型

    论文笔记整理:朱珈徵,天津大学硕士,自然语言处理方向. 链接:https://arxiv.org/pdf/1912.08441.pdf 动机 反向词典将一段描述作为输入,并一起输出与该描述匹配的其他词 ...

  6. 论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...

    论文笔记整理:潘锐,天津大学硕士. 来源:AAAI 2020 链接:https://arxiv.org/pdf/1912.01795.pdf 摘要 义原被定义为人类语言的最小语义单位.义原知识库(KB ...

  7. 论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法

    论文笔记整理:郝凯龙,南京大学硕士. 来源:AAAI2020 链接:https://arxiv.org/pdf/1911.10699.pdf 动机 推荐系统实际上是在做用户-商品二部图上的链路预测,仅 ...

  8. 论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习

    论文笔记整理:耿玉霞,浙江大学直博生.研究方向:知识图谱,零样本学习等. 来源:AAAI2020 论文链接:https://arxiv.org/pdf/2001.02332.pdf 本文是发表在AAA ...

  9. 论文浅尝 - AAAI2020 | 利用自然语言推断生成人称一致的对话

    链接: https://arxiv.org/pdf/1911.05889.pdf 动机 虽然最近几年通过利用社交网络上大量人人交互数据训练开放域对话模型取得了很大的成功,但是这些数据驱动的对话系统仍然 ...

最新文章

  1. 上手!深度学习最常见的26个模型练习项目汇总
  2. 干货|TensorFlow开发环境搭建(Ubuntu16.04+GPU+TensorFlow源码编译)
  3. ubuntu19.10安装thrift
  4. 中班音乐活动 机器人_【教育生活】音乐浸润童心,专业引领成长 ——记柯桥区中心幼儿园教育集团音乐项目组教学展示与研讨活动...
  5. 雨中的蚊子为啥不会被雨滴砸死?
  6. 天池在线编程 2020国庆八天乐 - 7 进制
  7. wxml 判断 小程序_如何判断小程序外包公司是否靠谱
  8. 牛的旅行(信息学奥赛一本通-T1343)
  9. centos环境访问php显示源码,CentOS 6.8 搭建LNAMP环境(五)- PHP7源码安装Redis和Redis拓展...
  10. 阶段3 1.Mybatis_12.Mybatis注解开发_2 mybatis注解开发测试和使用注意事项
  11. html 5拜年贺卡,HTML5+CSS3实现春节贺卡
  12. Java编程题——打印“ X ”图形
  13. 判定通视的计算法公式_水准仪的后视和前视怎么区别?计算公式是什么?
  14. word2019如何清除折叠黑色三角形的方法
  15. opencv安装过程出现opencv_world300d.dll加载失败
  16. 关于SpringMVC的XML配置步骤
  17. 谈移友对两洲三地(美澳加)移民的误区
  18. 1217: 统计立方数
  19. latex 封面右上角出现数字
  20. 学计算机的做近视眼手术,长期的电脑工作者,也可以做近视眼手术矫正视力吗?...

热门文章

  1. mysql Access denied for user root@localhost错误解决方法总结
  2. STL中vectortype的复制
  3. 重庆大二学生花了6年写出了操作系统
  4. vscode 使用 ssh 登录
  5. 当卷烟厂也那么卷后……
  6. 华为这个事,是不是刷KPI?
  7. TQ210——常见问题
  8. pandas 第一行_Pandas数据预处理相关经验
  9. 嵩天python爬虫_我自己爬-python爬虫快速入门(一)
  10. python图像下采样_[Python图像处理]十二.图像向下取样和向上取样