Commonsense for Generative Multi-Hop Question Answering Tasks

链接: https://arxiv.org/abs/1809.06309

背景

机器阅读任务按照答案类型的不同,可以大致分为:

(1)分类问题: 从所有候选实体选择一个

(2)answer span: 答案是输入文本的一个片段

(3)生成式问题: 模型生成一句话回答问题

不同的数据集文档的差异也较大。如SQuAD,CNN/DM数据集来源于百科,新闻等文本,问题类型多为事实型,因而回答问题不需要综合全文多处进行综合推理,只需要包含答案的句子即可。而本文实验所用的数据集如NarrativeQA则来源于小说等,回答问题需要综合全文多处不相连片段进行推理,因此难度更大。

本文提出在NarrativeQA等需要多跳推理的文本进行生成式问题回答的模型。人工抽样数据集样本分析发现,许多样本答案的推理单凭文本包含的信息是无法完成推理并回答的,需要引入外部知识库中的常识信息。本文提出在常规的机器阅读模型中引入ConceptNet中的常识信息。

BaseLine模型

按照机器阅读模型的一般性结构,baseline模型可以分为4层:

(1)Embedding layer: 问题和文档里的每个词用预训练的词向量和ELMo向量表示

(2)Reasoning layer: 重复执行K次推理单元,推理单元的内部结构是BiDAF模型的attention层

(3)Model layer: 最后再对文档的表示做self-attention和Bi-LSTM

(4)Answer layer: pointer-generator decoder, 即RNN的每一步同时对词表和输入计算输出概率,每个词在当前位置被输出的概率为其在词表中被选中的概率和其在输入中被copy的概率之和。

改进模型:引入外部常识

常识挑选

对每一个样本,需要中外部KG中选择与之相关的多跳路径,做法如下:

(1)在KG中找出多跳路径,其中包含的实体出现在样本的问题或文档中

(2)对这些路径中的实体节点按照出现次数或PMI打分

(3)类似beam search, 从所有路径生成的输出中挑选出得分最高的一些路径,这些路径是对该样本可能有帮助的外部常识信息

模型引入常识

引入外部常识通过修改Reasoning layer中的基本单元。具体做法是,每条路径的embedding表示为其每个节点的文本embedding的简单拼接,修改后的Reasoning cell在经过BiDAF的attention结构后,再对该样本的所有外部常识三元组路径做attention计算,该attention计算再次更改文档和问题中每个词的表示。

实验结果

对比baseline模型和引入外部常识的模型可见,引入外部常识能是模型在BLEU和Rouge等指标上取得不错的提升。

对模型做ablationtest, 可以发现推理层的推理次数如果为1,模型效果下降很多,这表明模型确实在利用多跳的路径信息。另外,ELMo embedding,以及经过Reasoning层后的self-attention,都对模型的效果提升较大。

本文作者: 王梁,浙江大学硕士,研究方向为知识图谱,自然语言处理.


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 在生成式多跳机器阅读任务中引入外部常识知识相关推荐

  1. 论文浅尝 - WWW2020 | 生成多跳推理问题以改善机器阅读理解能力

    论文笔记整理:谭亦鸣,东南大学博士生. 来源:WWW 2020 链接: https://dl.acm.org/doi/pdf/10.1145/3366423.3380114 概述 这篇论文关注的任务是 ...

  2. 论文浅尝 - ICLR2020 | You Can Teach an Old Dog New Tricks!关于训练知识图谱嵌入

    论文笔记整理:谭亦鸣,东南大学博士生. 来源:ICLR2020 链接:https://openreview.net/pdf?id=BkxSmlBFvr KG embedding(KGE)模型的目标是学 ...

  3. 论文浅尝 | DRUM:一种端到端的可微的知识图谱上的规则学习方法

    论文笔记整理:张文,浙江大学在读博士,研究方向为知识图谱的表示学习,推理和可解释. 现有的多数链接预测方法都不能处理新的实体,并且多为黑盒方法,使得其预测结果无法解释.本文提出了一种新的端到端的可微的 ...

  4. 论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战

    论文笔记整理:谭亦鸣,东南大学博士. 来源:EMNLP 2020 链接:https://arxiv.org/pdf/2005.00692.pdf 1.背景介绍 跨语言实体链接(XEL)旨在将任一非英语 ...

  5. 论文浅尝 | 机器阅读理解中常识知识的显式利用

    论文笔记整理:吴林娟,天津大学硕士,自然语言处理方向. 链接:https://arxiv.org/pdf/1809.03449.pdf 动机 机器阅读理解(MRC)和人类进行阅读理解之间还存在差距,作 ...

  6. 论文浅尝 | NumNet: 一种带有数学推理的机器阅读理解模型

    论文笔记整理:吴林娟. 来源:EMNLP2019 论文链接:https://arxiv.org/pdf/1910.06701.pdf 开放源码:https://github.com/ranqiu92/ ...

  7. 论文浅尝 | 利用常识知识图谱进行多跳推理的语言生成方法

    笔记整理 | 朱珈徵,天津大学硕士. 链接:https://arxiv.org/pdf/2009.11692.pdf 动机 尽管生成式预训练语言模型在一系列文本生成任务上取得了成功,但在生成过程中需要 ...

  8. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  9. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

最新文章

  1. 如何改变线的长度?CAD .NET热门技术问答精选合集
  2. 自定义ClassLoader实现java应用核心逻辑模块热部署
  3. 新站优化工作还有一点点补充内容!
  4. STL,ATL,WTL之间的联系和区别
  5. 编程中定义的方法报异常问题
  6. html 静态资源缓存时间,.htaccess设置静态资源缓存(即浏览器缓存)
  7. 解决ORA-15097 Cannot shutdown ASM if OCR is Located in ASM
  8. Xml文档添加节点和属性
  9. 微信被指监听用户,腾讯回应;谷歌意外推送 Android 11 Beta 更新;Linux 5.7 发布 | 极客头条...
  10. 在Visual Studio Code中查找并​​替换为换行符
  11. VSCode打开文件中文乱码
  12. 计算机软考什么时候出分,2020年计算机软考什么时候出成绩,怎么查成绩?|...
  13. www.050604.pw ub.php,BOL_050604_M_010
  14. Asymmetric numeral systems (ANS)非对称数字系统最全资料整理
  15. 163邮箱哪个安全好用?常用的电子邮箱品牌有哪些?
  16. BUUCTF Web [GXYCTF2019]Ping Ping Ping [极客大挑战 2019]LoveSQL [极客大挑战 2019]Knife [极客大挑战 2019]Http
  17. 最新的Fresco加载Gif图片
  18. Java Dependence Analysis(Java静态依赖分析)
  19. zoj 2954 Hanoi Tower(汉诺塔)
  20. 什么是色选机(color sorter)?

热门文章

  1. 三十岁以前不必在乎的29件事
  2. Boost智能指针——boost::scoped_ptr(使用及原理分析)
  3. C++ int转string以及源码
  4. 双一流大学毕业的我,应该何去何从?
  5. 少写点if-else吧,它的效率有多低你知道吗?
  6. 你会选择深圳还是佛山?
  7. Linux内核品读 /基础组件/ 模块机制快速入门
  8. java io流操作_十个Demo进行讲解Java中IO流的常用操作~
  9. div为空的时候 浮动没有效果_3种CSS清除浮动的方法
  10. nsoutlineview 搜索_阿里巴巴搜索推荐广告三位一体的在线服务体系