本文是机器阅读理解论文的第二篇,发表于2015年。论文提出了新的训练集,即CNN和每日邮报的新闻语料库,并针对此数据集构建了新的深度学习模型。以下是对论文的部分翻译和解读

摘要:

让机器阅读自然语言文件仍然是一个非常难的挑战。目前可以根据机器阅读系统阅读过文章后回答问题的能力进行测试,但是这类评估还缺少大规模的训练和测试数据集。本文提出了一种新的方法以解决这个问题,并提供大规模的可用于监督学习的阅读理解数据。 这使我们能够开发一类基于注意力的深度神经网络,可以学习阅读真实文档并以最少的语言结构的先验知识来回答复杂问题。

1.简介:

传统的机器阅读理解算法通常是基于手工设置语法,或者信息抽取方法,检测谓词元组然后可以用关系数据库查询。因为缺少大规模的训练数据,以及在构建可以学习文档结构的概率模型上还有困难,监督学习的方法还没有被大量使用。(2015年)

本文提出了一个新的方法用于构建用于监督学习的阅读理解数据。我们发现使用简单的实体检测匿名算法可以将总结性和释义性的句子与相关文档转化成(上下文-查询-答案)的元组。使用这种算法我们在CNN和每日邮报(Daily Mail)网站上采集了约一百万个新闻和相应的问题,组成了两个新的语料库。

上图是语料库的数据。CNN语料库采集了2007年4月到2015年4月CNN上的文章,其中2015年3月的数据作为验证集,2015年4月的数据作为测试集。每日邮报语料库采集了2010年5月到2015年4月的文章,与CNN一样,也是用最后两个月的数据分别作为验证集和测试集。另外,还剔除了超过2000字的文章和文本中没有确切答案的问题。

为了展示两个新语料库的带来的效果,本文还针对阅读理解任务构建了新的深度学习的模型。这些模型基于循环神经网络和注意力机制,在与传统方法的比较中更胜一筹。

2.阅读理解中的监督训练数据

阅读理解任务是一个监督学习问题,具体来说就是估计条件概率p(a|c,q),c是上下文文档,q是与该文档相关的查询,a是这个查询的答案。为了能够更好的评估模型的性能,我们希望能够去掉如常识(world knowledge)之类的额外信息。我们在CNN和每日邮报网站上各采集了93k和220k篇文章。两个新闻提供商还为每篇文章补充了一定数量的要点、总结。这些总结都是比较凝练的,并不是从文章中的句子copy出来的。通过将这些要点转化为完形填空风格的问题,每次替换其中的一个实体,我们创建了一个文档-查询-答案的语料库。

2.1实体替换和置换

本文旨在提供以评估模型阅读理解单篇文档的能力的语料库,而不是为了提取出常识或共现词(co-occurrence),比如如下完形填空风格的查询:

  1. The hi-tech bra that helps you beat breast X;
  2. Could Saccharin help beat X ?;
  3. Can fish oils help fight prostate X ?

虽然没有完整地上下文,但在每日邮报数据集上训练出来的n元语言模型依然可以准确地预测到(X=cancer),仅仅因为这是在语料库中经常出现的词。为了防止出现这种情况,本文按照如下过程对语料库进行了匿名化和随机化处理:

  1. 使用指代系统为每个数据点创建指代(coreferent)。
  2. 根据指代将所有的实体(Entity)替换为抽象的实体标记。
  3. 加载数据的时候对这些实体标记进行置换。

3.模型

本文对符号匹配模型和神经网络模型进行了比较和测试。

未完待续…

机器阅读理解论文必读论文(二): Teaching Machines to Read and Comprehend相关推荐

  1. 【博文笔记】Attentive Reader\Impatient Reader:机器阅读理解之开山之作Teaching Machines to Read and Comprehend

    来源 参考博客: 机器阅读理解(看经典MRC模型与花式Attention) CNN&Dailymail:Teaching Machines to Read and Comprehend 论文: ...

  2. 【论文笔记09】Teaching Machines to Read and Comprehend

    本文主要做出了两个大的贡献: 给出了阅读理解数据集的构造方法,并开源了两个阅读理解数据集: 提出了三种神经网络模型作为baseline,以方便后面的研究者进行相关的研究. 1 数据构造 主要是从新闻网 ...

  3. 解读ACL2020的一篇机器阅读理解方向的论文(Recurrent Chunking Mechanisms for Long-text machine reading comprehension)

    BERT在MRC任务上已经达到了很高的效果,但是缺点在于BERT的输入最多只能512个单词.而对于MRC任务来说,有的数据集的文章特别长.因此想要用BERT处理这类数据集,就必须将文章切分开.每一篇文 ...

  4. Teaching Machines to Read and Comprehend

    序 看博客都说<Teaching Machines to Read and Comprehend>是机器阅读理解的开山作,今天就来好好理一波. 网上没有找到对应tensorflow的代码, ...

  5. 2021秋招-机器阅读理解整理

    机器阅读理解整理 经典模型整理 笔记 后Bert时代机器阅读理解 后续 自己论文整理 已经分类整 大的实验室: UCL MRC_Group: AI2: 微软: THU: PKU: 数据集文章 ROPE ...

  6. 机器阅读理解 / 知识库 / 深度学习 / 对话系统 / 神经机器翻译 | 本周值得读

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  7. NLP 作业:机器阅读理解(MRC)综述

    最近自己会把自己个人博客中的文章陆陆续续的复制到CSDN上来,欢迎大家关注我的 个人博客,以及我的github. 本文主要是我的 NLP 作业--机器阅读理解的综述,内容很少涉及到模型的具体架构和相关 ...

  8. 清华 NLP 团队推荐:必读的77篇机器阅读理解论文

    https://mp.weixin.qq.com/s/2VhgEieBwXymAv2qxO3MPw [导读]机器阅读理解(Machine Reading Comprehension)是指让机器阅读文本 ...

  9. 机器阅读理解必读论文

    论文1:2015 NIPS Teaching Machines to Read and Comprehend 论文2:2016 ACL Text Understanding with the Atte ...

最新文章

  1. Web漏洞扫描(二:Windows server2008 R2操作系统(部署dvwa))
  2. mega_[MEGA DEAL]完整的Java捆绑包(96%折扣)
  3. 使用Servlet上传多张图片——Dao层(ProductInfoDao.java)
  4. MySql PreparedStatement用法 及 Transaction处理
  5. 企业级OpenCV、图像识别资料免费下载,仅此1天!
  6. 动态计算未知盒子的高度
  7. java线程的小问题与回答
  8. content的定义
  9. 手机丢了,支付宝和微信里面的钱该怎么办?
  10. Android addr2line和 c++filt使用
  11. 机器学习面试-数学基础
  12. [汇编] 十进制与十六进制互转
  13. linux的yum命令无法使用在哪里下载_Centos Linux下载rpm软件包(基础环境篇)-从零到无 - 飞翔的小胖猪...
  14. AMPL|区块链项目介绍
  15. mongodb执行sql脚本文件
  16. C#中Panel控件的使用
  17. c++编译时出现discards qualifiers [-fpermissive]的错误
  18. linux运行img文件格式,img是什么格式?img文件怎么打开?
  19. 李白藏头诗鸿蒙,女子示爱的诗词
  20. 单片机cant通讯 c语言,基于C8051F040单片机的CAN总线通信

热门文章

  1. 数据挖掘中所需的概率论与数理统计知识、上
  2. 微分几何与广义相对论教程
  3. OCPC不起量该怎么办?从这四个方面着手,轻松起量
  4. 苹果计算机使用方法,不知道这10个Mac使用技巧,别说你会用苹果电脑
  5. 网络服务器未运行是什么原因是,Win7系统网络诊断提示诊断策略服务未运行怎么办?...
  6. 算法设计与分析第十三次作业
  7. 这款必应出品的壁纸软件也太棒了
  8. java bks证书_如何创建包含客户端证书链的BKS(BouncyCastle)格式的Java密钥库
  9. win10 caffe安装,mnist训练,测试
  10. 大道至简大巧不工——和田玉雕中的哲学