夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI

在机器阅读理解界的ImageNet——SQuAD挑战赛中,排在前几名的算法,都能拿到八十多分的成绩。

可是,为什么我们依然觉得机器不太听/看得懂人话?

科学研究界有句老话说得好,世界上最远的距离,就是从实验环境到工程实际。

这句话是量子位现编的,不过现有的这些阅读理解数据集,的确和现实有一些距离。用DeepMind最近一篇论文里的话来说,它们“不能测试出阅读理解必要的综合方面”。

为了给算法准备一套不那么小儿科的试题,DeepMind今天发布了一个难度更高的阅读理解任务和数据集:NarrativeQA

更长的文档,更难的问题

DeepMind说,NarrativeQA是第一个基于整本书或整个剧本的大规模问答数据集

它最大的特点,就是其中大部分问题不能仅靠文档表面的模式匹配和凸显来回答,而是至少要读上几段内容,这几段内容甚至会分布在故事的各个部分。要正确答出问题,算法必须真的理解文档所讲的故事。

其实,测试机器阅读理解能力的数据集已经有不少。

比如我们在文章开头提到的SQuAD挑战赛就有同名数据集,是斯坦福大学2016年发布的,包含从536个Wikipedia条目中提取的23000个段落,10.8万个人工生成的问题。其他数据集还有以童书为阅读材料的Children’s Book Test (CBT)、BookTest,小学水平的MCTest,新闻构成的CNN/Daily Mail、NewsQA,以及搜出来的文章组成的MS MARCO和SearchQA。

DeepMind研究了这些数据集,发现他们有的规模太小或者不够自然,就算比较自然的数据集,难度也不够,里边大部分问题根据文章中一两句话,就能回答出来。

基于这些数据集存在的问题,他们在设计NarrativeQA时,先确定了几个必需的特质:要有很多问答对,这些问答要基于大量文档或者少量的长文档,问答需要是自然、自由、人工生成的,回答问题需要参考文档中的几处内容或者一长段话。他们还希望数据集的标注者不要用文档中的话来回答问题,而是换个说法,或者要考虑到文档中实体、地点、事件之间较高层次的关系。

最终,他们的NarrativeQA数据集包含1572个故事和46765个问题。

数据集中的故事文档基本是书和电影剧本,书来自古腾堡计划中的电子书,而电影剧本是从网上抓取来的。数量虽少,但是与其他数据集相比,这些文档都非常长,最长的有430061个token(也就是一本几十万字的书),而且有着不错的词汇覆盖面和多样性。

而其中的问答对,是亚马逊众包平台Mechanical Turk上的标注员根据这些书和剧本的维基百科摘要写出来的,每个文档大约对应着30对问答。

NarrativeQA中大部分问题都是“WH-”开头的,也就是“什么、谁、为什么、怎么、哪里、哪个、多少”等等。

而其中的回答,有44.05%来自文档概要,29.57%来自文档本身。

NarrativeQA数据集包含的故事中,书和剧本所占的比例差不多。整个数据集约70%被划分到训练集,7.5%被划分到验证集,22.5%被划分到测试集。

相关论文

The NarrativeQA Reading Comprehension Challenge

作者:
Tomáš Kočiský, Jonathan Schwarz, Phil Blunsom, Chris Dyer, Karl Moritz Hermann, Gábor Melis, Edward Grefenstette

地址:
https://www.arxiv-vanity.com/papers/1712.07040v1/

数据集下载

DeepMind自己公布了一个GitHub地址:
https://github.com/deepmind/narrativeqa

不过,这里只有NarrativeQA中文档的名称、链接、维基百科概要、问题和答案,并没有这些文档的全文,只给出了抓取这些文档所需要的脚本。

纽约大学的NLP专家Kyunghyun Cho表示这不能忍……他说,互联网是动态的,网页总在变,脚本说不定哪天就不管用了。

保险起见,他抓取了数据集中该有的所有文档,上传到了Google Drive。

地址:
https://drive.google.com/file/d/19ol41J8Obu-0bp5eOcaDqtt-dR_syrU-/view

量子位搬了一份到度娘的网盘,在公众号QbitAI对话界面回复“NarrativeQA”提货。

活动报名


加入社群

量子位AI社群12群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


DeepMind推出更难的机器阅读理解数据集,要让AI读懂整本书相关推荐

  1. NLP-阅读理解:“阅读理解”综述(Machine Reading Comprehension, MRC)【完形填空、多项选择、抽取式(答案片段抽取)、生成式(自由作答)】《机器阅读理解数据集》

    <原始论文:Neural Machine Reading Comprehension: Methods and Trends> 一.阅读理解概述 所谓的机器阅读理解(Machine Rea ...

  2. 一种基于抽取式的中文机器阅读理解数据集CMRC2018

    一种基于抽取式的中文机器阅读理解数据集CMRC2018 A Span-Extraction Dataset for Chinese Machine Reading Comprehension Lead ...

  3. 科大讯飞刷新SQuAD 2.0问答榜纪录,机器阅读理解全面超越人类

    近日,科大讯飞再次登上 SQuAD 2.0 挑战赛榜首,不过这次顺带刷新了一下纪录:在EM(精准匹配率)和F1(模糊匹配率)两项指标上全面超越人类平均水平,分别达到87.147和89.474.其中EM ...

  4. NLP 作业:机器阅读理解(MRC)综述

    最近自己会把自己个人博客中的文章陆陆续续的复制到CSDN上来,欢迎大家关注我的 个人博客,以及我的github. 本文主要是我的 NLP 作业--机器阅读理解的综述,内容很少涉及到模型的具体架构和相关 ...

  5. 科大讯飞刷新纪录,机器阅读理解如何超越人类平均水平? | 技术头条

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」明日开启,扫码咨询 ↑↑↑ 记者 | 琥珀 出品 | AI科技大本营(公众号ID:rgznai100) 对于日常从事模型训练的研究人员来 ...

  6. 神经机器阅读理解最新综述:方法和趋势

    作者丨刘姗姗 学校丨国防科技大学 研究方向丨自然语言处理 近年来,基于深度学习方法的机器阅读理解受到了广泛的关注.近日,来自国防科技大学的团队在arXiv上发布了预印版综述文章 Neural Mach ...

  7. 平安金融壹账通获机器阅读理解顶级赛事(SQuAD)世界第一

    IFTNews 12月3日消息:平安金融壹账通又有重大突破!继在人类情绪理解竞赛多次登顶之后, 平安金融壹账通GammaLab又在另一项国际顶级赛事上斩获第一.近日,在由斯坦福大学发起的机器阅读理解竞 ...

  8. ​京东AI研究院获QuAC机器阅读理解竞赛冠军,EL-QA模型能力业界领先

    来源:机器之心 本文约2000字,建议阅读8分钟 京东提出的 EL-QA 模型(登顶 QuAC Leaderboard,全部三项指标均获得第一名. [ 摘要 ]近日,在斯坦福大学.华盛顿大学.Alle ...

  9. SIGIR 2019 | 基于人类阅读行为模式的机器阅读理解

    作者丨张琨 学校丨中国科学技术大学博士生 研究方向丨自然语言处理 论文动机 机器阅读理解一直是自然语言处理领域的一个非常重要的研究方向,目前虽然在一些给定条件下,机器学习的方法可以取得和人类类似甚至好 ...

最新文章

  1. spring boot 打包jar,jar没有主目录清单
  2. 页面加载进度条改进版
  3. 面向对象的JavaScript编程
  4. JavaScript原型学习
  5. 对称矩阵(Symmetric Matrices)
  6. 【PHP】 debian apt 安装PHP7.1 安装composer
  7. Android AsyncTask 深度理解、简单封装、任务队列分析、自定义线程池
  8. linux写一个脚本杀进程,linux下如何自动检测并重新启动一个死掉的进程,然后再把它杀死:)(shell脚本实现)...
  9. AIM Tech Round 3 (Div. 2) A B C D
  10. 【C语言进阶深度学习记录】三十二 函数指针与使用函数指针实现回调函数
  11. 143. 最大异或对
  12. 月度开销(信息学奥赛一本通-T1243)
  13. 网络-1集线器/交换机/路由器
  14. jquery常用遍历方法
  15. 为什么大家越来越重视大数据的发展?
  16. 固定资产管理系统对企业的意义?
  17. SQL 查询速度慢原因及优化方法(转载)
  18. 微信推送封面尺寸_微信公众号文章封面图尺寸是多少?如何快速制作封面图?...
  19. 腾讯云如何申请免费服务器试用
  20. Intent启动拨号盘,实现打电话功能

热门文章

  1. 【2021Java最新学习路线】java后端开发入门
  2. SpringMVC 入门教程
  3. ext4.0.7 样式兼容性
  4. eclipse14配置tomcat Server Locations
  5. python中什么是数据驱动_携程大牛谈自动化测试里的数据驱动和关键字驱动思路的理解...
  6. c# 溢出抛异常_C#中的int是否没有溢出异常?
  7. pe卸载win10更新补丁_新图标+新功能!win10凌晨更新补丁
  8. android windowmanager 无法传递事件_面试常客:Intent 能传递多大 Size 的数据?| 附阿里的建议方案!...
  9. mysql 查找相似数据_局部敏感哈希LSH(Locality-Sensitive Hashing)——海量数据相似性查找技术...
  10. linux常见功能代码,几种功能类似Linux命令汇总(示例代码)