允中 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

SQuAD 2.0来了!

今日(6月13日),斯坦福NLP团队对外宣称,机器阅读理解数据集SQuAD(Stanford Question Answering Dataset)完成新一波更新,将由SQuAD 1.1版本迭代至SQuAD 2.0。

个中变化还是非常明显的。

SQuAD 2.0

斯坦福NLP官方说,相较SQuAD 1.1中的10万问答,SQuAD 2.0又新增了5万个人类撰写的问题——而且问题不一定有对应答案。

于是同时迭代的SQuAD 2.0测试系统,不仅要求机器能从对应段落中找到问题答案,还测试机器在没有对应答案时可以say No,而不是瞎猜。

这算是进一步加大了机器在精准回答方面的难度。

目前,人类表现分别是EM——精准匹配结果:86.831分,F1——模糊匹配:89.452分。

需要指出的是,SQuAD推出之初,2016年,斯坦福大学从维基百科上随机选取了500多篇文章,并进一步细分成两万多个段落。随后采用众包的方式,由人类阅读这些文章后,为每个段落提出五个问题,并对段落内的答案进行人工标注。

最后,终于构成了包含10万多个问题的阅读理解数据集SQuAD。

但争论也隐藏其中,并在今年“机器阅读理解能力击败人类”事件中彻底吵开了。

SQuAD风云

SQuAD数据集有两个衡量标准,EM和F1。

EM是精确匹配结果,也就是模型给出的答案与标准答案一模一样。

F1是模糊匹配,可以理解为机器答对了部分内容,是根据模型给出的答案和标准答案之间的重合度计算出来的

基于SQuAD的排名比拼,也是考察EM和F1两项成绩。

过去一年,大部分时间都是科大讯飞团队和微软不同团队的竞争。7月微软登顶,8月科大讯飞首次折桂,9、10两月基本是微软天下,11月讯飞再次创出最佳成绩。

然后风云突变。先是腾讯突然杀入,并成功在12月底霸榜。然而“好景不长”,微软亚洲研究院和阿里巴巴iDST团队今年初先后发力,再次创出历史最好成绩,并且首次“超越人类”——他们在EM成绩上都击败了“人类表现”。

于是就开始有声音说:人类已经在阅读理解上被机器超越了。

但也马上遭遇反驳。

学界一方面有人指出这种说法过于夸大不严谨。

另一方面也有人将矛头指向SQuAD数据集局限性的问题。

以色列巴伊兰大学的著名NLP研究者Yoav Goldberg,他专门写了个PPT,列出了SQuAD1.1的三大不足:

  • 受限于可以选择span来回答的问题;

  • 需要在给定的段落里寻找答案;

  • 段落里保证有答案。

无独有偶,DeepMind也专门发布了一篇名为NarrativeQA的论文谈论了这些问题。

他们认为,由于SQuAD问题的答案必须是给定段落中的内容,这就导致很多评估阅读理解能力应该用到的合情合理的问题,根本没法问。

同时,这种简单的答案通过文档表面的信号就能提取出来,对于无法用文中短语来回答、或者需要用文中几个不连续短语来回答的问题,SQuAD训练出来的模型无法泛化。

另外,SQuAD虽然问题很多,但其实用到的文章又少又短,这就限制了整个数据集词汇和话题的多样性。

因此,SQuAD上表现不错的模型,如果要用到更复杂的问题上,可扩展性和适用性都很成问题。

DeepMind的论文说,包括SQuAD在内的很多阅读理解数据集都“不能测试出阅读理解必要的综合方面”。

所以此次SQuAD 2.0的更新,一定程度上也可视为对上述问题的回应。

最新排名:猿辅导领队中国军团

当然,哪里有AI数据集竞赛,哪里就有不断刷新榜单的中国军团。

之前在SQuAD,中国代表团中的常客是科大讯飞、微软亚洲研究院,不过去年以来,阿里达摩院旗下的iDST和腾讯也成了大军中一员,甚至有几次还是头号玩家。

但是,SQuAD 1.1最新榜单里,成为中国军团领头羊的团队,可能会令你陌生——YUANFUDAO。

没错,就是那个主打在线教育的猿辅导。

当前猿辅导以EM83.520,F189.612的成绩,微微微落后于Google大脑&CMU团队,排名全球第二。

不过猿辅导虽然是SQuAD的新面孔,但在另一项知名机器阅读比赛MSMARCO中,早已霸气外露。

在3月27日的最新排名中,猿辅导位列MSMARCO全球第一。

而且成绩还超过了人类水准,当时猿辅导团队的两项测试得分为:49.72、48.02。而人类基准为47、46。

所以现在猿辅导出现在SQuAD 1.1全球玩家前列,实际也不算特别意外。

可顺路一提的是,中国军团在SQuAD 1.1最新榜单中实力确实超强,前十排名中,随处可见中国团队。

这才叫:厉害了,我的国。

SQuAD2.0论文传送门:

https://arxiv.org/abs/1806.03822

活动报名

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

SQuAD2.0来了!新增5万人工撰写问题,且不一定有答案 | ACL最佳短论文相关推荐

  1. 0成本涨粉过万详细复盘,新手也可100%实操上手!

    我相信,在此之前你已经看过很多"0 成本涨粉"教程,但今天分享的"测试题涨粉",你一定是第一次接触. 虽然比不上"培训大师们"动不动就日涨 ...

  2. ASP.NET 2.0 中的新增安全功能

    发布日期: 8/26/2004 | 更新日期: 8/26/2004 Stephen Walther Microsoft Corporation 适用于: Microsoft ASP.NET 2.0 M ...

  3. Linux Kernel 5.0或在达成600万Git Objects时到来

    早两天,Linus Torvalds在Google+上表示,Linux内核当前正在从4.0向5.0大版本迈进(half-way between),同时接近600万Git的目标.之前的大版本,比如Lin ...

  4. C# 9.0中的新增功能 - 译

    https://docs.microsoft.com/en-us/dotnet/csharp/whats-new/csharp-9 What's new in C# 9.0 C# 9.0中的新增功能 ...

  5. 如何通过Dataphin构建数据中台新增100万用户?

    欢迎来到数据中台小讲堂!这一期我们来看看,作为阿里巴巴数据中台(OneData - OneModel.OneID.OneService)方法论的产品载体,Dataphin如何帮助传统零售企业实现数字化 ...

  6. 9.VMware vsphere 5.0新体验-新增功能

    ESXi 5.0 中的新增功能 在 vSphere 5.0 版本中,VMware 对 ESXi 增加了一些重要的增强功能. 全新 Image Builder .一套新的命令行实用程序,管理员可以使用这 ...

  7. 鸿蒙测试版苹果,华为鸿蒙OS 2.0开发者Beta新增招募 苹果macOS 11.4测试版发布

    华为鸿蒙OS 2.0开发者Beta新增招募 HarmonyOS 这是一个面向万物互联时代的全场景分布式操作系统,华为希望和其他的伙伴还有开发者一起来构建面向万物互联时代的超级终端体验. 据了解,在20 ...

  8. crmeb多商户2.0正式版 新增DIY、PC端客服、同城配送平台等完整包下载更新包下载

    一.更新说明 (一).多商户v2.0更新说明 新增功能 1. 新增商城首页DIY.店铺首页DIY: 商城首页DIY.店铺首页DIY, 可根据业务需要自由搭配展示首页模块,灵活多变,随心所欲. 2. 新 ...

  9. .Net 6.0中的新增特性_.Net 6.0中的新增功能

    .Net 6.0中的新增特性_.Net 6.0中的新增功能 一..Net 6 介绍 .NET 6 作为 LTS 长期支持版本,.NET 6 将会获得 3 年的技术支持. .NET 6 是首个原生支持 ...

最新文章

  1. 早上突然看明白 shader和材质球的关系
  2. gtest使用初级指南
  3. ArXiv 2020 | 抖音“变身漫画”滤镜背后的技术,难道来自这篇论文?
  4. 特斯拉 model3 没有信号_Model 3在北京失控撞人,特斯拉:未发现任何系统故障
  5. node.js Error: connect EMFILE 或者 getaddrinfo ENOTFOUND
  6. php path separator,php 非常有用的高级函数PATH_SEPARATOR常量和set_include_path
  7. 数组中最大连续子数组和,最大连续子数组积,最大递增子序列
  8. python中字符串(二)-访问值、更新、转义、运算
  9. jsp注释%-- -- % 和 !-- -- 的区别
  10. 21-微信小程序商城 会员首页(微信小程序商城开发、小程序毕业设计、小程序源代码)(黄菊华-微信小程序开发教程)
  11. windows系统搭建图像识别开发环境
  12. VS2010快捷键设置
  13. 集成简单的科大讯飞文字转语音
  14. AtCoder Grand Contest 003 D - Anticube
  15. 虚拟vpc服务器搭建,服务器搭建vpc
  16. MATLAB 将图像随机裁剪为N*N的图像块
  17. Intel XEON L/E/X/W 系列的区别
  18. if语句里面如果是赋值语句
  19. 于博士Cadence教程视频地址以及目录
  20. PS2020从入门到卸载

热门文章

  1. 技术人的 40 岁,真的不惑了吗?
  2. oppoJava面试!mysql客户端安装包
  3. 3d max用不同目标做关键帧_3D动画制作流程大解析
  4. eclipse里source的快捷方法_Eclipse快捷键大全
  5. rman删除7天前备份_干货分享|DM7如何删除7天前的备份文件
  6. php公共控制器,Thinkphp 3.2.3 公共控制器的使用
  7. python的书籍推荐_python 书籍推荐
  8. vue 安装element_vue实战开发007:vue引入Element-UI并配置路由
  9. feign调用多个服务_SpringCloud使用Feign实现服务调用|chu
  10. .net5 不支持winform_昨晚实操一波.NET5,极致性能简直逆天!