Google发布超难问答数据集「自然问题」:30万对问答,BERT都达不到70分
郭一璞 发自 凹非寺
量子位 报道 | 公众号 QbitAI
世界上最大的冰盖在哪里?
Google现在想到了一个办法能让AI来回答这个问题,他们开放了一个名叫自然问题(Natural Questions, NQ)的数据集,能够训练AI阅读维基百科,并找到各种开放领域问题的答案。
就拿“世界上最大的冰盖在哪里”这个问题来说,在维基百科“Ice sheet(冰盖)”词条,看到“Antarctic ice sheet(南极洲冰盖)”这个部分的时候,找到了相关的一个自然段的描述,这是该问题的长答案。
之后,从这一段中得到“南极洲是世界上最大的冰盖”这个消息,于是找到了短答案:
南极洲。
另外,还有一些问题是直接用长答案回答的。
比如说,“汉语里的“中国”是什么意思”这个问题,答案在“Names of China”这个维基百科词条里,以一段话的形式解释。
整个数据集包含三个部分:
1、超过30万组问答,其中训练集有307,372组问答,包含152,148组长答案问答和110,724组短答案问答;
2、开发示例问答,包含有7830组“一问五答”的问答,也就是同一个问题,找五个人分别从维基百科中寻找答案,以此来衡量QA问答系统的表现;
3、测试集有7842组问答。
整个标注的过程中,需要标注者阅读整个维基百科页面,看看有没有这个问题的答案,之后一方面要找包含所需信息的长答案自然段,另一方面要从中找一两个单词或词组作为短答案,整个数据集的精确度超过90%。
数据集中所有的问题都是用户在使用Google搜索时提出的,QA问答系统需要阅读整篇维基百科相关词条的文章,也不一定每个问题的答案都能找得到,因此NQ要比以前的QA数据集更具挑战性。
另外,Google还为这个数据集定制了一个排行,衡量不同算法在NQ数据集上的表现,目前,无论是长答案还是短答案,BERT都处在排行榜上的领先位置。
当然,因为数据集刚刚推出,现在参赛选手比较少,只有Google自家的两个算法,BERT和DecAtt-DocReader。
不过,在这个数据集上,两个算法的表现跟人类相比还有不小差距,人类搜寻长答案的F1分数是87%,比BERT高了十几个百分点;搜寻短答案的F1分数是76%,比BERT高了二十几个百分点。
最后,这个数据集相关的论文Natural Questions: a Benchmark for Question Answering Research已经发表在了TACL上。
传送门
NQ数据集
https://ai.google.com/research/NaturalQuestions
论文:Natural Questions: a Benchmark for Question Answering Research
https://storage.googleapis.com/pub-tools-public-publication-data/pdf/b8c26e4347adc3453c15d96a09e6f7f102293f71.pdf
GitHub
https://github.com/google-research-datasets/natural-questions
作者系网易新闻·网易号“各有态度”签约作者
— 完 —
2018中国人工智能领航企业
加入社群
量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「好看」吧 !
Google发布超难问答数据集「自然问题」:30万对问答,BERT都达不到70分相关推荐
- 机器学习获量子加速!物理学家与计算科学家「自然联姻」
来源:新智元 AI和量子计算的碰撞,会产生什么神奇的火花?IBM团队的一项研究表明,在机器学习任务上,已经找到了量子计算能够加速数据分类的证据,远超传统算法.未来,基于量子的机器学习加速器可能就在路上 ...
- 【新消费创投复盘】中式点心「祥禾饽饽铺」完成过亿元首轮融资;护肤品牌「自然旋律」完成数亿元B轮战略融资
祥禾饽饽铺完成过亿元首轮融资:自然旋律完成数亿元B轮融资 以下一周投融资复盘内容(10月25日至10月29日)由新消费星球整理. 一.国内投融资 中式点心「祥禾饽饽铺」完成过亿元首轮融资 36氪消息, ...
- 砸自家招牌?PS 发布准确率高达 99% 的「去 PS」神器
雷锋网(公众号:雷锋网) AI 科技评论按:天下苦「假照」久矣,作为世上闻名的「亚洲四大邪术」之一,中国 PS 术让人人皆可化身大片主人翁,与此同时也给现代社会带来了不少的困惑与恐慌--如今网上充斥大 ...
- html围绕中间圆心布局,「飞亚达空间站」主题展的看点都在这儿,全新代言人居然是他?...
[腕表之家 钟表文化]飞亚达,想来这个品牌对于很多人来说十分熟悉.作为中国著名的腕表品牌,飞亚达做得确实不错,尤其跨界合作航空航天领域.飞亚达和"飞"字联系在一起,听上去有些巧妙. ...
- 公链生态周报:BI指数周涨幅超20%,IOST主网账户突破30万 | 链塔智库
01 市场行情 链塔BI指数,由80个具有代表性的加密货币组成,用以反映加密货币市场整体表现. 5月19日,BI指数报收1206点,周内上涨212点,涨幅为21.3%.本期(5月13日至5月19日), ...
- 全球首个城市内河无人驾驶数据集发布、奥地利学者用「量子扭曲」加速强化学习 | AI日报...
全球首个城市内河无人驾驶数据集发布 近年来,内河无人船因其潜在的应用价值而受到广泛关注,不同于海面无人船和路面自动驾驶场景,内河行驶的无人船的定位和感知面临着独特的挑战.欧卡智舶联合清华大学与西北工业 ...
- 霸榜!Google发布语义分割新数据集!
点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 对于 ...
- 南京大学「自然指数」超越清华北大,位列全国高校第一、世界第七,突显学术实力...
栗子 发自 凹非寺 量子位 出品 | 公众号 QbitAI 最新的自然指数 (Nature Index) 公布了,这是全球科研机构中,高水平学术成果产出的重要指标. 今次发布的指数,是根据2018年7 ...
- 探店「无聊猿」BAYC 主题餐厅:食物都很棒,口味超预期,有点小贵
来源:decrypt 原文作者:Jason Neslon 翻译:Odaily 星球日报 Moni 四月初,一家名为"Bored & Hungry"的主题餐厅开张了. 这家餐 ...
最新文章
- 专属于教育界的定律,你知道哪一些?
- tomcat启动卡死在: Initializing Spring root WebApplicationContext的解决办法
- 希望今年能看懂和写出这样的Swift代码
- Android之failed for task ‘:app:dexDebug‘致gradle编译OOM问题解决(android-support-multidex)
- 使用GUID作为数据库主键与INT作为主键的性能测试
- pv,svogi,vxgi,各自的优缺点在哪,ue4还有可能把svogi加进去吗
- 未来通信设备的体系构架
- Java 多线程编程两个简单的例子
- vscode设置背景图片
- mysql空间数据类型解释_MySQL空间数据类型
- Update Remote Files 1.0
- 爬虫之煎蛋网妹子图 大爬哦
- 好用的python工具_Python哪些工具好用?老男孩Python开发
- 基于微信小程序的网上购物系统的设计与实现.pdf
- PR视频剪辑(项目包装)
- 关于SSL认证的小坑 SSLPeerUnverifiedException
- 通过EXCEL中的FILTERXML函数实现批量翻译
- Windows 2000进程细述.
- QTextToSpeech 文本转语音输出
- 3D游戏设计-模型与动画
热门文章
- 为什么物联网产品迫切需要良好的 UI/UX 设计?
- Linus 又开怼:有时候标准就是个垃圾!
- 为什么微信小程序也能做游戏?
- 怎么入门Java?java拦截器怎么配置
- select * from什么意思_SQL入门教程第15课:什么是内连接
- python 微信数据_python 处理微信对账单数据的实例代码
- android 百度地图闪退,Android使用百度地图出现闪退及定位时显示蓝屏问题的解决方法...
- Java集合查找Map,Java集合框架中Map接口的使用
- Canvas绘图基本用法
- 机箱一直反复开机熄火_小身材大容量,老炮九州风神魔方110机箱+DQ 650ST+玄冰400双刃装机体验...