谷歌开放问答搜索最大语料库NQ,包含30万自然发生提问
开放域问答(QA)是自然语言理解(NLU)中的基准任务,旨在模拟人类查找信息,通过阅读和理解整个文档来查找答案的过程。举例来说,对于一个用自然语言表达的问题(“为什么天是蓝色的?”),QA 系统应该能够做到在阅读网页(例如维基百科页面)之后返回正确的答案,即使答案有点复杂和冗长。
然而,目前业界仍没有足够大且公开可用的自然问题来源(即人们为找寻信息而提出的问题)以及可用于训练和评估QA模型的答案。这是因为汇集用于问答的高质量数据集需要大量的实际问题来源,并耗费大量人力寻找正确答案。
为了促进QA的研究进展,我们很高兴地宣布开放自然问题(NQ,Natural Questions),这是一个用于训练和评估开放域问答系统的新型大型语料库,也是第一个模仿人类寻找答案整个过程的语料库。NQ规模巨大,包括 300,000 个自然发生的问题,以及来自维基百科页面带有人类注释的答案,用于训练QA系统。另外,该语料库还包括 16,000 个示例,其中 5 个不同的注释器提供了答案(针对相同的问题),这对于评估经过学习的QA系统的性能非常有用。回答NQ中的问题需要比回答普通问题需要更加深入的理解——这对于计算机来说已经非常容易。此外,我们还宣布发起一个基于这些数据的挑战,以推进计算机自然语言理解发展。
数据
NQ是首个使用自然发生提问的数据集,它通过阅读整个页面来查找答案,而不是从短段中提取答案。为了创建NQ,我们从用户在Google搜索引擎中进行的真实、匿名、汇总的查询开始。然后,我们让注释器通过阅读整个维基百科页面来寻找答案。注释器会查找涵盖可能推断出答案需要的所有信息的长答案,以及用一个或多个名称简洁地回答问题的简短答案。经测试,NQ语料库中的注释质量准确度已达 90%。
我们的论文《Natural Questions:问答研究的基准》已在计算语言学协会发表,它完整地描述了数据收集过程。查看数据集中的更多示例,请查看NQ网站。
挑战
NQ旨在使QA系统能够阅读和理解整篇维基百科文章,但该文章不一定包含问题的答案。系统需要首先判断问题是否定义完好,可以找到答案,因为许多问题都是错误的假设,或者过于含糊不清,无法得到简明扼要的回答。然后,NQ需要确定维基百科页面中是否包含推断答案所需的信息。我们认为,长答案识别任务,即找到推断答案所需的所有信息,需要更深层次的语言理解,而不是在知道长答案之后再找到简短答案。
我们希望NQ的发布以及相关的挑战将有助于推动开发出更有效和更强大的QA系统。我们鼓励NLU 社区参与,已缩小当前最先进方法的表现与人类最优表现之间的巨大差距。你可以访问挑战赛页面查看排行榜,了解更多信息。
原文链接:
https://ai.googleblog.com/
谷歌开放问答搜索最大语料库NQ,包含30万自然发生提问相关推荐
- 谷歌推出数据集搜索专用引擎Dataset Search
谷歌推出数据集搜索专用引擎Dataset Search 9 月 5 日,谷歌发布了一个帮助研究者查找在线数据的免费搜索引擎 Dataset Search.谷歌表示,该引擎面向「科学家.数据记者.数据极 ...
- 谷歌有情怀!谷歌开放大规模音频数据集 AudioSet
谷歌有情怀!谷歌开放大规模音频数据集 AudioSet 2017-03-10 11:41 来源:科技那回事 关注 分享 加入自媒体纠错订阅 导读: 近日,谷歌开放了一个大规模的音频数据集 AudioS ...
- 谷歌黑客关键字搜索_Google将搜索量添加到关键字工具
谷歌黑客关键字搜索 Google announced yesterday evening that it was adding search volume numbers to its AdWords ...
- 谷歌开放语音识别 API,发力人工智能
谷歌Next云计算大会今日在美国旧金山召开.谷歌在会上发布了面向开发者的新机器学习平台,并开放语音识别的API(应用程序编程接口).机器学习平台初期将免费提供给开发者.谷歌母公司Alphabet董事长 ...
- Google(谷歌)高级搜索
今天研究了一下Google(谷歌)高级搜索,谷歌的搜索引擎还是非常强大的. 现记录如下几个技巧: 1. 关键字搜索 在Google搜索框中,输入若干关键字,即可按照关键字进行搜索. 方法1: 例如: ...
- 谷歌地图地理翻遍码,谷歌地图地点搜索
功能描述: 最近在做有关谷歌地图相关的东西:涉及两个功能: 1:自动定位功能,点击自动定位,然后可以拿到位置行政区信息,进行表单的一个填充(地理反编码) 2.地点搜索功能 具体实现所需的谷歌开放 仅业 ...
- 谷歌开放的TensorFlow Object Detection API 效果如何?对业界有什么影响
? 谷歌开放了一个 Object Detection API: Supercharge your C 写个简单的科普帖吧. 熟悉TensorFlow的人都知道,tf在Github上的主页是:tenso ...
- 谷歌对用户搜索加密这一做法对seo的影响!
谷歌加密对优化影响有多大谷歌最近还是蛮热闹的.说它热闹不是说别的,主要是针对更新技术来说的.谷歌前一阵子的熊猫算法的推出,让大家研究了一阵 子.之后,又来了一个google+,大家也研究了一阵子.最近 ...
- 900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释...
点击我爱计算机视觉标星,更快获取CVML新技术 本文转自量子位. 鱼羊 发自 云凹非寺 量子位 报道 | 公众号 QbitAI 谷歌的900万注释图像数据集Open Images,再次进化. 这一次的 ...
最新文章
- MYSQL人事工资管理系统-插入数据(三)
- 《ArcGIS Runtime SDK for Android开发笔记》——(4)、基于Android Studio构建ArcGIS Android开发环境...
- 金升阳5V开关电源LM25-23B05
- Windows保护模式学习笔记(三)—— 长调用/短调用/调用门
- java数据类型常见面试题
- Mysql数据库的使用总结之ERROR 1146 (42S02)
- IP地址与子网掩码基础
- Python线程类首先是一个类
- .Net Core 学习笔记1——包、元包、框架
- 【jQuery笔记Part1】08-jQuery操作css-获取设置样式
- c# 数据库操作学习
- ZJOI 2008 瞭望塔 三分法
- 记录一次JDK版本问题,引发的思考
- iPhone is busy: Preparing debugger support for iPhone的解决办法
- 1、使用xcode9创建swift语言的第一个程序hello world
- 用浏览器怎样监控网页内容变化
- pr 文件结构不一致_只要你用过PR,就一定会遇到这些的问题(下)
- PS套索工具改变头发颜色
- 网易视频云:浅谈视频通信技术的发展
- ZED-F9K使用:录制数据+地图查看