开放域问答(QA)是自然语言理解(NLU)中的基准任务,旨在模拟人类查找信息,通过阅读和理解整个文档来查找答案的过程。举例来说,对于一个用自然语言表达的问题(“为什么天是蓝色的?”),QA 系统应该能够做到在阅读网页(例如维基百科页面)之后返回正确的答案,即使答案有点复杂和冗长。

然而,目前业界仍没有足够大且公开可用的自然问题来源(即人们为找寻信息而提出的问题)以及可用于训练和评估QA模型的答案。这是因为汇集用于问答的高质量数据集需要大量的实际问题来源,并耗费大量人力寻找正确答案。

为了促进QA的研究进展,我们很高兴地宣布开放自然问题(NQ,Natural Questions),这是一个用于训练和评估开放域问答系统的新型大型语料库,也是第一个模仿人类寻找答案整个过程的语料库。NQ规模巨大,包括 300,000 个自然发生的问题,以及来自维基百科页面带有人类注释的答案,用于训练QA系统。另外,该语料库还包括 16,000 个示例,其中 5 个不同的注释器提供了答案(针对相同的问题),这对于评估经过学习的QA系统的性能非常有用。回答NQ中的问题需要比回答普通问题需要更加深入的理解——这对于计算机来说已经非常容易。此外,我们还宣布发起一个基于这些数据的挑战,以推进计算机自然语言理解发展。

数据

NQ是首个使用自然发生提问的数据集,它通过阅读整个页面来查找答案,而不是从短段中提取答案。为了创建NQ,我们从用户在Google搜索引擎中进行的真实、匿名、汇总的查询开始。然后,我们让注释器通过阅读整个维基百科页面来寻找答案。注释器会查找涵盖可能推断出答案需要的所有信息的长答案,以及用一个或多个名称简洁地回答问题的简短答案。经测试,NQ语料库中的注释质量准确度已达 90%。

我们的论文《Natural Questions:问答研究的基准》已在计算语言学协会发表,它完整地描述了数据收集过程。查看数据集中的更多示例,请查看NQ网站。

挑战

NQ旨在使QA系统能够阅读和理解整篇维基百科文章,但该文章不一定包含问题的答案。系统需要首先判断问题是否定义完好,可以找到答案,因为许多问题都是错误的假设,或者过于含糊不清,无法得到简明扼要的回答。然后,NQ需要确定维基百科页面中是否包含推断答案所需的信息。我们认为,长答案识别任务,即找到推断答案所需的所有信息,需要更深层次的语言理解,而不是在知道长答案之后再找到简短答案。

我们希望NQ的发布以及相关的挑战将有助于推动开发出更有效和更强大的QA系统。我们鼓励NLU 社区参与,已缩小当前最先进方法的表现与人类最优表现之间的巨大差距。你可以访问挑战赛页面查看排行榜,了解更多信息。

原文链接:
https://ai.googleblog.com/

谷歌开放问答搜索最大语料库NQ,包含30万自然发生提问相关推荐

  1. 谷歌推出数据集搜索专用引擎Dataset Search

    谷歌推出数据集搜索专用引擎Dataset Search 9 月 5 日,谷歌发布了一个帮助研究者查找在线数据的免费搜索引擎 Dataset Search.谷歌表示,该引擎面向「科学家.数据记者.数据极 ...

  2. 谷歌有情怀!谷歌开放大规模音频数据集 AudioSet

    谷歌有情怀!谷歌开放大规模音频数据集 AudioSet 2017-03-10 11:41 来源:科技那回事 关注 分享 加入自媒体纠错订阅 导读: 近日,谷歌开放了一个大规模的音频数据集 AudioS ...

  3. 谷歌黑客关键字搜索_Google将搜索量添加到关键字工具

    谷歌黑客关键字搜索 Google announced yesterday evening that it was adding search volume numbers to its AdWords ...

  4. 谷歌开放语音识别 API,发力人工智能

    谷歌Next云计算大会今日在美国旧金山召开.谷歌在会上发布了面向开发者的新机器学习平台,并开放语音识别的API(应用程序编程接口).机器学习平台初期将免费提供给开发者.谷歌母公司Alphabet董事长 ...

  5. Google(谷歌)高级搜索

    今天研究了一下Google(谷歌)高级搜索,谷歌的搜索引擎还是非常强大的. 现记录如下几个技巧: 1.  关键字搜索 在Google搜索框中,输入若干关键字,即可按照关键字进行搜索. 方法1: 例如: ...

  6. 谷歌地图地理翻遍码,谷歌地图地点搜索

    功能描述: 最近在做有关谷歌地图相关的东西:涉及两个功能: 1:自动定位功能,点击自动定位,然后可以拿到位置行政区信息,进行表单的一个填充(地理反编码) 2.地点搜索功能 具体实现所需的谷歌开放 仅业 ...

  7. 谷歌开放的TensorFlow Object Detection API 效果如何?对业界有什么影响

    ? 谷歌开放了一个 Object Detection API: Supercharge your C 写个简单的科普帖吧. 熟悉TensorFlow的人都知道,tf在Github上的主页是:tenso ...

  8. 谷歌对用户搜索加密这一做法对seo的影响!

    谷歌加密对优化影响有多大谷歌最近还是蛮热闹的.说它热闹不是说别的,主要是针对更新技术来说的.谷歌前一阵子的熊猫算法的推出,让大家研究了一阵 子.之后,又来了一个google+,大家也研究了一阵子.最近 ...

  9. 900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释...

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转自量子位. 鱼羊 发自 云凹非寺 量子位 报道 | 公众号 QbitAI 谷歌的900万注释图像数据集Open Images,再次进化. 这一次的 ...

最新文章

  1. MYSQL人事工资管理系统-插入数据(三)
  2. 《ArcGIS Runtime SDK for Android开发笔记》——(4)、基于Android Studio构建ArcGIS Android开发环境...
  3. 金升阳5V开关电源LM25-23B05
  4. Windows保护模式学习笔记(三)—— 长调用/短调用/调用门
  5. java数据类型常见面试题
  6. Mysql数据库的使用总结之ERROR 1146 (42S02)
  7. IP地址与子网掩码基础
  8. Python线程类首先是一个类
  9. .Net Core 学习笔记1——包、元包、框架
  10. 【jQuery笔记Part1】08-jQuery操作css-获取设置样式
  11. c# 数据库操作学习
  12. ZJOI 2008 瞭望塔 三分法
  13. 记录一次JDK版本问题,引发的思考
  14. iPhone is busy: Preparing debugger support for iPhone的解决办法
  15. 1、使用xcode9创建swift语言的第一个程序hello world
  16. 用浏览器怎样监控网页内容变化
  17. pr 文件结构不一致_只要你用过PR,就一定会遇到这些的问题(下)
  18. PS套索工具改变头发颜色
  19. 网易视频云:浅谈视频通信技术的发展
  20. ZED-F9K使用:录制数据+地图查看

热门文章

  1. AD20原理图设计与PCB封装画板--学习笔记
  2. 想清楚干点什么,比怎么干更重要--Leo读 不是孙振耀写的职场感言 2
  3. php函数几种写法,PHP让人不知道的匿名函数的几种写法(附代码)
  4. 抖音直播各类话术?开场、留人、促单互动话术合集
  5. CSS3变形透视动画总结
  6. VxWorks操作系统shell命令与调试方法总结
  7. 算法训练 Cowboys(DP)
  8. 用gin进行web开发的基本框架搭建
  9. 传真故障排除示例--传真CED信号断续导致传真失败
  10. 系统特征根_20160204