本文来自AI新媒体量子位(QbitAI)

今天一大早,Yann LeCun就转发了一条消息:Facebook开源了DrQA的代码。

DrQA是一个开放域问答系统。

关于DrQA,Facebook还发表了一篇论文《Reading Wikipedia to Answer Open-Domain Questions(阅读维基百科来回答开放域问题)》。这篇论文也入选了下周即将在温哥华召开的ACL 2017大会。

论文的作者为来自斯坦福的Danqi Chen(陈丹琦,之前毕业于清华姚班),以及来自Facebook人工智能实验室(FAIR)的Adam Fisch,Jason Weston,Antoine Bordes。

Adam Fisch介绍说,DrQA的主要任务是大规模机器阅读(MRS)。在这种情况下,DrQA会在一个非常庞大的非结构化文档语料库中寻找问题的答案。因此,这个系统最大的挑战就是文档检索与文本的机器理解如何更好的结合。

论文摘要

 DrQA系统架构

这篇论文提出使用维基百科作为唯一的知识来源,以解决开放域问答。任何事实性提问的答案,都是来自维基百科中的内容。

我们的方法结合了基于二元语法哈希(bigram hashing)和TF-IDF匹配的搜索组件,以及一个训练用来在维基百科段落中寻找答案的RNN模型。

我们在多个现有问答数据库上的实验表明:1、上述两个模块与现有方案相比优势很大 2、使用远监督的多任务学习,可以让上述组合更高效的完成任务。

为了回答任何问题,DrQA必须首先检索超过500万个条目中的相关文章,然后仔细扫描以确定答案。我们把这个成为大规模机器阅读(MRS)。

我们的工作将维基百科视为文章的集合,而不依赖于其内部图形结构。因此,这个通用方法可以切换到其他文件、书籍或是日报等领域。

像IBM DeepQA这样的大规模问答系统,依赖于多个来源给出答案:除了维基百科,DeepQA还是用了知识库、词典、新闻、书籍等。因此这样的系统严重依赖信息冗余来获得正确答案。

而只有单一知识来源,迫使模型在搜索答案时必须非常精确,因为相关证据可能只会出现一次。因此,这对机器阅读能力是一个挑战。

获取论文,可以在量子位微信公众号(QbitAI)对话界面回复:“drqa”四个字母。

开源代码

Facebook已经把DrQA问答系统的PyTorch实现公布在GitHub上。地址在此:

https://github.com/facebookresearch/DrQA

在这个页面上,Facebook还展示了一下DrQA的问答界面,我们挑选几个给大家看看。首先是这个问题:“生命、宇宙和一切的答案是什么?”

安装DrQA需要Python 3.5或以上,当然也需要安装PyTorch。更多细节都在requirements.txt中。

另外,Facebook还提供了预训练的模型,以及维基百科问答数据。这部分内容大小为7.5GB,解压之后约为25GB大小。

【完】

本文作者:问耕 
原文发布时间:2017-07-27

Facebook开源问答系统DrQA:基于单一信源回答开放域提问相关推荐

  1. 【工大SCIR】AAAI20 基于Goal(话题)的开放域多轮对话规划

    论文名称:Knowledge Graph Grounded Goal Planning for Open-Domain Conversation Generation 论文作者:徐俊,王海峰,牛正雨, ...

  2. FaceBook开源PyTorch3D:基于PyTorch的新3D计算机视觉库

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! PyTorch 进军三维计算机视觉了,现在,你的神经网络可以更轻松地和 3D 数据 ...

  3. Facebook 开源 SlowFast:基于双帧速率分治轻量视频识别模型

    近日,Facebook AI 宣布开源 SlowFast,一个在 CVPR 2019 上的 AVA 视频检测挑战赛中排名第一所用的模型.这一开源旨在进一步提高系统识别与分类视频内容的能力,并改善视频个 ...

  4. Facebook开源新NLP框架:简化部署流程,大规模应用也OK

    铜灵 编译整理 量子位 出品 | 公众号 QbitAI 今天,Facebook开源了一个基于PyTorch的深度学习库PyText,想容易地构建和部署NLP系统. Facebook在博客中介绍说,新框 ...

  5. Facebook开源多款AI工具,支持游戏、翻译等

    翻译 | 林椿眄 编辑 | 阿司匹林 出品 | AI科技大本营(公众号ID:rgznai100) 近日,Facebook 在年度开发者大会 F8 上宣布开源多款 AI 工具,除了 PyTorch.Ca ...

  6. Facebook 开源了一整套重要的 Linux 内核组件与工具!

    近日,Facebook 开源了一套解决重要计算集群管理问题的 Linux 内核组件和相关工具,这些项目覆盖了资源控制.资源利用.工作负载隔离.负载均衡.测量和监控等方面:BPF.Btrfs.Netco ...

  7. 继Facebook开源PyTorch3D后,谷歌开源TensorFlow 3D场景理解库

    来源:机器之心本文约2000字,建议阅读5分钟谷歌于近日开源了一个基于 TF 框架的高度模块化和高效处理库 TensorFlow 3D. 继 2020 年初 Facebook 开源基于 PyTorch ...

  8. Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对

    2020-02-07 16:33 导语:或成为NMT评估标准 雷锋网AI科技评论按:当前自然语言处理中的大多数方法都是数据驱动的,大多数多语言模型(特别是神经机器翻译系统)都需要并行语料库进行训练.大 ...

  9. Facebook 开源聊天机器人Blender,经94 亿个参数强化训练,更具“人情味”

    来源:AI前线 作者 | Kyle Wiggers 编译 | Sambodhi 策划 & 编辑 | 刘燕 不久前,Facebook 开源了号称是全球最强大的聊天机器人 Blender,它标志着 ...

最新文章

  1. R语言实战应用精讲50篇(二)-多重线性回归系列之稳健回归
  2. 操作方法:Spring Boot和Thymeleaf与Maven
  3. 多线程之间共享数据的实现
  4. signature=4d4ce610ff2d4a5f2093452c24b70492,Reading Chromatin Signatures
  5. 家庭的和谐稳定由什么决定?
  6. 判断链表是否存在环 Linked List Cycle
  7. 什么?云数据库也能C位出道?
  8. 概率逗号分号_概率P中有多个逗号表示什么意思
  9. 统计相关系数(3)——Kendall Rank(肯德尔等级)相关系数及MATLAB实现
  10. 计算机操作系统安全序列详解,操作系统知识梳理
  11. 【链表】找出直系亲属
  12. 2020多益网络游戏开发工程师笔试
  13. LSVGlobal Mapper应用----影像下载
  14. PyCharm关闭拼写检查(Typo提示)
  15. 在贷款行业中,运营商大数据精准获客,是否真实有效呢
  16. fail-fast 机制是什么?(详解)
  17. TCP的长连接与短连接
  18. 文件IO---标准输入、标准输出和标准错误
  19. 面向对象三大特性及关键字
  20. python文件处理——encoding参数,utf-8,gbk

热门文章

  1. docker“少折腾”
  2. 如何使用 Opencv 打开摄像头获取图像信息?
  3. 使用SmartSVN打分支与合并代码
  4. HTML知识积累及实践(一)- 标签样式
  5. 前端笔记 | HTML基础
  6. yolov3前向传播(三)-- 坐标转换,iou计算,权重加载,图片显示
  7. 2345浏览器网址_清理流氓网站2345.com劫持浏览器
  8. 笔记本电脑如何保养_电脑温度一高就“翻脸”,电脑小白该如何解决?学会少花冤枉钱...
  9. 公众号内打开提示404_微信公众号文章内如何插入视频?
  10. 日历的java包_java11教程--包java.time.chrono介绍