PaperWeekly 是一个 AI 学术分享社区。这里聚集了大批一线 AI 学者,他们用精炼妙语推荐各自发现的优质论文。点击本文底部的「阅读原文」即刻加入社区,创建属于你的论文集。

这里是第 3 期论文集精选。

本期论文集由 PaperWeekly 社区用户 @RamonYeung 创建,包含 20 份 QA 和机器阅读理解数据集。我们从中挑选了 9 份数据集进行展示,如果有合你心意的,复制链接到浏览器即可进行下载。

如果你想查看完整数据集列表,点击本文底部的阅读原文,就可以一键收藏啦。

On Generating Characteristic-rich Question Sets for QA Evaluation

@RamonYeung 推荐

#Question Answering

文章发表在 EMNLP 2016,本文详细阐述了 GraphQuestions 这个数据集的构造方法,强调这个数据集是富含特性的(Characteristic-rich)。

此数据集的主要特点是:

1. 基于 Freebase,有 5166 个问题,涉及 148 个不同领域;

2. 从知识图谱中产生 Minimal Graph Queries,再将 Query 自动转换成规范化的问题;

3. 由于 2,Logical Form 不需要人工标注,也不存在无法用 Logical Form 表示的问题;

4. 使用人工标注的办法对问题进行 paraphrasing,使得每个问题有多种表述方式(答案不变),主要是 Entity-level Paraphrasing,也有 sentence-level;

5. Characteristic-rich 指数据集提供了问题在下列维度的信息,使得研究者可以对问答系统进行细粒度的分析, 找到研究工作的前进方向:关系复杂度(Structure Complexity),普遍程度(Commonness),函数(Function),多重释义(Paraphrasing),答案候选数(Answer Cardinality)。

论文链接

http://www.paperweekly.site/papers/906

数据集链接

https://github.com/ysu1989/GraphQuestions

LSDSem 2017 Shared Task: The Story Cloze Test

@RamonYeung 推荐

#Cloze

Story Cloze Test:人工合成的完形填空数据集。

论文链接

http://www.paperweekly.site/papers/917

数据集链接

http://cs.rochester.edu/nlp/rocstories/

Dataset and Neural Recurrent Sequence Labeling Model for Open-Domain Factoid Question Answering

@RamonYeung 推荐

#Question Answering

百度深度学习实验室创建的中文开放域事实型问答数据集。

论文链接

http://www.paperweekly.site/papers/914

数据集链接

http://idl.baidu.com/WebQA.html

Program Induction by Rationale Generation : Learning to Solve and Explain Algebraic Word Problems

@RamonYeung 推荐

#Question Answering

DeepMind 和牛津大学共同打造的代数问题数据集 AQuA(Algebra Question Answering)。

论文链接

http://www.paperweekly.site/papers/913

数据集链接

https://github.com/deepmind/AQuA

Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue Systems

@PaperWeekly 推荐

#Dialog Systems

Maluuba 放出的对话数据集。

论文链接

http://www.paperweekly.site/papers/407

数据集链接

http://datasets.maluuba.com/Frames

Teaching Machines to Read and Comprehend

@RamonYeung 推荐

#Machine Comprehension

DeepMind Q&A Dataset 是一个经典的机器阅读理解数据集,分为两个部分:

1. CNN:~90k 美国有线电视新闻网(CNN)的新闻文章,~380k 问题;

2. Daily Mail:~197k DailyMail 新闻网的新闻文章(不是邮件正文),~879k 问题。

论文链接

http://www.paperweekly.site/papers/915

数据集链接

http://cs.nyu.edu/~kcho/DMQA/

Semantic Parsing on Freebase from Question-Answer Pairs

@RamonYeung 推荐

#Semantic Parsing

文章发表在 EMNLP-13,The Stanford NLP Group 是世界领先的 NLP 团队。他们在这篇文章中引入了 WebQuestions 这个著名的问答数据集,WebQuestion 主要是借助 Google Suggestion 构造的,依靠 Freebase(一个大型知识图谱)中的实体来回答,属于事实型问答数据集(比起自然语言,容易评价结果优劣)。有 6642 个问答对。

最初,他们构造这个数据集是为了做 Semantic Parsing,以及发布自己的系统 SEMPRE system。

论文链接

http://www.paperweekly.site/papers/827

数据集链接

http://t.cn/RWPdQQO

A Corpus and Evaluation Framework for Deeper Understanding of Commonsense Stories

@RamonYeung 推荐

#Machine Comprehension

ROCStories dataset for story cloze test.

论文链接

http://www.paperweekly.site/papers/918

数据集链接

http://cs.rochester.edu/nlp/rocstories/

MoleculeNet: A Benchmark for Molecular Machine Learning

@paperweekly 推荐

#Molecular Machine Learning

一个分子机器学习 benchmark,最喜欢看到这种将机器学习应用到传统学科领域了。

论文链接

http://www.paperweekly.site/papers/862

数据集链接

http://t.cn/RWPda8r

本文由 AI 学术社区 PaperWeekly 精选推荐,社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向,点击「阅读原文」即刻加入社区!

 投票时间 

以下论文选自 PaperWeekly 社区 - 排行榜,这里不仅有各领域的经典论文,还有当下最热门的新近之作。

所有论文均为用户自发推荐,然后再以点赞的方式评选出热门论文。最后,我们会针对上榜论文发起论文共读,让志同道合的同学们得到充分交流。

现在,就请选出你最感兴趣的论文,我们将根据大家的投票结果选出本期论文。

三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03相关推荐

  1. 基于CNN的阅读理解式问答模型:DGCNN

    作者丨苏剑林 单位丨广州火焰信息科技有限公司 研究方向丨NLP,神经网络 个人主页丨kexue.fm 早在年初的一文读懂「Attention is All You Need」| 附代码实现中就已经承诺 ...

  2. 骆驼QA:基于陈丹琦CoQA数据集的中文阅读理解模型,可给定知识文本进行问答...

    前言:骆驼(Luotuo)项目是由冷子昂@商汤科技,陈启源@华中师范大学以及李鲁鲁@商汤科技发起的中文大语言模型开源项目,包含了一系列语言模型,感兴趣的可以去github上了解下,非常棒. 进NLP群 ...

  3. 科大讯飞刷新SQuAD 2.0问答榜纪录,机器阅读理解全面超越人类

    近日,科大讯飞再次登上 SQuAD 2.0 挑战赛榜首,不过这次顺带刷新了一下纪录:在EM(精准匹配率)和F1(模糊匹配率)两项指标上全面超越人类平均水平,分别达到87.147和89.474.其中EM ...

  4. DeepMind推出更难的机器阅读理解数据集,要让AI读懂整本书

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 在机器阅读理解界的ImageNet--SQuAD挑战赛中,排在前几名的算法,都能拿到八十多分的成绩. 可是,为什么我们依然觉得机器不太听/看 ...

  5. msra数据集_微软机器阅读理解超越人类水平,CoQA数据集得分刷新记录

    今日,微软博客发文公布他们在 CoQA 数据集上取得的最新成绩.在此次挑战赛中,微软亚洲研究院 NLP 组与 SDRG(微软雷德蒙德语音对话研究组)组成的团队成为首个模型表现超越人类的参赛团队. 图源 ...

  6. 首个中文多项选择阅读理解数据集:BERT最好成绩只有68%

    2019-12-19 12:18:15 赖可 发自 亚龙湾移动凹非寺 量子位 报道 | 公众号 QbitAI 横扫一众基准测试的BERT等NLP模型,好像没那么强了. 因为它们遇到了一个中文数据集. ...

  7. 首个中文多项选择阅读理解数据集:BERT最好成绩只有68%,86%问题需要先验知识...

    赖可 发自 亚龙湾移动凹非寺 量子位 报道 | 公众号 QbitAI 横扫一众基准测试的BERT等NLP模型,好像没那么强了. 因为它们遇到了一个中文数据集. 康奈尔大学留学生发布了第一个自由形式的中 ...

  8. “非自回归”也不差:基于MLM的阅读理解问答

    作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 前段时间写了万能的Seq2Seq:基于Seq2Seq的阅读理解问答,探索了以最通用的 Seq2Seq 的方式来做阅 ...

  9. 万能的Seq2Seq:基于Seq2Seq的阅读理解问答

    作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 今天给 bert4keras [1] 新增加了一个例子:阅读理解式问答(task_reading_comprehe ...

最新文章

  1. 基于视觉的在线地图:一种Transformer网络方法
  2. SuMa++: 基于激光雷达的高效语义SLAM
  3. 硬核NeruIPS 2018最佳论文,一个神经了的常微分方程
  4. 【js基础】理清Object、Object.prototype、Function、Function.prototype
  5. Laravel Collection 常用方法(1)
  6. c#用控制台程序安装启动停止卸载服务
  7. 节日日历for Ubuntu18.04
  8. hdu 4288 线段树 暴力 **
  9. linux环境下给文件加密/解密的方法
  10. Qt setFocus
  11. 推送数据分析全新升级,优化方向一目了然
  12. [系统安全] 十五.Chrome密码保存功能渗透解析、Chrome蓝屏漏洞及音乐软件漏洞复现
  13. VS2017IIS注册
  14. 二义性调用(Ambiguous Call)
  15. linux查询打印机ip,Linux C打印IP地址信息
  16. 骨传导耳机低频差理所当然?飞利浦A6606表示不服
  17. 单片机STM32的5个时钟源知识,你不能错过。
  18. 产线流量测试解决方案
  19. 视频监控与视频编解码技术
  20. 输出IMG格式SAR图像——Envi软件安装与看图

热门文章

  1. 爬小说遇到编码问题 笔趣阁
  2. sql语句中嵌套2层循环
  3. Linux 64位 CentOS下安装 Docker 容器,启动、停止
  4. JDK1.7配置及测试
  5. Shader Compiler 界面进展2
  6. gsonformat安装怎么使用_IDEA中使用GsonFormat
  7. 华南理工大学 高级程序设计语言 c++ ,2017华南理工大学网络教育《高级语言程序设计C++》平时作业...
  8. 小程序云函数获取用户昵称_小程序云开发云函数进阶
  9. filezilla 设置filezilla使用明文密码_详解WordPress使用FTP上传主题和插件
  10. php curl viewstate,php curl – 发布asp.net viewstate值