三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03
PaperWeekly 是一个 AI 学术分享社区。这里聚集了大批一线 AI 学者,他们用精炼妙语推荐各自发现的优质论文。点击本文底部的「阅读原文」即刻加入社区,创建属于你的论文集。
这里是第 3 期论文集精选。
本期论文集由 PaperWeekly 社区用户 @RamonYeung 创建,包含 20 份 QA 和机器阅读理解数据集。我们从中挑选了 9 份数据集进行展示,如果有合你心意的,复制链接到浏览器即可进行下载。
如果你想查看完整数据集列表,点击本文底部的阅读原文,就可以一键收藏啦。
On Generating Characteristic-rich Question Sets for QA Evaluation
@RamonYeung 推荐
#Question Answering
文章发表在 EMNLP 2016,本文详细阐述了 GraphQuestions 这个数据集的构造方法,强调这个数据集是富含特性的(Characteristic-rich)。
此数据集的主要特点是:
1. 基于 Freebase,有 5166 个问题,涉及 148 个不同领域;
2. 从知识图谱中产生 Minimal Graph Queries,再将 Query 自动转换成规范化的问题;
3. 由于 2,Logical Form 不需要人工标注,也不存在无法用 Logical Form 表示的问题;
4. 使用人工标注的办法对问题进行 paraphrasing,使得每个问题有多种表述方式(答案不变),主要是 Entity-level Paraphrasing,也有 sentence-level;
5. Characteristic-rich 指数据集提供了问题在下列维度的信息,使得研究者可以对问答系统进行细粒度的分析, 找到研究工作的前进方向:关系复杂度(Structure Complexity),普遍程度(Commonness),函数(Function),多重释义(Paraphrasing),答案候选数(Answer Cardinality)。
论文链接
http://www.paperweekly.site/papers/906
数据集链接
https://github.com/ysu1989/GraphQuestions
LSDSem 2017 Shared Task: The Story Cloze Test
@RamonYeung 推荐
#Cloze
Story Cloze Test:人工合成的完形填空数据集。
论文链接
http://www.paperweekly.site/papers/917
数据集链接
http://cs.rochester.edu/nlp/rocstories/
Dataset and Neural Recurrent Sequence Labeling Model for Open-Domain Factoid Question Answering
@RamonYeung 推荐
#Question Answering
百度深度学习实验室创建的中文开放域事实型问答数据集。
论文链接
http://www.paperweekly.site/papers/914
数据集链接
http://idl.baidu.com/WebQA.html
Program Induction by Rationale Generation : Learning to Solve and Explain Algebraic Word Problems
@RamonYeung 推荐
#Question Answering
DeepMind 和牛津大学共同打造的代数问题数据集 AQuA(Algebra Question Answering)。
论文链接
http://www.paperweekly.site/papers/913
数据集链接
https://github.com/deepmind/AQuA
Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue Systems
@PaperWeekly 推荐
#Dialog Systems
Maluuba 放出的对话数据集。
论文链接
http://www.paperweekly.site/papers/407
数据集链接
http://datasets.maluuba.com/Frames
Teaching Machines to Read and Comprehend
@RamonYeung 推荐
#Machine Comprehension
DeepMind Q&A Dataset 是一个经典的机器阅读理解数据集,分为两个部分:
1. CNN:~90k 美国有线电视新闻网(CNN)的新闻文章,~380k 问题;
2. Daily Mail:~197k DailyMail 新闻网的新闻文章(不是邮件正文),~879k 问题。
论文链接
http://www.paperweekly.site/papers/915
数据集链接
http://cs.nyu.edu/~kcho/DMQA/
Semantic Parsing on Freebase from Question-Answer Pairs
@RamonYeung 推荐
#Semantic Parsing
文章发表在 EMNLP-13,The Stanford NLP Group 是世界领先的 NLP 团队。他们在这篇文章中引入了 WebQuestions 这个著名的问答数据集,WebQuestion 主要是借助 Google Suggestion 构造的,依靠 Freebase(一个大型知识图谱)中的实体来回答,属于事实型问答数据集(比起自然语言,容易评价结果优劣)。有 6642 个问答对。
最初,他们构造这个数据集是为了做 Semantic Parsing,以及发布自己的系统 SEMPRE system。
论文链接
http://www.paperweekly.site/papers/827
数据集链接
http://t.cn/RWPdQQO
A Corpus and Evaluation Framework for Deeper Understanding of Commonsense Stories
@RamonYeung 推荐
#Machine Comprehension
ROCStories dataset for story cloze test.
论文链接
http://www.paperweekly.site/papers/918
数据集链接
http://cs.rochester.edu/nlp/rocstories/
MoleculeNet: A Benchmark for Molecular Machine Learning
@paperweekly 推荐
#Molecular Machine Learning
一个分子机器学习 benchmark,最喜欢看到这种将机器学习应用到传统学科领域了。
论文链接
http://www.paperweekly.site/papers/862
数据集链接
http://t.cn/RWPda8r
本文由 AI 学术社区 PaperWeekly 精选推荐,社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向,点击「阅读原文」即刻加入社区!
投票时间
以下论文选自 PaperWeekly 社区 - 排行榜,这里不仅有各领域的经典论文,还有当下最热门的新近之作。
所有论文均为用户自发推荐,然后再以点赞的方式评选出热门论文。最后,我们会针对上榜论文发起论文共读,让志同道合的同学们得到充分交流。
现在,就请选出你最感兴趣的论文,我们将根据大家的投票结果选出本期论文。
三分熟博士生の阅读理解与问答数据集 | 论文集精选 #03相关推荐
- 基于CNN的阅读理解式问答模型:DGCNN
作者丨苏剑林 单位丨广州火焰信息科技有限公司 研究方向丨NLP,神经网络 个人主页丨kexue.fm 早在年初的一文读懂「Attention is All You Need」| 附代码实现中就已经承诺 ...
- 骆驼QA:基于陈丹琦CoQA数据集的中文阅读理解模型,可给定知识文本进行问答...
前言:骆驼(Luotuo)项目是由冷子昂@商汤科技,陈启源@华中师范大学以及李鲁鲁@商汤科技发起的中文大语言模型开源项目,包含了一系列语言模型,感兴趣的可以去github上了解下,非常棒. 进NLP群 ...
- 科大讯飞刷新SQuAD 2.0问答榜纪录,机器阅读理解全面超越人类
近日,科大讯飞再次登上 SQuAD 2.0 挑战赛榜首,不过这次顺带刷新了一下纪录:在EM(精准匹配率)和F1(模糊匹配率)两项指标上全面超越人类平均水平,分别达到87.147和89.474.其中EM ...
- DeepMind推出更难的机器阅读理解数据集,要让AI读懂整本书
夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 在机器阅读理解界的ImageNet--SQuAD挑战赛中,排在前几名的算法,都能拿到八十多分的成绩. 可是,为什么我们依然觉得机器不太听/看 ...
- msra数据集_微软机器阅读理解超越人类水平,CoQA数据集得分刷新记录
今日,微软博客发文公布他们在 CoQA 数据集上取得的最新成绩.在此次挑战赛中,微软亚洲研究院 NLP 组与 SDRG(微软雷德蒙德语音对话研究组)组成的团队成为首个模型表现超越人类的参赛团队. 图源 ...
- 首个中文多项选择阅读理解数据集:BERT最好成绩只有68%
2019-12-19 12:18:15 赖可 发自 亚龙湾移动凹非寺 量子位 报道 | 公众号 QbitAI 横扫一众基准测试的BERT等NLP模型,好像没那么强了. 因为它们遇到了一个中文数据集. ...
- 首个中文多项选择阅读理解数据集:BERT最好成绩只有68%,86%问题需要先验知识...
赖可 发自 亚龙湾移动凹非寺 量子位 报道 | 公众号 QbitAI 横扫一众基准测试的BERT等NLP模型,好像没那么强了. 因为它们遇到了一个中文数据集. 康奈尔大学留学生发布了第一个自由形式的中 ...
- “非自回归”也不差:基于MLM的阅读理解问答
作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 前段时间写了万能的Seq2Seq:基于Seq2Seq的阅读理解问答,探索了以最通用的 Seq2Seq 的方式来做阅 ...
- 万能的Seq2Seq:基于Seq2Seq的阅读理解问答
作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 今天给 bert4keras [1] 新增加了一个例子:阅读理解式问答(task_reading_comprehe ...
最新文章
- 基于视觉的在线地图:一种Transformer网络方法
- SuMa++: 基于激光雷达的高效语义SLAM
- 硬核NeruIPS 2018最佳论文,一个神经了的常微分方程
- 【js基础】理清Object、Object.prototype、Function、Function.prototype
- Laravel Collection 常用方法(1)
- c#用控制台程序安装启动停止卸载服务
- 节日日历for Ubuntu18.04
- hdu 4288 线段树 暴力 **
- linux环境下给文件加密/解密的方法
- Qt setFocus
- 推送数据分析全新升级,优化方向一目了然
- [系统安全] 十五.Chrome密码保存功能渗透解析、Chrome蓝屏漏洞及音乐软件漏洞复现
- VS2017IIS注册
- 二义性调用(Ambiguous Call)
- linux查询打印机ip,Linux C打印IP地址信息
- 骨传导耳机低频差理所当然?飞利浦A6606表示不服
- 单片机STM32的5个时钟源知识,你不能错过。
- 产线流量测试解决方案
- 视频监控与视频编解码技术
- 输出IMG格式SAR图像——Envi软件安装与看图
热门文章
- 爬小说遇到编码问题 笔趣阁
- sql语句中嵌套2层循环
- Linux 64位 CentOS下安装 Docker 容器,启动、停止
- JDK1.7配置及测试
- Shader Compiler 界面进展2
- gsonformat安装怎么使用_IDEA中使用GsonFormat
- 华南理工大学 高级程序设计语言 c++ ,2017华南理工大学网络教育《高级语言程序设计C++》平时作业...
- 小程序云函数获取用户昵称_小程序云开发云函数进阶
- filezilla 设置filezilla使用明文密码_详解WordPress使用FTP上传主题和插件
- php curl viewstate,php curl – 发布asp.net viewstate值