赖可 发自 亚龙湾移动凹非寺
量子位 报道 | 公众号 QbitAI

横扫一众基准测试的BERT等NLP模型,好像没那么强了。

因为它们遇到了一个中文数据集。

康奈尔大学留学生发布了第一个自由形式的中文阅读理解多选题数据集,其中86.6%的问题都需要文档外的知识。

在这个数据集上,各个模型的正确率最高也只有68%,比起人类的96%的表现,还是差距明显。

数据集C3

机器阅读理解最大的挑战就是回答需要先验知识的问题。而且中文在这方面的表现比英文差很多,一个原因是缺乏专门的数据集。

这份数据集命名为C3(free-form multiple-Choice Chinese machine reading Comprehension dataset)

收集的主要是形式自由的多项选择题,阅读材料来自汉语水平考试和民族汉语考试,包括试卷和练习。

一共有13369篇文章和19577个问题,其中的60%用是训练集,20%是开发集,20%是测试集。

数据集从类型上分为两个部分:

分别是正式书面文本口语化文本。书面文本比口语化文本更长,但是两者都不能拿来作机器阅读长文章的训练数据集。

数据集统计情况如下表:

需要先验知识的问题共分为十类

研究者分析了回答什么样的问题需要先验知识。如果一个问题能够在文档中进行匹配,回答起来就几乎不需要先验知识,而需要先验知识的问题分为三类:

1、关于语言的知识:需要词汇/语法知识,例如:习语、谚语、否定、反义词、同义词、单词可能的含义和语法转换。

2、关于某个特定领域:需要但不限于一些事实上的知识,这些事实与特定领域的概念,概念定义和属性,概念之间的关系。

3、一般世界:需要有关世界如何运作的一般知识,或者被称为常识。在这个数据集中主要指的是百科全书假定不需要解释读者就知道的知识。

在第三类中,研究者又将问题分为8个子类型:

1、计算:数值计算和分析

2、内涵:关于对某物或某人隐含的感情、情感和语气

3、因果:事件B引发事件A,通常用来回答“为什么”的问题

4、暗示:要点、建议、意见、事实或事件没有在文本中明确表达

5、部分与整体:需要知道A是B的一部分

6、场景:观察到人类行为或活动以及相应的时间/位置信息。还需要了解参与者的个人信息(如职业、教育程度、个性、心理或身体状况),以及参与者之间的关系。

7、前提:如果A没有发生,那么B不会发生。

8、其它

基于支持回答问题句子的最少数量。研究者将所有问题分为三类:单个,多个,独立

所有问题的分类情况和简写标记如下表:

目前训练结果离人类水平差距大

用已有的方法和神经网络模型,研究者对数据集进行了训练,结果如下:

语言模型的预训练效果比基于规则的方法、基于Bi-LSTM的模型要明显优秀,但是性能最佳的模型只正确率也只有68%,比起人类的96%的表现,还是差距明显。

更好的模型还有待开发。

传送门

https://github.com/nlpdata/c3
https://arxiv.org/abs/1904.09679

大咖齐聚!量子位MEET大会精彩回放

量子位 MEET 2020 智能未来大会精彩回放来袭!李开复、倪光南、景鲲、周伯文、吴明辉、曹旭东、叶杰平、唐文斌、王砚峰、黄刚、马原等AI大咖与你一起读懂人工智能。扫码观看回放吧~ ~

跟大咖交流 | 进入AI社群

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

首个中文多项选择阅读理解数据集:BERT最好成绩只有68%,86%问题需要先验知识...相关推荐

  1. 首个中文多项选择阅读理解数据集:BERT最好成绩只有68%

    2019-12-19 12:18:15 赖可 发自 亚龙湾移动凹非寺 量子位 报道 | 公众号 QbitAI 横扫一众基准测试的BERT等NLP模型,好像没那么强了. 因为它们遇到了一个中文数据集. ...

  2. ICLR 2020 | ReClor: 一个需要逻辑推理的阅读理解数据集

    2020-05-12 20:22:59 语言预训练模型在现有流行的阅读理解数据集上取得了惊人的效果,因此,现在是时候引入更复杂的数据集来推动该领域朝着更复杂推理的方向发展了. 新加坡国立大学冯佳时团队 ...

  3. NLP-阅读理解:“阅读理解”综述(Machine Reading Comprehension, MRC)【完形填空、多项选择、抽取式(答案片段抽取)、生成式(自由作答)】《机器阅读理解数据集》

    <原始论文:Neural Machine Reading Comprehension: Methods and Trends> 一.阅读理解概述 所谓的机器阅读理解(Machine Rea ...

  4. 一种基于抽取式的中文机器阅读理解数据集CMRC2018

    一种基于抽取式的中文机器阅读理解数据集CMRC2018 A Span-Extraction Dataset for Chinese Machine Reading Comprehension Lead ...

  5. 云从科技上交大提出DCMN+ 模型,在多项阅读理解数据集上成绩领先

    2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办.不久之前,大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇, ...

  6. DeepMind推出更难的机器阅读理解数据集,要让AI读懂整本书

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 在机器阅读理解界的ImageNet--SQuAD挑战赛中,排在前几名的算法,都能拿到八十多分的成绩. 可是,为什么我们依然觉得机器不太听/看 ...

  7. CORGI-PM:首个中文性别偏见探索和缓解数据集

    来自:NLP工作站 写在前面 今天给大家带来一篇性别偏见探索和缓解的中文数据集-CORGI-PM,全名<CORGI-PM: A Chinese Corpus For Gender Bias Pr ...

  8. 刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...

    作者 | HFL 来源 | 哈工大讯飞联合实验室(ID:rgznai100) 为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中 ...

  9. 30万奖金海华AI挑战赛 | 用机器挑战中文阅读理解

    摘要 2021 海华 AI 挑战赛已经正式开赛,总奖金 30 万元(技术组 21 万元,中学组 9 万元). 本次比赛的主题为机器阅读理解,数据来自小学和中学语文考试中的语文阅读理解试题.其中,还包括 ...

最新文章

  1. Django博客系统(文章模型)
  2. 遇到的仍未学习的各种结论
  3. Compose 手势事件:防止重复点击,双击,长按,全局触摸隐藏键盘
  4. pytorch torch.nn.Sequential(* args)(嘎哈用的?构建神经网络用的?)
  5. SQLite学习手册(命令行工具)
  6. OpenCASCADE:读IGES
  7. AUTOSAR从入门到精通100讲(三十八)-AUTOSAR 通信服务 - NM概念详解
  8. HDU 1242 Rescue
  9. String hashCode为啥用31这个数字,很多人不知道!
  10. 2017-2018-1 JAVA实验站 第四、五周作业
  11. python 代理抓包_python requests代理设置,fiddler抓包
  12. electron ui框架
  13. 计算机考研复试面试题专业知识整理
  14. hexo博客next主题6.0版本个性化设置
  15. 文件比较命令(comp)
  16. 捣鼓车间 | 学生获奖作品:戒烟帽
  17. BZOJ 4480 [JSOI2013] 快乐的jyy
  18. 微信HOOK协议(PC版)源码demo
  19. tomcat之配置文件详解
  20. Vert.x + Protobuf二进制协议解析

热门文章

  1. 吴恩达朋友圈宣布“喜讯”:AI专家王冬岩加入Landing AI...
  2. soapUI学习笔记--用例字段参数化
  3. React学习(3)——列表、键值与表单
  4. dell服务器网卡em1改成eth0
  5. selenium3浏览器驱动安装设置方法
  6. Kali Linux修改桌面默认图标
  7. Visual Studio 2017 版本 15.5.5
  8. iOS 9应用开发教程之使用开关滑块控件以及滚动部署视图
  9. dSploitzANTI渗透教程之HTTP服务重定向地址
  10. 查看服务器CPU配置信息,转帖-CentOS查看CPU信息、位数、多核信息;查看服务器硬件信息...