圆栗子 发自 凹非寺 
量子位 出品 | 公众号 QbitAI

最近,国防科大 (NUDT) 登顶SQuAD 2.0排行榜。

击败了微软强敌FusionNet++,机器的阅读理解能力又进化了。



SQuAD 2.0是个阅读理解数据集,机器需要根据文本中的信息,回答问题。

强调一下,所有的答案都要来自文本

SQuAD 2.0的特殊之处在于,有些问题,文本里并没有答案

那么,机器回答这些问题的时候,要明确表示“No Answer”。



国防科大和微软亚洲研究院,提出的阅读-验证算法,便是为检测无法回答的问题而生的。

备选答案,需要验证

要找出“不该乱填答案”的问题,常用的方法,就是预测No Answer的概率。

可这样的做法,可能就不会去检测,系统给出的其他备选答案有多可信了。

于是,国防科大和微软组成的Minghao Hu团队,给算法加入了验证候选答案的步骤,在SQuAD 2.0中获得了74.2 F1的最高分。

这里,阅读器验证器,都不可缺少。



比如,阅读理解的文章提到,诺曼底是法国的一个地区。

问题问的是,法国是 ( ) 的一个地区,文中没有提到。

这对人类来说,难度不大,诺曼底可能连干扰项也算不上。但算法会怎么看?

首先阅读器从文中找出备选答案 ,同时也算出无答案概率 (NA Prob) 。

然后,把备选答案扔给验证器 (Answer Verifier) ,看文中相关句子的表达,能不能回答问题

最后,把验证器的无答案概率,和第一步的无答案概率,结合到一起,才能决定要不要输出No Answer。

验证答案,并不简单

不过,验证诺曼底是不是问题的答案,需要经过一番推理。



 If A then B.

还是刚才的栗子,“诺曼底是法国的一个地区”用A表示,“法国是诺曼底的一个地区”用B表示。

如果,A能推出B,答案就是诺曼底。A不能推出B,诺曼底就被淘汰。

把这个验证过程,交给神经网络,团队试了三种不同的模型:



Model-I,是最简单的顺序结构

Model-II,是交互式结构。由于要识别答案和问题之间的逻辑蕴含,团队使用了基于交互的一种方法,包含这几层:

· 编码 (Encoding)

· 推理建模 (Inference Modelling):建立两个句子之间的交互。

· 句内建模 (Intra-Sentence Modelling) :找出句子内部的逻辑。

· 预测 (Prediction) :给出阶段性的无答案概率

Model-III,则是把前两个模型整合起来,看预测结果会不会更理想。



其中,Model I用了无监督的预训练,和有监督的微调。也就是说,阅读无标签的文本,来优化模型,初始化参数;然后按照有监督的目标,来调整参数。

Model II是直接用有监督的损失来训练的。

由于两个模型架构不同,需要的训练过程也不同。因此,Model III是用二者的预训练参数来初始化的,然后整体微调。

疗效出众

训练完成,就把AI扔进SQuAD 2.0的隐藏验证集 (下图Test栏) ,试一试。

离人类最近

测试用的阅读器,叫做Reinforced Mnemonic Reader (RMR) ,同样来自Minghao Hu团队,且在SQuAD 1.1榜上有名



 在下愚钝,不确定Verifier用的是Model I、II、III中的哪一个

加上新的验证器,RMR (+ELMo嵌入) 的阅读理解成绩,高过了所有的前辈 (对手都是SQuAD 2.0论文中列出的强者) 。

它的两项分数,都与人类的表现最为接近:

71.7 EM,是精确匹配结果,表示模型给出的答案与标答完全一致。

74.2 F1,是模糊匹配,可理解为部分回答正确,根据模型的答案与标答之间的重合度计算。

登顶SQuAD 2.0排行榜的,就是这组成绩。

三个验证器比一比

击退外敌,再来看一下三个验证器模型,谁的无答案正确率最高。



Model-III,以微弱的优势胜出。由此观之,把Model I、II整合起来,还是有效的。

不过,加上ELMo嵌入,倒是没有带来明显的加成。

欣赏论文吧

“阅读+验证”模型,离人类的阅读理解分数,还有一段距离。

不过,更准确地判断哪些题目不能乱答,也是很大的一步了。



论文传送门:
https://arxiv.org/pdf/1808.05759.pdf

加入社群

量子位AI社群19群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

国防科大登顶SQuAD 2.0排行榜,机器阅读也要“不知为不知”相关推荐

  1. 科大讯飞刷新SQuAD 2.0问答榜纪录,机器阅读理解全面超越人类

    近日,科大讯飞再次登上 SQuAD 2.0 挑战赛榜首,不过这次顺带刷新了一下纪录:在EM(精准匹配率)和F1(模糊匹配率)两项指标上全面超越人类平均水平,分别达到87.147和89.474.其中EM ...

  2. 计算机体系结构(国防科大)-第七章-多处理机

    计算机体系结构(国防科大)-第七章-多处理机 1 共享存储器体系结构 1.1 并行计算 1.2 多处理机Cache一致性 2 互联网络 2.1 互联网络的性能参数 2.2 静态连接网络 2.3 动态连 ...

  3. 平安金融壹账通获机器阅读理解顶级赛事(SQuAD)世界第一

    IFTNews 12月3日消息:平安金融壹账通又有重大突破!继在人类情绪理解竞赛多次登顶之后, 平安金融壹账通GammaLab又在另一项国际顶级赛事上斩获第一.近日,在由斯坦福大学发起的机器阅读理解竞 ...

  4. 国防科大编译原理慕课笔记

    本文内容主要参考国防科技大学编译原理慕课课程(链接:国防科大慕课地址 王挺老师所讲内容基本和华科计院编译原理课程内容一致,这也是我自己边学习边做的一些笔记,为了防止丢失,特意上传上来,学弟学妹们也可以 ...

  5. 国防科大天河计算机应用,国防科大计算机学院:让本科生进入“天河”团队

    近日,国防科大计算机学院朱莉珏等11名大四本科生,针对我国新一代超级计算机技术的研究课题,经专家审定后开展课题攻关.该院政委刘学民告诉记者,让本科学员进入"天河"高性能计算创新团队 ...

  6. 国防科大JAVA工程师笔试题_国防科大人工智能考博题答案

    [实例简介] 国防科大计算机学院考博试题 人工智能11-15年试题答案 A-20 年 3 3(注主:图21的日2该是想反3):61(35),610) ①到日1 ① b+s=15 ② ①+9-5 =19 ...

  7. ThunderNet:国防科大、旷视提出首个在ARM上实时运行的通用目标检测算法

    点击我爱计算机视觉标星,更快获取CVML新技术 今天跟大家分享一篇前天新出的论文<ThunderNet: Towards Real-time Generic Object Detection&g ...

  8. 2022保研夏令营经验贴(中科大、华科、武大、国防科大、浙大软件、中科院)

    一.本人信息介绍 学校:武汉某211 rank:专业第三,5%(rank1可以吃肉,rank2能够喝汤,rank3只配闻香) CET-4: 544:CET-6: 466;(六级有点拖后腿) 科研:比较 ...

  9. 天河计算机学院,23名90后加入国防科大“天河”超级计算机团队

    初春,记者来到国防科大计算机学院"天河"创新团队采访,随处可见一张张稚嫩的面孔.该院院长廖湘科教授告诉记者:"他们是最近加入团队的一批本科生,都是90后!" & ...

最新文章

  1. (原创)Python文件与文件系统系列(5)——stat模块
  2. “adb不是内部或外部命令,也不是可执行的应用程序”错误原因及解决方法
  3. 华为SDSec分为几层
  4. 跨链Cosmos(9)异构跨链交易流程
  5. 程序员:我用代码给女朋友P图
  6. 好书推荐之《活着》 隐私策略(Privacy policy)
  7. python操作数据库
  8. [Leetcode][第1025题][JAVA][除数博弈][数学][递推]
  9. 项目-团队-技术-个人(专业篇)
  10. 20-10-025-安装-KyLin-2.6.0-单机版安装(MAC官网下载)成功
  11. map java 初始化赋值_Java 中 HashMap 初始化时赋值(示例代码)
  12. python提高——类(私有化,封装、继承、多态)
  13. tomcat https 启用8443加证书
  14. 分布式存储系统学习笔记(一)—什么是分布式系统(2)—数据分布
  15. 人物角色群体攻击判定四(三角区域判断)
  16. apicloud apploader 连接失败
  17. 选择日期弹框html,JS——点击文本框弹出选择日期表格
  18. VLAN及VLAN城域网规划
  19. [5机器学习]python计算机视觉应用-图片内容识别
  20. postgresql 表分区

热门文章

  1. 2017 开发者大调查活动获奖名单新鲜出炉
  2. 【2021Java最新学习路线】java前端开发
  3. STM32学习:串口通讯(proteus仿真)
  4. keepalived原理和安装
  5. 上采样层什么意思_佛前上三柱香、磕三个头是什么意思!
  6. python3爬取数据存入mysql_Python3爬虫爬取数据并存入mysql
  7. php 字符ascii转中文,PHP ASCII码与字符串相互转换的方法
  8. python中snip_我终于弄懂了Python的装饰器(三)
  9. 关联规则完整源代码_接口测试:A06_HttpRunner关联_02_提取 SessionID:固定名称方式...
  10. 美国服务器远程卡,RAKsmart Windows美国服务器远程连接VNC方法