来源:机器之心

本文约2000字,建议阅读8分钟

京东提出的 EL-QA 模型(登顶 QuAC Leaderboard,全部三项指标均获得第一名。

[ 摘要 ]近日,在斯坦福大学、华盛顿大学、Allen AI 和 UMass 联合发起的机器阅读理解(QuAC[1] (Choi et al., 2018))比赛中,京东 AI 研究院语音语言实验室提出的 EL-QA 模型(Single Model)登顶 QuAC Leaderboard,全部三项指标均获得第一名。

其中,在 F1-Measure(又称为 F1-Score) 指标上达到 74.6,大幅拉近了机器与人类在该任务上的水平差距。这也意味着以零售、物流、金融、客服等优质场景为依托的京东 AI 研究院,在机器阅读理解能力上取得了突飞猛进的成果。

图 1QuAC 挑战赛官方成绩榜单(https://quac.ai)

目前,QuAC 是人机多轮对话交互领域复杂度最高的数据集,要求模型具备强大的上下文语义理解、指代推理、省略语义恢复和知识推理等能力,这也吸引了全球顶级科研院所和企业研究机构参加。从结果来看,QuAC 具有较高的难度,在这个数据集上目前的最佳 AI 模型的性能距离人类表现仍有一定差距,表明在这个问题上技术还有进步的空间。

QuAC 新挑战:更复杂的数据集、更开放的问题、更贴近真实场景

机器阅读理解能力已成为判断机器是否具有自然语言理解(语义理解、阅读、问答等)能力的重要标准。SQuAD[2] (Rajpurkar et al., 2016) 数据集的提出极大地推动了机器阅读理解的研究与发展。随着模型在上述单轮问答场景超越人类,更有挑战的交互式阅读理解数据集,如 CoQA[3] (Reddy et al., 2018) 等,被相继提出。

相比于众多交互式阅读理解数据集,QuAC 具有更鲜明的特点,也更进一步反映了复杂人机对话交互应用场景的难度。比如:

  • 基于答案对提问者不可见的方式构造开放式问题,增大回答难度;

  • 增加对话引导行为(Action)辅助提问者调整提问话题,以便高效获取信息;

  • 模拟真实场景引入不可回答问题,增加对模型理解与判断能力的要求。

具体而言,该数据集是由提问者(Student)和回答者(Teacher)针对某一主题展开对话而构建的,提问者在只能看见给定主题而不可见主题具体信息的条件下进行开放式的提问,回答者针对问题不仅要给出具体回复(response),并且需反馈对话引导行为和问题是否可回答等信息。

图 2:QuAC 数据集示例

例如,图 2 展示了提问者首先根据主题 Daffy Duck 进行提问。回答者会根据给定主题相关信息和交互历史来判断当前问题所讨论的话题是否可继续提问,继而反馈给提问者相应的对话引导行为,包括继续当前话题(Follow-Up),终止当前话题(Don’t Follow-Up)或无法判断是否继续(Maybe Follow-Up),并最后给出相应的答案。

该竞赛的数据构造过程更贴合人们通过对话进行信息获取(Conversational Information-Seeking)的真实场景。例如在零售领域,用户对某一商品进行开放式咨询,智能客服根据具体的商品信息对用户的提问进行可回复性判断,并给出用户是否继续或改变当前咨询话题的引导行为,最终给出自然语言回复。相对于传统的智能客服,这种新的交互方式可以极大地提升用户的对话体验和效率。

图 3:QuAC 与其他机器阅读理解数据集的多维度对比

图 3 给出了 QuAC 与时下多个热门机器阅读理解数据集的详细对比,可看出 QuAC 具有最丰富的数据特性,要求模型具有更强的上下文语义理解和对话逻辑推理能力。

京东 AI 研究院 EL-QA 模型斩获新 SOTA

京东 AI 研究院语音语言实验室提出的 EL-QA 模型(Single Model)登顶 QuAC Leaderboard,全部三项指标均获得第一名,其中特别是 HEQD(对话 Session 层面对比人类平均水平的指标)显著领先之前最好表现。该结果的取得主要得益于我们在关键技术上的创新,包括大规模预训练语言模型、知识迁移、多任务学习、数据增强、Beam-Search 解码答案和 Deep Ranking 等。

拥有优质场景和广阔应用价值的企业或机构在本次竞赛中占据优势。本次竞赛从参赛队伍到榜单分布,大多是在智能人机交互服务领域有重要相关业务的企业的实验室。这也体现出,一方面,科技企业基于资源优势正在核心技术研发方面走到前沿,而大学则聚焦于新问题新思想新方向的提出和中立的技术评价,学术界和企业界形成了良性的紧密合作。另一方面,这也表明,智能人机对话交互技术不仅具有重要的研究价值,也有重大的产业价值。

企业的全力加入使得此领域的技术竞争日益激烈,是兵家必争之地。这次评测的对话式机器阅读理解相关技术可广泛应用于智能客服、营销导购、人机协同、AI + 教育等产品中,带来效率和体验的直接提升。

据悉,京东 AI 研究院语音语言实验室围绕自然语言处理、语音与声学、知识图谱、人机对话与交互、多模态信息处理等前沿领域开展人工智能技术研究,近两年已经在国际顶级学术会议和期刊上发表论文 50 多篇,获得 IEEE Signal Processing Society 等最佳论文奖,在多个有影响力的国际竞赛中获得冠军,同时也承担了多项国家重点研发计划。其研发的多项前沿技术也成功转化落地,支撑了京东智联云多个重要产品。此次研发的对话式机器阅读理解相关技术部分已落地到了京东智联云智能人机交互部的商城智能客服、商家智能客服(京小智:https://portal-aixiaozhi.jd.com/)、客户服务数据分析平台、智能写作以及商品知识图谱驱动的采购大脑等核心产品当中。

参考文献

[1] Choi E, He H, Iyyer M, et al. Quac: Question answering in context[J]. arXiv preprint arXiv:1808.07036, 2018.

[2] Rajpurkar P, Zhang J, Lopyrev K, et al. Squad: 100,000+ questions for machine comprehension of text[J]. arXiv preprint arXiv:1606.05250, 2016.

[3] Reddy S, Chen D, Manning C D. Coqa: A conversational question answering challenge[J]. Transactions of the Association for Computational Linguistics, 2019, 7: 249-266.

编辑:黄继彦

校对:林亦霖

​京东AI研究院获QuAC机器阅读理解竞赛冠军,EL-QA模型能力业界领先相关推荐

  1. 中国首个开源基金会成立;京东 AI 研究院获 QuAC 机器阅读理解竞赛冠军

    开发者社区技术周刊又和大家见面了,快来看看这周有哪些值得我们开发者关注的重要新闻吧. 京东AI研究院获QuAC机器阅读理解竞赛冠军 中国首个开源基金会成立,已有七个项目加入孵化 COVID-19大流行 ...

  2. 2018机器阅读理解竞赛冠军分享:问答系统新思路

    7月28日,由中国中文信息学会和中国计算机学会联合举办的第三届语言与智能高峰论坛于北京语言大学举办.Naturali 奇点机智团队作为2018机器阅读理解技术竞赛冠军团队,受邀参加本次活动的" ...

  3. 信息抽取(一)机器阅读理解——样本数据处理与Baseline模型搭建训练(2020语言与智能技术竞赛)

    机器阅读理解--样本数据处理与Baseline模型搭建训练 前言 样本数据处理 数据测试 模型部分 模型构建 模型训练 部分推理结果 总结 前言 最近看到今年早些时候百度的"2020语言与智 ...

  4. 京东AI研究院何晓冬:将先进的技术和模型落地到产业

    本文转载自 Robin.ly 社区,Robin.ly 和 TalentSeer 的创始人 Alex Ren 采访了京东AI研究院的常务副院长何晓冬博士,采访中分享了AI,leadership以及AI落 ...

  5. 百度发起机器阅读理解竞赛,提供中文数据集,获胜团队奖10万

    允中 发自 SSJQ  量子位 报道 | 公众号 QbitAI 机器阅读理解(中文版)技术竞赛,现在可以报名了. 3月1日,由百度.中国中文信息学会(CIPS).中国计算机学会(CCF)联手举办的&q ...

  6. 中国人工智能大赛机器阅读理解任务冠军方案出炉~

    点击左上方蓝字关注我们 [飞桨开发者说]王肖,中国科学院信息工程研究所研究生在读,自然语言处理技术爱好者,研究方向为文本匹配.文本分类.本文对抗.知识蒸馏.模型压缩.推荐系统.多任务学习等. 参赛背景 ...

  7. 荣获百度机器阅读理解第一名的团队,他们想分享这些给你!

    日前,由中国中文信息学会 (CIPS).中国计算机学会 (CCF) 和百度公司联合举办的「2018 机器阅读理解技术竞赛」落下帷幕,Naturali 奇点机智从国内外 800 多支队伍中脱颖而出,获得 ...

  8. 平安金融壹账通获机器阅读理解顶级赛事(SQuAD)世界第一

    IFTNews 12月3日消息:平安金融壹账通又有重大突破!继在人类情绪理解竞赛多次登顶之后, 平安金融壹账通GammaLab又在另一项国际顶级赛事上斩获第一.近日,在由斯坦福大学发起的机器阅读理解竞 ...

  9. 科大讯飞刷新纪录,机器阅读理解如何超越人类平均水平? | 技术头条

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」明日开启,扫码咨询 ↑↑↑ 记者 | 琥珀 出品 | AI科技大本营(公众号ID:rgznai100) 对于日常从事模型训练的研究人员来 ...

最新文章

  1. python抢红包脚本实例-这个Python脚本牛逼了,秒抢红包,再不怕错过一个亿了!...
  2. 有趣c语言编程经典例子,C语言简单有趣例子总结ZWF.pdf
  3. mysql 新增从数据库_从零开始学 MySQL - 创建数据库并插入数据
  4. 七月时忙碌而充实的_如何减少忙碌而更有效
  5. 一张图一个表——CSS选择器总结
  6. 2020中国教育行业生存实录
  7. 重磅!ICDAR 2019-LSVT街景文字识别国际竞赛!奖金丰厚
  8. MongoDB C#:如何将包含DateTime的JSON反序列化为正确的BsonDocument DateTime值
  9. 关于一些信息学数论问题例题的讨论
  10. 阶段3 2.Spring_07.银行转账案例_5 编写业务层和持久层事务控制代码并配置spring的ioc...
  11. 51Nod1344走格子
  12. 安泰测试新手教程-泰克数字示波器使用方法
  13. 攻防演练比赛中攻击队常用的测试方法列举
  14. DC Administration Services 宣布ISDA裁决委员会2021年申请流程
  15. MES的关键数据模型S95标准介绍
  16. ISO3834认证所需的部分标准
  17. XML 解析器之一 :MSXML使用教程(转)
  18. (专升本)数字多媒体技术基础(图形/图像处理软件)
  19. gdp python 变迁动图_卫星动图看西安12年变迁,满满都是泪!
  20. 合理使用过量分配 避免虚拟机配置亮红灯

热门文章

  1. python线程池阻塞队列_福利又来啦!python多线程进阶篇
  2. java游戏下载ios_java浏览器下载
  3. python多程优化_Python 基本功: 13. 多线程运算提速
  4. UVA11732 strcmp() Anyone?
  5. nodejs实现微信授权登录
  6. Linux-软件包管理
  7. (转) 干货 | 图解LSTM神经网络架构及其11种变体(附论文)
  8. 【cocos2d-x从c++到js】21:使用CocosCode调试JSB
  9. 交换机IEEE 802.1Q、VLAN ID、QoS之间的关系
  10. backgroundworker控件的使用(线程传值)