来自:百度NLP

2月初,人工智能领域的顶级会议AAAI 2020已在美国纽约召开,百度共有28篇论文入选。NLP预训练领域入选论文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》被选为Oral展示。

该论文提出了持续学习的语义理解框架,该框架可增量学习海量数据中的知识,持续提升语义理解效果,本文将对其展开解读。

基于该框架,ERNIE 2.0模型通过命名实体预测、句子排序结构重建、语义逻辑关系预测等预训练任务学习词法、结构、语义等多个维度知识,大幅提升了通用语义理解水平。去年12月,基于ERNIE 2.0改进的模型在权威榜单GLUE上首次突破90大关,超越人类基线3个点,获得全球第一。

论文地址:

https://arxiv.org/abs/1907.12412

Github地址:

https://github.com/PaddlePaddle/ERNIE

一、研究动机

近两年,以BERT为代表的无监督预训练技术在多个自然语言处理任务上取得技术突破,基于大规模数据的无监督预训练技术是未来自然语言处理领域发展的重要方向。

之前的工作主要通过语言共现信号构建语言模型任务进行建模,例如BERT通过掩码语言模型和下一句预测任务进行预训练。然而,除了语言共现信息外,语料中还包含词法、结构、语义等更多有价值的信息,例如人名、地名、机构名等概念知识,句子间顺序和距离关系等结构知识,语言逻辑关系等语义知识。

那么如果持续地学习各类任务,模型的效果能否进一步提升? 这就是ERNIE 2.0希望探索的。

二、ERNIE 2.0框架

框架概述

ERNIE 2.0框架是基于预训练/微调架构构建的,这种架构在NLP中非常流行。与BERT等预训练方法的不同之处在于:它并不是在少量预训练任务上完成的,而是通过不断引入新的预训练任务,帮助模型持续高效地学习语义信息。

ERNIE框架支持引入各种自定义预训练任务,这些任务共享相同的编码网络并通过多任务学习实现训练。当我们给出新的任务时,ERNIE 2.0框架可以根据先前预训练的权重增量地学习新的知识。

图1 ERNIE 2.0框架

ERNIE 2.0预训练过程可以分为两个步骤,即构建无监督预训练任务通过多任务学习增量地更新ERNIE模型。这里不同的任务有序地加入框架中训练,框架通过持续多任务学习使得模型在学习新任务时不遗忘已经学到过的知识。对于不同的应用任务,ERNIE 2.0会使用具体的任务数据微调。

持续多任务学习

ERNIE 2.0在学习过程中有两个主要的挑战: 第一个是如何以连续的方式训练任务,而不忘记以前所学的知识;第二个是如何更有效地学习这些预训练任务。为此,ERNIE 2.0中探索了3种预训练的学习方式:

图 2 不同预训练方式

1、Continual Learning:在训练的每一个阶段仅通过一项任务来训练模型,其缺点是会忘记先前学习的知识。

2、Multi-task Learning:所有任务一起进行多任务学习,其缺点是在进行训练之前必须准备好所有定制的预训练任务,每当有新任务时,模型都需要从头学习。

3、Sequential Multi-task Learning:ERNIE 2.0中新提出的方法,每当有新任务出现时,使用先前学习的参数来初始化模型,并同时训练新引入的任务和原始任务。这样解决了前两种方法的问题,可以随时引入新任务,并保留先前学到的知识。

三、ERNIE 2.0模型

图3 ERNIE 2.0模型结构

ERNIE 2.0 Model使用Transformer作为编码器。经过多层的self-attention机制计算文本的上下文相关表示,学习不同层面的任务。同时,其引入了Task Embedding建模不同的预训练任务。模型使用Word、Sentence、Position和Task对应的表示加和作为输入。

模型的预训练任务是从词汇、结构和语义三个层面构建的,以捕获和建模训练数据中不同的信息,这里列举一些典型的预训练任务:

词汇层面任务

1、知识掩码任务:

ERNIE 1.0(https://arxiv.org/abs/1904.09223) 中介绍了知识掩码任务,其通过对词、实体等语义单元进行完整地掩码,使得模型学习完整概念,ERNIE 2.0使用其作为一个预训练任务。

图4 知识掩码任务

2、大小写预测任务:

在英文等语言中,大写的词汇(如Newton等)包含了特殊的语义信息。传统建模有两种:第一种是全部转化为小写,更适合自然语言推断等任务;第二种是保留大小写信息,更适合命名实体识别等任务。在大小写预测任务中,模型去学习每个词汇在原文中是否为大写,兼顾了两种建模方式的优势。

结构层面任务

1、句子排序任务:

句子之间的顺序反映了它们之间的逻辑顺序以及时间顺序。ERNIE 2.0构建了句子排序预训练任务。在训练过程中,随机将一个段落中的N个句子打乱,让模型预测正确的顺序。

图5 句子排序任务

2、句子距离任务:

句子排序任务建模了段落内的句子关系。如果建模更长的结构关系,能否进一步加强模型能力?例如,不同距离的句对有不同的语义紧密程度。

ERNIE 2.0构建了句子距离任务。输入任意两个句子,模型预测两个句子是否相邻、是否属于同一文章,来判断两句的语义关系是否紧密、是否属于同一话题。

语义层面任务

逻辑关系预测任务:

短句之间的连词往往准确地表示了它们的逻辑关系。在该任务中,ERNIE 2.0使用短句间的连词,进行无监督的逻辑关系分类,建模了细粒度的语义。

图6 句子逻辑关系任务

四、实验结果

论文中分别比较了ERNIE 2.0和当前最优预训练模型在中英文任务上的性能。英文任务中,ERNIE 2.0在自然语言理解数据集GLUE的7个任务上超过了BERT和XLNet。中文上,ERNIE 2.0在阅读理解、情感分析、问答等不同类型的9个数据集上超越了BERT,并刷新了最优效果。

ERNIE 2.0 在英文任务上的效果

ERNIE 2.0模型在GLUE数据集上的性能如表1所示。可以看出相对之前的最优模型BERT和XLNet,效果提升明显。

表1 ERNIE 2.0在GLUE上的效果

ERNIE 2.0 在中文任务上的效果

在 9 个中文NLP任务上,ERNIE 2.0_Base在全部9项任务上的效果均超越BERT_BASE,同时ERNIE 2.0_LARGE效果达到了业界最优。

表2 ERNIE 2.0在9项中文NLP任务上的效果

五、结语

在该论文提出的持续学习语义理解框架ERNIE 2.0中,知识可通过预训练任务的形式加入到训练框架。该框架可在引入新任务学习时,不遗忘之前学到过的信息。

基于该框架,百度研究者提出了词法、结构、语义三个维度构建的多种预训练任务,大幅提升了ERNIE 2.0模型的通用语义理解水平。该技术已经在工业界得到广泛应用,在搜索、信息流、智能音箱、智能客服等产品中的效果都取得了显著提升。

至此,AAAI 2020中百度在NLP领域入选的第二篇论文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》的分享到此结束,我们将继续对AAAI 2020中百度入选的其余2篇NLP领域论文进行详细解读,敬请关注!

【论文解读】AAAI 2020 持续学习语义理解框架ERNIE 2.0相关推荐

  1. 【论文解读 AAAI 2020 | GNTP】Differentiable Reasoning on Large Knowledge Bases and Natural Language

    论文题目:Differentiable Reasoning on Large Knowledge Bases and Natural Language 论文来源:AAAI 2020 伦敦大学, Fac ...

  2. 【论文解读 AAAI 2020 | Bi-GCN】Rumor Detection on Social Media with Bi-Directional GCN

    论文题目:Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks 论文来源:AAAI 2020 ...

  3. 百度孙宇:百度语义理解技术ERNIE及其应用

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  4. 京东云与AI 10 篇论文被AAAI 2020 收录,京东科技实力亮相世界舞台

    美国时间2月7-12日,AAAI 2020大会在纽约正式拉开序幕,AAAI作为全球人工智能领域的顶级学术会议,每年评审并收录来自全球最顶尖的学术论文,这些学术研究引领着技术的趋势和未来.京东云与AI在 ...

  5. DeepLabV3论文解读(空洞卷积/膨胀卷积 理解)

    DeepLabV3论文解读(空洞卷积/膨胀卷积 理解) 最近在做基础网络研究,设计的网络结构除了在分类数据集上测试,还需要在分割和检测网络上测试效果,故选择了DeepLabV3作为对比平台.本想直接替 ...

  6. 开源语义理解框架 Clause API 文档:快速实现聊天机器人

    在上一篇文章<基于开源语义理解框架 Clause 实现聊天机器人 > 中,很多读者关心如何使用 Clause,在 Clause Wiki 文档中心 中也有很多指导使用的资料,现将 API ...

  7. 必看!52篇深度强化学习收录论文汇总 | AAAI 2020

    所有参与投票的 CSDN 用户都参加抽奖活动 群内公布奖项,还有更多福利赠送 来源 | 深度强化学习实验室(ID:Deep-RL) 作者 | DeepRL AAAI 2020 共收到的有效论文投稿超过 ...

  8. ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  9. 论文解读丨LayoutLM: 面向文档理解的文本与版面预训练

    摘要:LayoutLM模型利用大规模无标注文档数据集进行文本与版面的联合预训练,在多个下游的文档理解任务上取得了领先的结果. 本文分享自华为云社区<论文解读系列二十五:LayoutLM: 面向文 ...

  10. AI论文解读丨融合视觉、语义、关系多模态信息的文档版面分析架构VSR

    摘要:文档版式分析任务中,文档的视觉信息.文本信息.各版式部件间的关系信息都对分析过程具有很重要的作用.本文提出一种融合视觉.文本.关系多模态信息的版式分析架构VSR. 本文分享自华为云社区<论 ...

最新文章

  1. Yann Lecun纽约大学《深度学习》2020课程笔记中文版,干货满满!
  2. 用计算机处理信息可以分为四个过程,大学计算机基础期末考试样题3
  3. Photoshop初涉---第一次系统地学习
  4. delphi之找色和色块
  5. vue(el-button的五种类型,三种css格式)
  6. 计算机投诉信英语作文,投诉信A Letter of Complaint
  7. 信息学奥赛一本通(1088:分离整数的各个数)
  8. Python绘制散点对比图
  9. MM32F031 M0内核 IAP
  10. QT5.5.0+VS2013(64位)+hidapi 的USB继续深究之VID和PID
  11. C#学习笔记8 事件
  12. 零信任架构:下一代网络安全架构?
  13. 使用Best Trace工具查看VPS的去程和回程线路的路由
  14. Pyecharts亚马逊订单可视化
  15. 量化投资必备手册:史上超全量化交易平台汇总
  16. Acrobat XI Pro安装教程
  17. 深入Python 验证码解析
  18. 介绍一下3D游戏开发的简单常识,以及最终幻想13游戏流程为什么会过于线性的原因。
  19. Matlab报错错误使用symengine
  20. C++:CompareNoCase函数

热门文章

  1. oracle常见sql积累
  2. 通过批处理来运行python程序
  3. c++写一个类后编译发现class重定义
  4. Apache James搭建内网邮件服务器
  5. 怎样让jquery mobile 的footer/header 固定?
  6. C++ string用法
  7. scrapy_全站爬取
  8. 【转】如何学会独立思考?
  9. dll反编译工具总结
  10. 日常邮件用语(一)网摘学习