作 者:王 琴

单 位:燕山大学

摘要

本文受Bert mask策略的启发,提出一种新的语言表示模型,称为ERNIE(Enhanced Representation through Knowledge Integration).ERNIE旨在学习到通过知识屏蔽策略增强的语言表示,其中屏蔽策略包括实体级屏蔽(Entity-level strategy)和短语级屏蔽(Phrase-level strategy)。 entity-level 策略通常会掩盖由多个单词组成的实体; Phrase-level 策略会掩盖由几个词共同作为概念单元的整体短语。实验结果表明,ERNIE优于其他基准方法,在包括自然语言推理、语义相似性、命名实体识别、情感分析、问答系统在内的五个自然语言处理任务上取得了好结果 。作者还证明了ERNIE在完形填空测试中具有更强大的知识推理能力。

文章介绍

在绝大多数的研究中,仅仅通过上下文来预测丢失的单词并对其进行建模。 这些模型没有考虑句子中的先验知识。 例如,在句子“哈利·波特是由罗琳(J. K. Rowling)创作的一系列幻想小说”中。 哈利·波特(Harry Potter)是小说的名字,而罗琳(J. K. Rowling)是作家。 模型很容易通过实体内部的单词搭配来预测实体Harry Potter的缺失单词,而无需借助较长的上下文。如果模型学习更多有关先验知识的信息,则该模型可以获得更可靠的语言表示。ERNIE不是直接添加知识嵌入(knowledge embedding),而是隐式地学习有关知识和较长语义依赖性的信息,例如实体之间的关系,实体的属性和事件的类型,以指导单词嵌入学习。
 作者所做的贡献如下:
 (1)引入了一种新的语言模型学习处理,掩盖了诸如短语和实体之类的单元,以便从这些单元隐式学习语法和语义信息。
 (2)在各种中文自然语言处理任务上,ERNIE大大优于以前的最新方法。
 (3)发布了ERNIE和预训练模型的代码,可在https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/transformers/ernie中找到这些代码。

相关研究

1. 上下文感知表示
 BERT随机掩盖句子中一定比例的单词,并学习预测那些被掩盖的单词。此外,BERT学习预测两个句子是否相邻。该任务试图对传统语言模型无法捕获的两个句子之间的关系进行建模。因此,这种特殊的预训练方案可以帮助BERT在各种关键的NLP数据集(例如GLUE和SQUAD等)上大幅度超越最新技术。同时,其他一些研究人员尝试根据这些模型添加更多信息,例如 MT-DNN结合了预训练学习和多任务学习,以提高GLUE中多个不同任务的绩效。 GPT-2将任务信息添加到预训练过程中,并使模型适应零击(zero-shot)任务。 XLM在预训练过程中增加了语言嵌入功能,从而在跨语言任务中取得了更好的结果。

2. 异构数据
 对异构无监督数据进行预训练的语义编码器可以提高传递学习性能。基于响应预测的句子编码器受益于从Reddit对话中提取的查询-响应对数据。 XLM在BERT中引入了并行语料库,将其与masked language model task一起训练,基于对异构数据进行预训练的transformer模型,XLM在监督/非监督MT任务和分类任务上显示出巨大的性能提升。

实验方法

- Transformer编码
 ERNIE像之前的预训练模型一样使用多层transformer作为基本编码器。transformer可以通过自注意力机制来捕获句子中每个标记的上下文信息,并生成一系列上下文嵌入。

- 知识整合(Knowledge Integration)
 作者使用先验知识来增强预训练语言模型,提出了一种多阶段的知识掩盖策略,将短语和实体级别的知识集成到语言表示中而不是直接添加知识嵌入。句子的不同掩蔽级别在图2中进行了描述。

  • 第一阶段:使用基本级别掩盖,它将句子作为基本语言单位的序列,对于英语,基本单元是单词,对于中文,基本单元是汉字。 在训练过程中,我们随机掩盖15%的基本语言单元,并使用句子中的其他基本单元作为输入,并训练一个transformer来预测被掩盖单元。这一步与bert相同。因为它是在基本语义单元的随机掩码上训练的,所以高级语义知识很难完全建模。
  • 第二阶段:使用短语级掩盖,使用词法分析和分块工具来获取句子中短语的边界。此时也使用基本语言单位作为训练输入,但与基本单元掩盖不同的是,这次随机选择句子中的一些短语,对同一短语中的所有基本单位进行掩盖和预测。在此阶段,短语信息被编码到单词嵌入中。
  • 第三阶段:使用实体级掩盖。 名称实体包含人员,位置,组织,产品等,可以用专有名称表示。通常,实体在句子中包含重要信息。 与短语屏蔽阶段一样,首先分析句子中的命名实体,然后屏蔽并预测实体中的所有时隙。 经过三个阶段的学习,获得了通过更丰富的语义信息增强的单词表示。

实验过程

  • 采用异构语料进行预训练
     收集百度贴吧、百度新闻、百度百科的混合语料,其中百度百科包含以正式语言撰写的文章,是模型训练的强大基础;百度新闻提供了最新的电影名、演员名、球队名等;百度贴吧中的每个帖子可以看作是对话,将被用于DLM任务。

  • DLM(Dialogue Language Model)任务
     对话数据对于语义的分析十分重要,因为具有相同回复的问题往往具有相似性,如图3所示。

     不同于普遍的句子编码器,模型引入了对话嵌入来识别对话中的角色。ERNIE的Dialogue embedding与Bert中Token embedding功能相同,不同之处在于ERNIE还可以表示多回合对话(例如QRQ,QRR,QQR,其中Q和R分别代表“查询”和“响应”)。除此之外,模型还通过用随机生成的假样本来替换查询或响应的真样本,旨在判断多轮对话是真实的还是假的。DLM任务可帮助ERNIE学习对话中的隐式关系,这也增强了模型学习语义表示的能力。

  • 实验结果
    其中,XNLI是自然语言推理方面的数据集;LCQMC是语义相似度方面的数据集;MSRA-NER是用于命名实体识别的数据集;ChnSentiCorp是用于句子情感分析的数据集;NLPCC-DBQA是用于问答系统的数据集。由图3可以得出,ERNIE在这五个任务上都优于Bert,这都归功于ERNIE的知识整合(Knowledge Integration)策略。

  • 消融研究(Ablation Studies)
    为了得出ERNIE中哪个部分对实验结果影响较大,作者进行了消融实验。

    • Knowledge Integration的影响
       作者从整个语料库中抽取10%的训练数据,来验证knowledge mask策略的有效性。 结果显示在表2中。我们可以看到,将phrase-level mask添加到基线word-level mask可以提高模型的性能。 在此基础上,继续添加的entity-level mask进一步提高了模型的性能。 此外,这
      结果还显示,如果将数据集全部用于预训练,XNLI测试集可实现0.8%的性能提升。
    • DLM的影响
       作者取整体数据集的10%进行训练,并对不同类型数据所占的比例进行了调整,来说明DLM任务对XNLI任务的贡献。表3给出了详细的实验设置和实验结果。我们可以看到,在此DLM任务中,验证/测试精度的提高是0.7%/ 1.0%。
  • 完型填空
     为了验证ERNIE的知识学习能力,作者使用了多个Cloze测试样本来检验模型。在实验中,命名实体已从段落中删除,模型需要推断其名称。图4中显示了一些情况。这些案例表明ERNIE在基于上下文的知识推理中表现更好。

总结

在本文中,作者提出了一种将知识整合到预训练语言模型中的新方法。 在5个中文处理任务上的实验表明,作者的方法均优于BERT。 文章还证实,知识整合和对异构数据的预训练都能使模型获得更好的语言表示。 文章还提到,作者会在以后将其他类型的知识整合到语义表示模型中,例如使用语法分析或来自其他任务的弱监督信号。 此外,作者还将用其他语言来验证该想法。

论文链接:ERNIE: Enhanced Representation through Knowledge Integration

论文解读 | 百度 ERNIE: Enhanced Representation through Knowledge Integration相关推荐

  1. ERNIE: Enhanced Representation through Knowledge Integration(百度)论文翻译

    paper:https://arxiv.org/pdf/1904.09223.pdf code:https://github.com/PaddlePaddle/LARK/tree/develop/ER ...

  2. 论文解读|2020TPAMI|Deep High-Resolution Representation Learning for Visual Recognition

    用于视觉识别的深度高分辨率表征学习 github:https://github.com/HRNet 论文地址:https://arxiv.org/pdf/1908.07919 摘要 高分辨率表示对于位 ...

  3. 【论文解读 ICEIT2022】Heterogeneous Graph Based Knowledge Tracing基于异构图的知识追踪

    文章目录 摘要 1 引言 2 相关工作 2.1 知识追踪 2.2 异构图嵌入 3 基于异构图嵌入的知识追踪 4 实验 5 结论 依然是两阶段 摘要 最近,随着在线辅导系统的发展,对知识追踪(Knowl ...

  4. 『清华ERNIE』 与 『百度ERNIE』 的爱恨情仇

    『清华ERNIE』 与 『百度ERNIE』 的爱恨情仇 FesianXu 20210219 at Baidu intern 前言 最近笔者在查看ERNIE论文的时候,发生了一件很乌龙的事情,本来笔者要 ...

  5. 知识图谱最新权威综述论文解读:知识图谱应用部分

    知识图谱在人工智能的许多领域都发挥了重要作用,综述论文的这一章引入多个最新的基于深度学习的知识驱动方法,主要包括的应用领域有自然语言理解,推荐系统和问答系统. 1 自然语言理解 知识感知的自然语言理解 ...

  6. 详细介绍ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

    系列阅读: 详细介绍百度ERNIE1.0:Enhanced Representation through Knowledge Integration 详细介绍百度ERNIE 2.0:A Continu ...

  7. 百度 ERNIE 在 GLUE 大赛中击败了微软和谷歌

    受中英文差异的启发,ERNIE 的成功表明人工智能研究可以集百家之长. 作者 | Karen Hao 译者 | 弯月,责编 | Elle 出品 | CSDN(ID:CSDNnews) 以下为译文: 本 ...

  8. 详细介绍百度ERNIE 2.0:A Continual Pre-Training Framework for Language Understanding

    系列阅读: 详细介绍百度ERNIE1.0:Enhanced Representation through Knowledge Integration 详细介绍百度ERNIE 2.0:A Continu ...

  9. ERNIE1.0 与 ERNIE2.0 论文解读

    总述 本文主要介绍百度发布的ERNIE1.0模型与ERNIE2.0模型. 1. ERNIE1.0 Enhanced Representation through Knowledge Integrati ...

  10. 论文解读:SentiPrompt: Sentiment Knowledge Enhanced Prompt-Tuning for Aspect-Based Sentiment Analysis

    论文解读:SentiPrompt: Sentiment Knowledge Enhanced Prompt-Tuning for Aspect-Based Sentiment Analysis 简要信 ...

最新文章

  1. C指针3:指针变量的运算
  2. ubuntu安装使用不同版本的gcc
  3. beyond compare类似软件_Mac软件推荐 | 第 20 期
  4. 树状数组 求 逆序对
  5. 运行startup.bat的启动过程
  6. cloudfoundry_在Cloudfoundry上部署RESTful服务
  7. 没有bug队——加贝——Python 57,58
  8. 2019年七月第三周总结
  9. [转]Microsoft SQL Server 自定义函数整理大全
  10. python经典书籍推荐:Python面向对象编程指南 : Mastering Object-oriented
  11. js面向对象思想封装拖拽功能,兼容pc和移动端
  12. 加息造成的定期存款转存临界点!
  13. [XJOI]noip44 T3还有这种操作
  14. 敏捷开发产品管理系列之三:产品用户群规划
  15. Android文件的保存(本地和SD卡)与读取
  16. Python3制作网易云音乐下载器
  17. Struts2通配符
  18. Unity遍历文件夹及其文件
  19. 方正快速开发平台ES2007(3.5版本)新增功能特点
  20. 怎么注册自定义域名Email.cn邮箱?

热门文章

  1. ABP vNext 缓存使用
  2. 最最超级无敌的冷笑话,能把人噎死
  3. 云计算未来的5个发展趋势分析
  4. virtualbox报错 提示:E_FAIL (0x80004005)
  5. 基金定投需要注意波段操作!(文章有点长,含Python代码)
  6. win10linux双系统时间,win10与linux双系统切换时间不一致的调整
  7. java中,参数后面跟三个点(...)的含义
  8. 有关于计算机技术节日名称,三月份有关计算机的节日
  9. 移动节点的间接路由方式
  10. K8s问题【flannel一直重启问题,CrashLoopBackOff】