Sun Y, Wang S, Li Y, et al. Ernie: Enhanced representation through knowledge integration[J]. arXiv preprint arXiv:1904.09223, 2019.

Abstract

知识增强的新语言表示模型

ERNIE 旨在学习通过知识掩蔽策略增强的语言表示,包括实体级掩蔽和短语级掩蔽。
实体级策略屏蔽了通常由多个单词组成的实体。 短语级策略隐藏了整个短语,它由几个单词组成一个概念单元。

Introduction

Word2V ec (Mikolov et al., 2013)和Glove (Pennington et al., 2014)中的方法将单词表示为向量,其中相似的单词有相似的单词表示。 这些词表示为其他深度学习模型中的词向量提供了初始化。

该模型无法根据哈利波特和 J.K.罗琳的关系预测哈利波特。直观的是,如果模型学习更多的先验知识,模型可以获得更可靠的语言表示。

除了基本的掩蔽策略外,我们还使用了两种知识策略:短语级策略和实体级策略。通过这种方式,在训练过程中隐含地学习了短语和实体的先验知识。

ERNIE 不是直接添加知识嵌入,而是隐式学习有关知识和较长语义依赖的信息,例如实体之间的关系、实体的属性和事件的类型,以指导词嵌入学习。这可以使模型具有更好的泛化性和适应性。

ERNIE在异构中文数据上进行了预训练,然后应用于5个中文NLP任务。

主要贡献:

  1. 引入了一种新的语言模型学习处理,它掩盖了短语和实体等单元,以便从这些单元中隐式地学习句法和语义信息。
  2. ERNIE 在各种中文自然语言处理任务上的表现明显优于以往最先进的方法。
  3. 我们发布了 ERNIE 和预训练模型的代码

Related Work

上下文独立的文本表示

Word2V ec (Mikolov et al., 2013) 和 Glove (Pennington et al., 2014) 等方法将大量文本语料库作为输入,并生成一个词向量,通常为数百维。 他们为词汇表中的每个单词生成一个单词嵌入表示。

上下文敏感的文本表示

一个词在上下文中可以具有完全不同的含义或含义

  1. ELMo
  2. GPT
  3. BERT
  4. MT-DNN
  5. GPT-2
  6. XLM

异构数据

句子编码器

Methodology

Transformer 编码器

Transformer 可以通过 self-attention 捕获句子中每个标记的上下文信息,并生成一系列上下文嵌入。

Knowledge Integration知识整合

我们使用先验知识来增强我们预训练的语言模型,因此提出了一种多阶段知识屏蔽策略,将短语和实体级知识集成到语言表示中。

Basic-level Masking

它将句子视为基本语言单元的序列,对于英语,基本语言单元是单词,对于中文,基本语言单元是汉字。
在训练过程中,我们随机屏蔽 15% 的基本语言单元,并使用句子中的其他基本单元作为输入,并训练一个变换器来预测屏蔽单元
基于Basic-level Masking,我们可以获得基本的单词表示。 因为它是在基本语义单元的随机掩码上训练的,高级语义知识很难完全建模。

Phrase-Level Masking

第二阶段是使用短语级掩蔽。 短语是一小组单词或字符,它们共同充当一个概念单元。
对于英语,我们使用词法分析和分块工具来获取句子中短语的边界,并使用一些依赖于语言的切分工具来获取其他语言(例如中文)的单词/短语信息。
这次我们随机选择句子中的几个短语,对同一短语中的所有基本单元进行掩码和预测。 在这个阶段,短语信息被编码到词嵌入中。

Entity-Level Masking

名称实体包含人、地点、组织、产品等,可以用专有名称表示。
与短语掩蔽阶段一样,我们首先分析句子中的命名实体,然后对实体中的所有槽进行掩蔽和预测。

=》经过三个阶段的学习,得到了一个由更丰富的语义信息增强的词表示。

Experiment

出于比较目的,选择 ERNIE 与基于 BERT 的模型大小相同。 ERNIE 使用 12 个编码器层、768 个隐藏单元和 12 个注意力头。

异构语料库预训练

我们绘制了混合语料库中文维基百科、百度百科、百度新闻和百度贴吧。 句子数为21M、51M、47M、54M。

我们对汉字进行繁简转换,对英文字母进行大小写转换。 我们为我们的模型使用 17,964 个 unicode 字符的共享词汇表。

消融实验

基线词级掩码中添加短语级掩码可以提高模型的性能。
在此基础上,我们加入了实体级的掩蔽策略,进一步提升了模型的性能。

总之,这些案例表明 ERNIE 在基于上下文的知识推理中表现更好。

【文献阅读】ERNIE: Enhanced Representation through Knowledge Integration相关推荐

  1. ERNIE: Enhanced Representation through Knowledge Integration(百度)论文翻译

    paper:https://arxiv.org/pdf/1904.09223.pdf code:https://github.com/PaddlePaddle/LARK/tree/develop/ER ...

  2. 详细介绍ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

    系列阅读: 详细介绍百度ERNIE1.0:Enhanced Representation through Knowledge Integration 详细介绍百度ERNIE 2.0:A Continu ...

  3. 【预训练视觉-语言模型文献阅读文献阅读】最新BERT模型——UNITER: UNiversal Image-TExt Representation Learning

    [预训练视觉-语言模型文献阅读文献阅读]最新BERT模型--UNITER: UNiversal Image-TExt Representation Learning 文章目录 [预训练视觉-语言模型文 ...

  4. 文献阅读(72)WWW2022-TREND: TempoRal Event and Node Dynamics for Graph Representation Learning

    本文是对<TREND: TempoRal Event and Node Dynamics for Graph Representation Learning>一文的总结,如有侵权即刻删除. ...

  5. 文献阅读:RoFormer: Enhanced Transformer with Rotary Position Embedding

    文献阅读:RoFormer: Enhanced Transformer with Rotary Position Embedding 1. 工作简介 2. 常见位置编码方式 1. 绝对位置编码 1. ...

  6. 文献阅读(52)—— Integration self-attention and convolution

    文献阅读(52)-- Integration self-attention and convolution 文章目录 文献阅读(52)-- Integration self-attention and ...

  7. Knowledge Integration Networks for Action Recognition AAAI 2020

    AAAI 2020 码隆科技实验室+南京大学 1 摘要 在这项工作中,我们提出了用于视频动作识别的知识集成网络(KINet).KINet能够聚合有意义的上下文特征,这些特征对于识别动作非常重要,例如人 ...

  8. 条件随机场(Conditional random fields,CRFs)文献阅读指南

    与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注.中文分词.命名实体识别等)都有比较好的应用效果.条 ...

  9. 细胞亚器文献阅读之酵母液泡与线粒体的动态互作A Dynamic Interface between Vacuoles and Mitochondria in Yeast

    细胞亚器文献阅读之酵母液泡与线粒体的动态互作A Dynamic Interface between Vacuoles and Mitochondria in Yeast 本文和前一篇阅读的文献之间的关 ...

  10. 【知识图谱】本周文献阅读笔记(3)——周二 2023.1.10:英文)知识图谱补全研究综述 + 网络安全知识图谱研究综述 + 知识图谱嵌入模型中的损失函数 + 图神经网络应用于知识图谱推理的研究综述

    声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...

最新文章

  1. python升级知识整理 第五节:文件整理
  2. Jabba: hybrid error correction for long sequencing reads using maximal exact matches机译:Jabba:使用最大精
  3. AOSP 设置编译输出目录
  4. JavaScript 基础,登录前端验证
  5. SPOJ - PHRASES Relevant Phrases of Annihilation(后缀数组+二分)
  6. linux多线程_Java+Linux,深入内核源码讲解多线程之进程
  7. python中垃圾回收机制_Python中的变量和垃圾回收机制
  8. 深入Java中文问题及最优解决方法-下(转)
  9. full outer join 与full join的区别_基础小白的SQL的JOIN语法解析
  10. MySQL内连接和外连接
  11. Ubuntu16.04安装Spacevim插件
  12. Angular 在项目中使用fullcalendar 日程表
  13. 基于SDN的环路通信
  14. Inno Setup 详解中文资料
  15. 提交留言HTML模板代码
  16. Chloe 蔻依 恋旅
  17. win7升级ie到ie10后打不开的解决办法
  18. java的对象存储在哪里?
  19. 特大整数相加(C实现)
  20. linux 三星网络共享,基于安卓的rndis驱动的usb网络共享的实现

热门文章

  1. 键盘错误代码39解决方法
  2. animation 详细讲解
  3. “无法访问参数错误。”的4种解决方法
  4. “我爱淘”冲刺阶段Scrum站立会议8
  5. android自带下拉阻尼动画,Android 自带阻尼效果的ScrollView,仿ios效果
  6. android无法格式化sd卡,当Android无法格式化SD卡时该怎么做 | MOS86
  7. Python:实现矩阵的Schur complement舒尔补算法(附完整源码)
  8. 1's Complement和2's Complement的区别
  9. 通过笔记本wifi共享到以太网接口方法--使用嵌入式设备接入互联网
  10. 腾讯微博android版本,腾讯微博