Sun Y, Wang S, Li Y, et al. Ernie: Enhanced representation through knowledge integration[J]. arXiv preprint arXiv:1904.09223, 2019.

Abstract

知识增强的新语言表示模型

ERNIE 旨在学习通过知识掩蔽策略增强的语言表示，包括实体级掩蔽和短语级掩蔽。
实体级策略屏蔽了通常由多个单词组成的实体。短语级策略隐藏了整个短语，它由几个单词组成一个概念单元。

Introduction

Word2V ec (Mikolov et al.， 2013)和Glove (Pennington et al.， 2014)中的方法将单词表示为向量，其中相似的单词有相似的单词表示。这些词表示为其他深度学习模型中的词向量提供了初始化。

该模型无法根据哈利波特和 J.K.罗琳的关系预测哈利波特。直观的是，如果模型学习更多的先验知识，模型可以获得更可靠的语言表示。

除了基本的掩蔽策略外，我们还使用了两种知识策略：短语级策略和实体级策略。通过这种方式，在训练过程中隐含地学习了短语和实体的先验知识。

ERNIE 不是直接添加知识嵌入，而是隐式学习有关知识和较长语义依赖的信息，例如实体之间的关系、实体的属性和事件的类型，以指导词嵌入学习。这可以使模型具有更好的泛化性和适应性。

ERNIE在异构中文数据上进行了预训练，然后应用于5个中文NLP任务。

主要贡献：

引入了一种新的语言模型学习处理，它掩盖了短语和实体等单元，以便从这些单元中隐式地学习句法和语义信息。
ERNIE 在各种中文自然语言处理任务上的表现明显优于以往最先进的方法。
我们发布了 ERNIE 和预训练模型的代码

Related Work

上下文独立的文本表示

Word2V ec (Mikolov et al., 2013) 和 Glove (Pennington et al., 2014) 等方法将大量文本语料库作为输入，并生成一个词向量，通常为数百维。他们为词汇表中的每个单词生成一个单词嵌入表示。

上下文敏感的文本表示

一个词在上下文中可以具有完全不同的含义或含义

ELMo
GPT
BERT
MT-DNN
GPT-2
XLM

异构数据

句子编码器

Methodology

Transformer 编码器

Transformer 可以通过 self-attention 捕获句子中每个标记的上下文信息，并生成一系列上下文嵌入。

Knowledge Integration知识整合

我们使用先验知识来增强我们预训练的语言模型，因此提出了一种多阶段知识屏蔽策略，将短语和实体级知识集成到语言表示中。

Basic-level Masking

它将句子视为基本语言单元的序列，对于英语，基本语言单元是单词，对于中文，基本语言单元是汉字。
在训练过程中，我们随机屏蔽 15% 的基本语言单元，并使用句子中的其他基本单元作为输入，并训练一个变换器来预测屏蔽单元
基于Basic-level Masking，我们可以获得基本的单词表示。因为它是在基本语义单元的随机掩码上训练的，高级语义知识很难完全建模。

Phrase-Level Masking

第二阶段是使用短语级掩蔽。短语是一小组单词或字符，它们共同充当一个概念单元。
对于英语，我们使用词法分析和分块工具来获取句子中短语的边界，并使用一些依赖于语言的切分工具来获取其他语言（例如中文）的单词/短语信息。
这次我们随机选择句子中的几个短语，对同一短语中的所有基本单元进行掩码和预测。在这个阶段，短语信息被编码到词嵌入中。

Entity-Level Masking

名称实体包含人、地点、组织、产品等，可以用专有名称表示。
与短语掩蔽阶段一样，我们首先分析句子中的命名实体，然后对实体中的所有槽进行掩蔽和预测。

=》经过三个阶段的学习，得到了一个由更丰富的语义信息增强的词表示。

Experiment

出于比较目的，选择 ERNIE 与基于 BERT 的模型大小相同。 ERNIE 使用 12 个编码器层、768 个隐藏单元和 12 个注意力头。

异构语料库预训练

我们绘制了混合语料库中文维基百科、百度百科、百度新闻和百度贴吧。句子数为21M、51M、47M、54M。

我们对汉字进行繁简转换，对英文字母进行大小写转换。我们为我们的模型使用 17,964 个 unicode 字符的共享词汇表。

消融实验

基线词级掩码中添加短语级掩码可以提高模型的性能。
在此基础上，我们加入了实体级的掩蔽策略，进一步提升了模型的性能。

总之，这些案例表明 ERNIE 在基于上下文的知识推理中表现更好。

【文献阅读】ERNIE: Enhanced Representation through Knowledge Integration相关推荐

ERNIE: Enhanced Representation through Knowledge Integration（百度）论文翻译
paper:https://arxiv.org/pdf/1904.09223.pdf code:https://github.com/PaddlePaddle/LARK/tree/develop/ER ...
详细介绍ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
系列阅读: 详细介绍百度ERNIE1.0:Enhanced Representation through Knowledge Integration 详细介绍百度ERNIE 2.0:A Continu ...
【预训练视觉-语言模型文献阅读文献阅读】最新BERT模型——UNITER: UNiversal Image-TExt Representation Learning
[预训练视觉-语言模型文献阅读文献阅读]最新BERT模型--UNITER: UNiversal Image-TExt Representation Learning 文章目录 [预训练视觉-语言模型文 ...
文献阅读（72）WWW2022-TREND: TempoRal Event and Node Dynamics for Graph Representation Learning
本文是对<TREND: TempoRal Event and Node Dynamics for Graph Representation Learning>一文的总结,如有侵权即刻删除. ...
文献阅读：RoFormer: Enhanced Transformer with Rotary Position Embedding
文献阅读:RoFormer: Enhanced Transformer with Rotary Position Embedding 1. 工作简介 2. 常见位置编码方式 1. 绝对位置编码 1. ...
文献阅读（52）—— Integration self-attention and convolution
文献阅读(52)-- Integration self-attention and convolution 文章目录文献阅读(52)-- Integration self-attention and ...
Knowledge Integration Networks for Action Recognition AAAI 2020
AAAI 2020 码隆科技实验室+南京大学 1 摘要在这项工作中,我们提出了用于视频动作识别的知识集成网络(KINet).KINet能够聚合有意义的上下文特征,这些特征对于识别动作非常重要,例如人 ...
条件随机场（Conditional random fields，CRFs）文献阅读指南
与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注.中文分词.命名实体识别等)都有比较好的应用效果.条 ...
细胞亚器文献阅读之酵母液泡与线粒体的动态互作A Dynamic Interface between Vacuoles and Mitochondria in Yeast
细胞亚器文献阅读之酵母液泡与线粒体的动态互作A Dynamic Interface between Vacuoles and Mitochondria in Yeast 本文和前一篇阅读的文献之间的关 ...
【知识图谱】本周文献阅读笔记（3）——周二 2023.1.10：英文）知识图谱补全研究综述 + 网络安全知识图谱研究综述 + 知识图谱嵌入模型中的损失函数 + 图神经网络应用于知识图谱推理的研究综述
声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...

【文献阅读】ERNIE: Enhanced Representation through Knowledge Integration