【文献阅读】ERNIE: Enhanced Representation through Knowledge Integration
Sun Y, Wang S, Li Y, et al. Ernie: Enhanced representation through knowledge integration[J]. arXiv preprint arXiv:1904.09223, 2019.
Abstract
知识增强的新语言表示模型
ERNIE 旨在学习通过知识掩蔽策略增强的语言表示,包括实体级掩蔽和短语级掩蔽。
实体级策略屏蔽了通常由多个单词组成的实体。 短语级策略隐藏了整个短语,它由几个单词组成一个概念单元。
Introduction
Word2V ec (Mikolov et al., 2013)和Glove (Pennington et al., 2014)中的方法将单词表示为向量,其中相似的单词有相似的单词表示。 这些词表示为其他深度学习模型中的词向量提供了初始化。
该模型无法根据哈利波特和 J.K.罗琳的关系预测哈利波特。直观的是,如果模型学习更多的先验知识,模型可以获得更可靠的语言表示。
除了基本的掩蔽策略外,我们还使用了两种知识策略:短语级策略和实体级策略。通过这种方式,在训练过程中隐含地学习了短语和实体的先验知识。
ERNIE 不是直接添加知识嵌入,而是隐式学习有关知识和较长语义依赖的信息,例如实体之间的关系、实体的属性和事件的类型,以指导词嵌入学习。这可以使模型具有更好的泛化性和适应性。
ERNIE在异构中文数据上进行了预训练,然后应用于5个中文NLP任务。
主要贡献:
- 引入了一种新的语言模型学习处理,它掩盖了短语和实体等单元,以便从这些单元中隐式地学习句法和语义信息。
- ERNIE 在各种中文自然语言处理任务上的表现明显优于以往最先进的方法。
- 我们发布了 ERNIE 和预训练模型的代码
Related Work
上下文独立的文本表示
Word2V ec (Mikolov et al., 2013) 和 Glove (Pennington et al., 2014) 等方法将大量文本语料库作为输入,并生成一个词向量,通常为数百维。 他们为词汇表中的每个单词生成一个单词嵌入表示。
上下文敏感的文本表示
一个词在上下文中可以具有完全不同的含义或含义
- ELMo
- GPT
- BERT
- MT-DNN
- GPT-2
- XLM
异构数据
句子编码器
Methodology
Transformer 编码器
Transformer 可以通过 self-attention 捕获句子中每个标记的上下文信息,并生成一系列上下文嵌入。
Knowledge Integration知识整合
我们使用先验知识来增强我们预训练的语言模型,因此提出了一种多阶段知识屏蔽策略,将短语和实体级知识集成到语言表示中。
Basic-level Masking
它将句子视为基本语言单元的序列,对于英语,基本语言单元是单词,对于中文,基本语言单元是汉字。
在训练过程中,我们随机屏蔽 15% 的基本语言单元,并使用句子中的其他基本单元作为输入,并训练一个变换器来预测屏蔽单元
基于Basic-level Masking,我们可以获得基本的单词表示。 因为它是在基本语义单元的随机掩码上训练的,高级语义知识很难完全建模。
Phrase-Level Masking
第二阶段是使用短语级掩蔽。 短语是一小组单词或字符,它们共同充当一个概念单元。
对于英语,我们使用词法分析和分块工具来获取句子中短语的边界,并使用一些依赖于语言的切分工具来获取其他语言(例如中文)的单词/短语信息。
这次我们随机选择句子中的几个短语,对同一短语中的所有基本单元进行掩码和预测。 在这个阶段,短语信息被编码到词嵌入中。
Entity-Level Masking
名称实体包含人、地点、组织、产品等,可以用专有名称表示。
与短语掩蔽阶段一样,我们首先分析句子中的命名实体,然后对实体中的所有槽进行掩蔽和预测。
=》经过三个阶段的学习,得到了一个由更丰富的语义信息增强的词表示。
Experiment
出于比较目的,选择 ERNIE 与基于 BERT 的模型大小相同。 ERNIE 使用 12 个编码器层、768 个隐藏单元和 12 个注意力头。
异构语料库预训练
我们绘制了混合语料库中文维基百科、百度百科、百度新闻和百度贴吧。 句子数为21M、51M、47M、54M。
我们对汉字进行繁简转换,对英文字母进行大小写转换。 我们为我们的模型使用 17,964 个 unicode 字符的共享词汇表。
消融实验
基线词级掩码中添加短语级掩码可以提高模型的性能。
在此基础上,我们加入了实体级的掩蔽策略,进一步提升了模型的性能。
总之,这些案例表明 ERNIE 在基于上下文的知识推理中表现更好。
【文献阅读】ERNIE: Enhanced Representation through Knowledge Integration相关推荐
- ERNIE: Enhanced Representation through Knowledge Integration(百度)论文翻译
paper:https://arxiv.org/pdf/1904.09223.pdf code:https://github.com/PaddlePaddle/LARK/tree/develop/ER ...
- 详细介绍ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
系列阅读: 详细介绍百度ERNIE1.0:Enhanced Representation through Knowledge Integration 详细介绍百度ERNIE 2.0:A Continu ...
- 【预训练视觉-语言模型文献阅读文献阅读】最新BERT模型——UNITER: UNiversal Image-TExt Representation Learning
[预训练视觉-语言模型文献阅读文献阅读]最新BERT模型--UNITER: UNiversal Image-TExt Representation Learning 文章目录 [预训练视觉-语言模型文 ...
- 文献阅读(72)WWW2022-TREND: TempoRal Event and Node Dynamics for Graph Representation Learning
本文是对<TREND: TempoRal Event and Node Dynamics for Graph Representation Learning>一文的总结,如有侵权即刻删除. ...
- 文献阅读:RoFormer: Enhanced Transformer with Rotary Position Embedding
文献阅读:RoFormer: Enhanced Transformer with Rotary Position Embedding 1. 工作简介 2. 常见位置编码方式 1. 绝对位置编码 1. ...
- 文献阅读(52)—— Integration self-attention and convolution
文献阅读(52)-- Integration self-attention and convolution 文章目录 文献阅读(52)-- Integration self-attention and ...
- Knowledge Integration Networks for Action Recognition AAAI 2020
AAAI 2020 码隆科技实验室+南京大学 1 摘要 在这项工作中,我们提出了用于视频动作识别的知识集成网络(KINet).KINet能够聚合有意义的上下文特征,这些特征对于识别动作非常重要,例如人 ...
- 条件随机场(Conditional random fields,CRFs)文献阅读指南
与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注.中文分词.命名实体识别等)都有比较好的应用效果.条 ...
- 细胞亚器文献阅读之酵母液泡与线粒体的动态互作A Dynamic Interface between Vacuoles and Mitochondria in Yeast
细胞亚器文献阅读之酵母液泡与线粒体的动态互作A Dynamic Interface between Vacuoles and Mitochondria in Yeast 本文和前一篇阅读的文献之间的关 ...
- 【知识图谱】本周文献阅读笔记(3)——周二 2023.1.10:英文)知识图谱补全研究综述 + 网络安全知识图谱研究综述 + 知识图谱嵌入模型中的损失函数 + 图神经网络应用于知识图谱推理的研究综述
声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...
最新文章
- python升级知识整理 第五节:文件整理
- Jabba: hybrid error correction for long sequencing reads using maximal exact matches机译:Jabba:使用最大精
- AOSP 设置编译输出目录
- JavaScript 基础,登录前端验证
- SPOJ - PHRASES Relevant Phrases of Annihilation(后缀数组+二分)
- linux多线程_Java+Linux,深入内核源码讲解多线程之进程
- python中垃圾回收机制_Python中的变量和垃圾回收机制
- 深入Java中文问题及最优解决方法-下(转)
- full outer join 与full join的区别_基础小白的SQL的JOIN语法解析
- MySQL内连接和外连接
- Ubuntu16.04安装Spacevim插件
- Angular 在项目中使用fullcalendar 日程表
- 基于SDN的环路通信
- Inno Setup 详解中文资料
- 提交留言HTML模板代码
- Chloe 蔻依 恋旅
- win7升级ie到ie10后打不开的解决办法
- java的对象存储在哪里?
- 特大整数相加(C实现)
- linux 三星网络共享,基于安卓的rndis驱动的usb网络共享的实现
热门文章
- 键盘错误代码39解决方法
- animation 详细讲解
- “无法访问参数错误。”的4种解决方法
- “我爱淘”冲刺阶段Scrum站立会议8
- android自带下拉阻尼动画,Android 自带阻尼效果的ScrollView,仿ios效果
- android无法格式化sd卡,当Android无法格式化SD卡时该怎么做 | MOS86
- Python:实现矩阵的Schur complement舒尔补算法(附完整源码)
- 1's Complement和2's Complement的区别
- 通过笔记本wifi共享到以太网接口方法--使用嵌入式设备接入互联网
- 腾讯微博android版本,腾讯微博