ELMO and BERT

ELMO

对于word2vec这种静态词向量，不能解决一词多义的问题，ELMO提出了一种动态的词向量的表达方式，其核心思想是：事先用语言模型学好一个单词的word embedding 此时多义词无法区分，不过没关系，在实际使用的word embedding 的时候单词已经具备了特定的上下文了，这时候可以根据上下文单词的语义，去调整单词的word embedding。

其才采用了典型的两阶段过程，第一个阶段是利用语言模型进行预训练，第二阶段是在下游任务中时，在预训练的网络中提取对应单词的网络各层的word embedding。

在第一阶段中，其采用了双层的双向LSTM作，目前语言模型的训练目标是根据单词的的上下文去预测正确单词，图中左端的前向双层LSTM代表正方向编码器，输入的是从左到右顺序的除了预测单词外；右端的逆向双层LSTM代表反方向编码器，输入的是从右到左的逆序的句子下文Context-after；每个编码器的深度都是两层LSTM叠加。如果这个网络训练好之后，输入一个新句子，句子中的每个单词都能得到对应的三个embeddin，最底层是 word embedding ，往上走是第一层双向LSTM对应单词的Embddding（这层编码句法信息更多一些），再往上走是第二层LSTM对应单词位置的Embedding ，（这层编码单词的信息更多一些）。

第二阶段，如何使用？以QA任务为例，对于问句X输入到预训练好的ELMO中，这样X中的每个单词都能得到三个Embedding，之后给予这三个Embedding中的每一个Embedding一个权重a，这个权重可以学习得到，然后根据各自权重累积求和，将三个Embedding整合一个，然后将其作为X句在自己任务的那个网络结构中的对应单词的输入。

EMLO优点 解决了一次多义的问题，并且对于下游任务的性能提升效果还不错，证明了预训练模型是有效的。

EMLO缺点 ：事后看（GPT和Bert出来之后对比）1、LSTM的抽取特征能力远弱于Transformer 2、双向拼接式融合特征能力偏弱

BERT

bert架构 Transformer的解码器

输入：位置编码（可学习） + 句子位置编码 + Token Embedding

任务： 1、MASK Language Model

为了减小训练和Fin-tune之间的mismatch ，mask trick： 15%的单词背MASK ，这15%中

80%被mask 10%不变 10%被换成其他词。

2、NSP（后来被Roberta 证明没啥用）

使用BPE

1、解决OOV问题

RoBERTa

针对BERT 进行的改进和提升，

有以下几点：

1、针对bert训练中的mask 是静态，roberta 采用动态的掩码方式

2、去掉了NSP任务

3、对于文本编码，bert使用的BPE roberta使用了 WordPiece 的编码方式

4、调大了bachsize

5、增加了训练数据

参考：从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 - 知乎

ELMO and BERT相关推荐

【李宏毅机器学习】Introduction of ELMO、BERT、GPT（p25）学习笔记
文章目录 Putting Words into Computers--Introduction of ELMO.BERT.GPT Review A word can have multiple sen ...
bert获得词向量_NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert
作者:JayLou,NLP算法工程师知乎专栏:高能NLP之路 https://zhuanlan.zhihu.com/p/56382372 本文以QA形式对自然语言处理中的词向量进行总结:包含word ...
词向量与词向量拼接_nlp中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert
本文以QA形式对自然语言处理中的词向量进行总结:包含word2vec/glove/fastText/elmo/bert. 2020年更新:NLP预训练模型的全面总结JayLou娄杰:史上最全!PTMs ...
词向量经典模型：从word2vec、glove、ELMo到BERT
前言词向量技术将自然语言中的词转化为稠密的向量,相似的词会有相似的向量表示,这样的转化方便挖掘文字中词语和句子之间的特征.生成词向量的方法从一开始基于统计学的方法(共现矩阵.SVD分解)到基于不同结 ...
[深度学习-NPL]ELMO、BERT、GPT学习与总结
系列文章目录深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer; 深度学习NLP(三) ...
【NLP】词向量：从word2vec、glove、ELMo到BERT详解！
目前,词向量(又叫词嵌入word embedding)已经成为NLP领域各种任务的必备一步,而且随着bert elmo,gpt等预训练模型的发展,词向量演变为知识表示方法,但其本质思想不变.学习各种词 ...
NLP之一文搞懂word2vec、Elmo、Bert演变
导读自然语言处理本质是解决文本相关的问题,我们可以把它的任务分为大致两部分:预训练产生词向量以及对词向量进行操作(下游NLP具体任务).在自然语言处理中有词向量模型word2vec.Elmo以及Be ...
预训练语言模型整理（ELMo/GPT/BERT...）
预训练语言模型整理(ELMo/GPT/BERT...)简介预训练任务简介# 自回归语言模型# 自编码语言模型预训练模型的简介与对比 ELMo 细节# ELMo的下游使用# GPT/GPT2# GP ...
bert获得词向量_词向量详解：从word2vec、glove、ELMo到BERT
目前,词向量(又叫词嵌入)已经成为NLP领域各种任务的必备一步,而且随着bert elmo,gpt等预训练模型的发展,词向量演变为知识表示方法,但其本质思想不变.学习各种词向量训练原理可以很好地掌握N ...

ELMO and BERT

ELMO and BERT

ELMO

BERT

RoBERTa

ELMO and BERT相关推荐

最新文章

热门文章