目录

ELMO and BERT

ELMO

BERT

RoBERTa


ELMO and BERT

ELMO

对于word2vec这种静态词向量,不能解决一词多义的问题,ELMO提出了一种动态的词向量的表达方式,其核心思想是:事先用语言模型学好一个单词的word embedding 此时多义词无法区分,不过没关系,在实际使用的word embedding 的时候单词已经具备了特定的上下文了,这时候可以根据上下文单词的语义,去调整单词的word embedding。

其才采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练,第二阶段是在下游任务中时,在预训练的网络中提取对应单词的网络各层的word embedding。

在第一阶段中,其采用了双层的双向LSTM作,目前语言模型的训练目标是根据单词的​ 的上下文去预测正确单词 ​ ,图中左端的前向双层LSTM代表正方向编码器,输入的是从左到右顺序的除了预测单词外 ​;右端的逆向双层LSTM代表反方向编码器,输入的是从右到左的逆序的句子下文Context-after;每个编码器的深度都是两层LSTM叠加。如果这个网络训练好之后,输入一个新句子,句子中的每个单词都能得到对应的三个embeddin,最底层是 word embedding ,往上走是第一层双向LSTM对应单词的Embddding(这层编码句法信息更多一些),再往上走是第二层LSTM对应单词位置的Embedding ,(这层编码单词的信息更多一些)。

第二阶段, 如何使用? 以QA任务为例,对于问句X输入到预训练好的ELMO中,这样X中的每个单词都能得到三个Embedding,之后给予这三个Embedding中的每一个Embedding一个权重a,这个权重可以学习得到,然后根据各自权重累积求和,将三个Embedding整合一个,然后将其作为X句在自己任务的那个网络结构中的对应单词的输入。

EMLO优点 解决了一次多义的问题,并且对于下游任务的性能提升效果还不错,证明了预训练模型是有效的。

EMLO缺点 :事后看(GPT和Bert出来之后对比)1、LSTM的抽取特征能力远弱于Transformer 2、双向拼接式融合特征能力偏弱

BERT

bert架构 Transformer的解码器

输入: 位置编码(可学习) + 句子位置编码 + Token Embedding

任务: 1、MASK Language Model

为了减小训练和Fin-tune之间的mismatch ,mask trick: 15%的单词背MASK ,这15%中

80%被mask 10%不变 10%被换成其他词。

2、NSP(后来被Roberta 证明没啥用)

使用BPE

1、解决OOV问题

RoBERTa

针对BERT 进行的改进和提升,

有以下几点:

1、针对bert训练中的mask 是静态 ,roberta 采用动态的掩码方式

2、去掉了NSP任务

3、对于文本编码,bert使用的BPE roberta使用了 WordPiece 的编码方式

4、调大了bachsize

5、增加了训练数据

参考:从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 - 知乎

ELMO and BERT相关推荐

  1. 【李宏毅机器学习】Introduction of ELMO、BERT、GPT(p25) 学习笔记

    文章目录 Putting Words into Computers--Introduction of ELMO.BERT.GPT Review A word can have multiple sen ...

  2. bert获得词向量_NLP中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert

    作者:JayLou,NLP算法工程师 知乎专栏:高能NLP之路 https://zhuanlan.zhihu.com/p/56382372 本文以QA形式对自然语言处理中的词向量进行总结:包含word ...

  3. 词向量与词向量拼接_nlp中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert

    本文以QA形式对自然语言处理中的词向量进行总结:包含word2vec/glove/fastText/elmo/bert. 2020年更新:NLP预训练模型的全面总结JayLou娄杰:史上最全!PTMs ...

  4. 词向量经典模型:从word2vec、glove、ELMo到BERT

    前言 词向量技术将自然语言中的词转化为稠密的向量,相似的词会有相似的向量表示,这样的转化方便挖掘文字中词语和句子之间的特征.生成词向量的方法从一开始基于统计学的方法(共现矩阵.SVD分解)到基于不同结 ...

  5. [深度学习-NPL]ELMO、BERT、GPT学习与总结

    系列文章目录 深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer; 深度学习NLP(三) ...

  6. 【NLP】词向量:从word2vec、glove、ELMo到BERT详解!

    目前,词向量(又叫词嵌入word embedding)已经成为NLP领域各种任务的必备一步,而且随着bert elmo,gpt等预训练模型的发展,词向量演变为知识表示方法,但其本质思想不变.学习各种词 ...

  7. NLP之一文搞懂word2vec、Elmo、Bert演变

    导读 自然语言处理本质是解决文本相关的问题,我们可以把它的任务分为大致两部分:预训练产生词向量以及对词向量进行操作(下游NLP具体任务).在自然语言处理中有词向量模型word2vec.Elmo以及Be ...

  8. 预训练语言模型整理(ELMo/GPT/BERT...)

    预训练语言模型整理(ELMo/GPT/BERT...)简介 预训练任务简介# 自回归语言模型# 自编码语言模型 预训练模型的简介与对比 ELMo 细节# ELMo的下游使用# GPT/GPT2# GP ...

  9. bert获得词向量_词向量详解:从word2vec、glove、ELMo到BERT

    目前,词向量(又叫词嵌入)已经成为NLP领域各种任务的必备一步,而且随着bert elmo,gpt等预训练模型的发展,词向量演变为知识表示方法,但其本质思想不变.学习各种词向量训练原理可以很好地掌握N ...

最新文章

  1. arguments.length
  2. OCulus Rift 游戏开发六原则
  3. formdata接收数据怎么接收数组_LBT是什么?怎么增加通信可靠性?
  4. python海龟绘图画树_Python:海龟绘图(二)
  5. Spring Boot实践
  6. 万字长文+思维导图帮你梳理 Java IO 流,还学不会你来打我(值得收藏)
  7. Linux调整时区和同步时间
  8. Android 设备正在“绞杀”密码!
  9. 配置管理小报091103-2: CVS中的tag规则
  10. (转)图文详解手把手教你在Windows环境下下载Android源码(Launcher为例)
  11. c语言dp算法解决背包问题,DP求解完全背包问题及其优化原理
  12. 十八、D触发器介绍:
  13. 计算机新建里没有word,电脑鼠标右键没有新建Word选项怎么办?
  14. CodeForces 68 A.Irrational problem(水~)
  15. 读书百客:《月夜》鉴赏
  16. PIPIOJ1166PIPI的棋盘
  17. leetcode-SQL-603. 连续空余座位
  18. 可视计算机应用期末考试,职称计算机考试photoshop考试习题复习
  19. named:域名服务器部署及配置
  20. 原神 android 手柄,如何在手机上流畅体验《原神》,推荐机型和手柄缺一不可

热门文章

  1. web页面单页打印以及批量打印
  2. QPainter绘制直方图后,绘制文字drawText文字翻转文字镜像解决办法
  3. 日语自学资料-N3(免费下载)
  4. 区块链开发(十)区块链技术-智能合约Solidity编程语言
  5. 访问者模式(例子+类图+实现)
  6. 慎吃十二种不利健康的家常菜(转贴)
  7. css中div居中显示的四种方法
  8. 在iPhone或iPad上阅读新闻的最佳方法
  9. iPhone网易新闻和凤凰新闻客户端
  10. K8S安装Jumpserver