Bert和一些以Bert为基础的预训练模型的Mask区别

• BERT: 提出了MLM和NSP两个任务。MLM随机的MASK掉一些token, 然后根据上下文预测这些token。NSP预测句子B是否是句子A的下一句。简单来说就是一个自监督的完形填空机制。后来有人提出WWM, 即当一个词中的某一个字被mask掉，整个词都被mask掉。

• ERNIE: 采用三种masking策略：
Basic-Level Masking：跟bert一样对单字进行mask，很难学习到高层次的语义信息；
Phrase-Level Masking：输入仍然是单字级别的，mask连续短语，跟N-gram masking相似。；
Entity-Level Masking：首先进行实体识别，然后将识别出的实体进行mask。

• XLNET: 为了解决预训练阶段出现[MASK] token，fine-tuning阶段没有[MASK] token这种不一致，作者提出了PLM, 并且将autoencoding改为autoregressive。

• ALBERT: 提出了两种减少模型参数的方式，第一是将Embedding 矩阵|V| * H分解为|V| * E 和 E * H两个小矩阵；第二是每一层transfomer block都共享参数。另外提出用SOP来替代NSP。

• RoBERTa: 在BERT基础上，做了如下的改进：1. 训练更长时间，用更大的batch，更长的输入序列长度，更多的训练数据。2. 去除NSP任务，并且使用dynamic masking。3.动态Masking：每次向模型输入一个序列时，都会生成一种新的Maks方式。即不在预处理的时候进行Mask，而是在向模型提供输入时动态生成Mask
而修改版静态Maksing：在预处理的时候将数据拷贝10份，每一份拷贝都采用不同的Mask，也就说，同样的一句话有10种不同的mask方式，然后每份数据都训练N/10个Epoch
动态Masking：

• ELECTRA: 采用一种Generator和Discriminator的架构，Generator: 一个小的MLM，在[MASK]的位置预测原来的词。Generator将用来把输入文本做部分词的替换。
Discriminator: 判断输入句子中的每个词是否被替换，即使用Replaced Token Detection (RTD)预训练任务，取代了BERT原始的Masked Language Model (MLM)。这种方式判别器只需要判断每个token是否被替换了（二分类），而不需要预测被替换的原token是什么。需要注意的是这里并没有使用Next Sentence Prediction (NSP)任务。

• MacBert: 即将句子中的原词，比如语言模型，预测，概率用它的近义词比如语法建模，预见，几率来替代。这种方式相对于用[MASK]标记来替代原词，减少了pre-training和fine-tuning不一致。即[MASK]只出现在pre-training阶段，不出现在fine-tuning阶段。

Bert和一些以Bert为基础的预训练模型的Mask区别相关推荐

ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条...
来源 | 微软研究院AI头条(id:MSRAsia) 责编 | Jane 编者按:从2018年开始,预训练(pre-train) 毫无疑问成为NLP领域最热的研究方向.借助于BERT和GPT等预训练模 ...
[Python人工智能] 三十二.Bert模型 (1)Keras-bert基本用法及预训练模型
从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章结合文本挖掘介绍微博情感分类知识,包括数据预处理.机器学习和深度学习的情感分类.这篇文章将开启新的内容--Bert ...
如何学习使用Bert预训练模型
目录 (一)bert预训练模型下载 (二)使用bert做中文文本分类 (一)bert预训练模型下载在bert官网下载自己需要的预训练模型. 下图是进入官网的图片. 点击想要选择的模型,选择Files ...
乘风破浪的PTM：两年来预训练模型的技术进展
作者 | 张俊林来源 | 深度学习前沿笔记专栏 Bert模型自18年10月推出,到目前为止快两年了.它卜一问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PT ...
AI“暴力美学”背后，预训练模型如何乘风破浪？
作者 | 张俊林来源 | 深度学习前沿笔记专栏 Bert模型自18年10月推出,到目前为止快两年了.它卜一问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PT ...
200+页综述！阐述大规模预训练模型机遇与风险
来源 | 机器之心在一篇 200 多页的论文中,Percy Liang.李飞飞等斯坦福研究者系统阐述了大规模预训练模型背后的机遇与风险.他们还给这些模型取了一个统一的名字-- Foundation ...
两年来预训练模型的技术进展(2018-2020)
转自:https://zhuanlan.zhihu.com/p/254821426 Bert模型自18年10月推出,到目前为止快两年了.它卜一问世即引起轰动,之后,各种改进版本的预训练模型(Pre-T ...
腾讯新预训练模型LP-BERT
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达在放假前刷到Arxiv的一篇和知识图谱相关的论文,是研究实体链接预测的,之前简单扫了一 ...
多项NLP任务新SOTA，Facebook提出预训练模型BART
2019-11-04 13:38:14 论文选自arXiv 作者:Mike Lewis等机器之心编译参与:魔王.一鸣 FaceBook 近日提出了一个名为BART的预训练语言模型.该模型结合双向和自回 ...
中文预训练模型研究进展
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达来自:专知近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行 ...

Bert和一些以Bert为基础的预训练模型的Mask区别

Bert和一些以Bert为基础的预训练模型的Mask区别相关推荐

最新文章

热门文章