• BERT: 提出了MLM和NSP两个任务。MLM随机的MASK掉一些token, 然后根据上下文预测这些token。NSP预测句子B是否是句子A的下一句。简单来说就是一个自监督的完形填空机制。后来有人提出WWM, 即当一个词中的某一个字被mask掉,整个词都被mask掉。

• ERNIE: 采用三种masking策略:
Basic-Level Masking: 跟bert一样对单字进行mask,很难学习到高层次的语义信息;
Phrase-Level Masking: 输入仍然是单字级别的,mask连续短语,跟N-gram masking相似。;
Entity-Level Masking: 首先进行实体识别,然后将识别出的实体进行mask。

• XLNET: 为了解决预训练阶段出现[MASK] token,fine-tuning阶段没有[MASK] token这种不一致,作者提出了PLM, 并且将autoencoding改为autoregressive。

• ALBERT: 提出了两种减少模型参数的方式,第一是将Embedding 矩阵|V| * H分解为|V| * E 和 E * H两个小矩阵;第二是每一层transfomer block都共享参数。另外提出用SOP来替代NSP。

• RoBERTa: 在BERT基础上,做了如下的改进:1. 训练更长时间,用更大的batch,更长的输入序列长度,更多的训练数据。2. 去除NSP任务,并且使用dynamic masking。3.动态Masking:每次向模型输入一个序列时,都会生成一种新的Maks方式。即不在预处理的时候进行Mask,而是在向模型提供输入时动态生成Mask
而修改版静态Maksing:在预处理的时候将数据拷贝10份,每一份拷贝都采用不同的Mask,也就说,同样的一句话有10种不同的mask方式,然后每份数据都训练N/10个Epoch
动态Masking:

• ELECTRA: 采用一种Generator和Discriminator的架构,Generator: 一个小的MLM,在[MASK]的位置预测原来的词。Generator将用来把输入文本做部分词的替换。
Discriminator: 判断输入句子中的每个词是否被替换,即使用Replaced Token Detection (RTD)预训练任务,取代了BERT原始的Masked Language Model (MLM)。这种方式判别器只需要判断每个token是否被替换了(二分类),而不需要预测被替换的原token是什么。需要注意的是这里并没有使用Next Sentence Prediction (NSP)任务。

• MacBert: 即将句子中的原词,比如 语言模型,预测,概率 用它的近义词比如 语法建模,预见,几率 来替代。这种方式相对于用[MASK]标记来替代原词,减少了pre-training和fine-tuning不一致。即[MASK]只出现在pre-training阶段,不出现在fine-tuning阶段。

Bert和一些以Bert为基础的预训练模型的Mask区别相关推荐

  1. ICML 2019:序列到序列自然语言生成任务超越BERT、GPT!微软提出通用预训练模型MASS | 技术头条...

    来源 | 微软研究院AI头条(id:MSRAsia) 责编 | Jane 编者按:从2018年开始,预训练(pre-train) 毫无疑问成为NLP领域最热的研究方向.借助于BERT和GPT等预训练模 ...

  2. [Python人工智能] 三十二.Bert模型 (1)Keras-bert基本用法及预训练模型

    从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章结合文本挖掘介绍微博情感分类知识,包括数据预处理.机器学习和深度学习的情感分类.这篇文章将开启新的内容--Bert ...

  3. 如何学习使用Bert预训练模型

    目录 (一)bert预训练模型下载 (二)使用bert做中文文本分类 (一)bert预训练模型下载 在bert官网下载自己需要的预训练模型. 下图是进入官网的图片. 点击想要选择的模型,选择Files ...

  4. 乘风破浪的PTM:两年来预训练模型的技术进展

    作者 | 张俊林 来源 | 深度学习前沿笔记专栏 Bert模型自18年10月推出,到目前为止快两年了.它卜一问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PT ...

  5. AI“暴力美学”背后,预训练模型如何乘风破浪?

    作者 | 张俊林 来源 | 深度学习前沿笔记专栏 Bert模型自18年10月推出,到目前为止快两年了.它卜一问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PT ...

  6. 200+页综述!阐述大规模预训练模型机遇与风险

    来源 | 机器之心 在一篇 200 多页的论文中,Percy Liang.李飞飞等斯坦福研究者系统阐述了大规模预训练模型背后的机遇与风险.他们还给这些模型取了一个统一的名字-- Foundation ...

  7. 两年来预训练模型的技术进展(2018-2020)

    转自:https://zhuanlan.zhihu.com/p/254821426 Bert模型自18年10月推出,到目前为止快两年了.它卜一问世即引起轰动,之后,各种改进版本的预训练模型(Pre-T ...

  8. 腾讯新预训练模型LP-BERT

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 在放假前刷到Arxiv的一篇和知识图谱相关的论文,是研究实体链接预测的,之前简单扫了一 ...

  9. 多项NLP任务新SOTA,Facebook提出预训练模型BART​

    2019-11-04 13:38:14 论文选自arXiv 作者:Mike Lewis等机器之心编译参与:魔王.一鸣 FaceBook 近日提出了一个名为BART的预训练语言模型.该模型结合双向和自回 ...

  10. 中文预训练模型研究进展

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:专知 近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行 ...

最新文章

  1. [Android Pro] linux下查看一个文件的属性(ls,lsattr,file,stat)
  2. 积分背后的数字货币,你真的会玩吗?
  3. Java Web整合开发(26) -- Spring概述
  4. python回复邮件_在Python中通过Outlook回复电子邮件
  5. CSS按钮动画(二)
  6. 解决Hbuliderx的代码不能自动补全的问题
  7. 移动手机组态软件UI设计思路探讨
  8. laravel框架使用教程
  9. es模糊查询 java_java使用elasticsearch进行模糊查询之must使用
  10. android 即时通讯技术,基于Android即时通讯系统的设计与实现
  11. L1-8 雀魂majsoul (20 分)
  12. 【博客话题】人在囧途之“运维囧”
  13. 我养的无名花草,四季开花
  14. DEVexpress GridControl 属性设置
  15. 索尼摄像机V1C语言设置,索尼摄像机随机软件(Picture package) v1.8官方版
  16. 谷歌PR权重 Google PR与百度权重
  17. bodipy荧光染料BDP R6G maleimide/马来酰亚胺,CAS:2183473-32-5
  18. 【20210827】【系统设计】“秒杀系统”架构设计分析
  19. Stay hungry stay young
  20. 华南主板bios怎么恢复出厂设置_最详细的主板bios设置图解教程bios设置指南史无前例...

热门文章

  1. seaborn—sns.heatmap绘制热力图
  2. pandas - AttributeError: Series object has no attribute reshape
  3. python,numpy中np.random.choice()的用法详解及其参考代码
  4. Spark 和 Hadoop MapReduce 对比
  5. 为什么要使用 JavaScript
  6. 5.5 Transformers的改进--自适应Attention
  7. python3爬虫 - 利用浏览器cookie登录
  8. android 音频播放类
  9. asp.net 安装element ui_vue入门003~vue项目引入element并创建一个登录页面
  10. ElasticSearch近似匹配调研