1 简介

本文根据2019年《RoBERTa: A Robustly Optimized BERT Pretraining Approach》翻译总结的。
RoBERTa:稳健优化BERT方法。对BERT进行了优化。

RoBERTa :Robustly optimized BERT approach.

RoBERTa包括:

  1. 采用动态mask;
  2. 采用FULL-SENTENCES without NSP loss;没有使用NSP,NSP作用不大。
  3. large mini-batches;采用更大的batch。
  4. a larger byte-level BPE。BPE 指Byte-Pair Encoding 。

此外,
1) 训练更长的时间也可以改进RoBERTa。
2) 使用更多额外的数据,可以改进模型对下游任务的表现。

实验结果主要和BERT、XLNet进行了比较,好于它们。

2 Static vs. Dynamic Masking

BERT默认是静态mask(在数据预处理时表现一次)。我们改成动态的,可以看到表现有提升。动态mask指在每次将序列输入到模型时生成mask,

3 FULL-SENTENCES without NSP loss

SEGMENT-PAIR:BERT中采用的。有NSP。

SENTENCE-PAIR+NSP:将segment换成sentence(句子)。

FULL-SENTENCES:每个输入是连续从一个文档或者多个文档中提取的,总长度至少512个token。输入可能跨文档,即当我们在一个文档采样完后,长度不够时,我们继续在下一个文档中采样,在他们中间会添加个额外的分割token。没有NSP。

DOC-SENTENCES:类似FULL-SENTENCES,只是不跨文档,所以可能不够512个token。我们采用动态创建batch size方法。没有NSP。

如下表,虽然DOC-SENTENCES效果好点,但因为其batchsize在变化,故为了简化与其他模型的比较,我们用的FULL-SENTENCES。

4 大batch的训练

如下表,可以看到2K的batchsize好于BERT的256.

5 BPE

Byte-Pair Encoding (BPE)是介于character-和word-level之间的混合,可以处理在自然语言中普遍存在的大量词汇。BFE不是依靠整个词语,而是采用子词语。

BPE的词汇大小一般是10K到100K个子词。但是unicode 字符占据了相当大一部分。Radford et al. (2019)引入一种新的方式,用bytes代替unicode字符。使用bytes可以学习一个的大小适中50K的子词表,可以编码任何文本,不用引入任何未知token。

原始的BERT使用的是字符水平的BPE,大小30K,是在用启发式tokenization处理后再被学习的。

我们用一个更大的50K子词的byte-level BPE代替BERT中的,不用任何额外的处理或者输入的tokenization。不过这增加了BERTBASE 和BERTLARGE分别15M、20M的参数量。

不过也有研究说BPE可能轻损害某些任务的表现。但是我们认为一个广泛使用的编码胜过表现上轻微的损失。这部分可以进一步研究下。

6 实验结果

GLUE上的实验结果:

SQuAD实验结果:

RACE实验结果:

RoBERTa: A Robustly Optimized BERT Pretraining Approach相关推荐

  1. 【预训练语言模型】RoBERTa: A Robustly Optimized BERT Pretraining Approach

    ·阅读摘要:   本文在BERT模型的基础上进行了一些改进,提出了RoBERTa模型,并证明了RoBERTa比BERT的效果更好一些. ·参考文献:   [1] RoBERTa: A Robustly ...

  2. 论文阅读——RoBERTa A Robustly Optimized BERT Pretraining Approach

    RoBERTa A Robustly Optimized BERT Pretraining Approach Abstract Devlin等人在 BERT Pre-training of Deep ...

  3. 《论文阅读》RoBERTa: A Robustly Optimized BERT Pretraining Approach

    <论文阅读>RoBERTa: A Robustly Optimized BERT Pretraining Approach 简介 想法来源 数据集的选择 创新点 总结 期刊:arxiv 2 ...

  4. RoBERTa: A Robustly Optimized BERT Pretraining Approach(通篇翻译)

    RoBERTa:一种稳健优化的BERT预训练方法 Yinhan Liu ∗ § Myle Ott ∗§ Naman Goyal ∗§ Jingfei Du ∗§ Mandar Joshi † Danq ...

  5. RoBERTa: A Robustly Optimized BERT Pretraining Approach​​​​​​

    Abstract Dev 目录 Abstract 1 Introduction 本文贡献: lin等人在 BERT Pre-training of Deep Bidirectional Transfo ...

  6. RoBERTa:A Robustly Optimized BERT Pretraining Approach(2019-7-26)

    模型概述 RoBERTa可以看作是BERT的改进版,从模型结构上讲,相比BERT,RoBERTa基本没有什么创新,它更像是关于BERT在预训练方面进一步的探索.其改进了BERT很多的预训练策略,其结果 ...

  7. Roberta 充分训练的bert模型

    RoBERTa是在论文<RoBERTa: A Robustly Optimized BERT Pretraining Approach>中被提出的.此方法属于BERT的强化版本,也是BER ...

  8. 《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》

    目录 <BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding> 1.Bert研究意 ...

  9. Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双向Tr

    Paper:<BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双 ...

最新文章

  1. C++函数调用方式(_stdcall, _pascal, _cdecl...)总结 收藏
  2. Scala数组:使用()代替java的[]
  3. python不简单_Python学习并不简单!月薪过万也不易
  4. Python 一键导出微信阅读记录和笔记,666!
  5. oracle使用parallel并行,多线程查询
  6. P6348-[PA2011]Journeys【线段树优化建图,最短路】
  7. 诺基亚继续打情怀牌:怀旧小屏手机入网!
  8. stopwatch类使用
  9. Python使用装饰器捕获异常
  10. 将图片转化为txt文本显示
  11. 艾滋病多学科协作诊治模式的实施与成效
  12. 公民住宅权不可侵犯!为阻强拆致人重伤,属正当防卫
  13. php datedif,Datedif函数全面解析及BUG分析
  14. esp32查询剩余内存_ESP32 Arduino教程:获取自由堆-esp文件
  15. MOS管符号特性规则
  16. 大数据hadoop分布式系统
  17. Anaconda自用安装
  18. MySQL连接查询——连接查询的综合应用
  19. 2020年日历电子版(打印版)_2020年日历打印版超清版
  20. 计算机教师继续教育心得,教师继续教育学习心得体会范文(精选8篇)

热门文章

  1. vue获取dom元素的内容
  2. 利用VMWare创建linux虚拟机
  3. html5标题标语,励志宣传标语(精选70句)
  4. 【渗透测试】VulnHub-GoldenEye-1
  5. Linux 下Apache(httpd) 安装、配置
  6. 2023年最新程序员接单平台汇总
  7. 贝叶斯公式简单解释及其运用
  8. 将Typora中的md文件导入博客中时,图片无法存入,[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传]
  9. Vue-前端工程化与 webpack(二)
  10. 金九银十,入职字节跳动那一天,我哭了