RoBERTa: A Robustly Optimized BERT Pretraining Approach
1 简介
本文根据2019年《RoBERTa: A Robustly Optimized BERT Pretraining Approach》翻译总结的。
RoBERTa:稳健优化BERT方法。对BERT进行了优化。
RoBERTa :Robustly optimized BERT approach.
RoBERTa包括:
- 采用动态mask;
- 采用FULL-SENTENCES without NSP loss;没有使用NSP,NSP作用不大。
- large mini-batches;采用更大的batch。
- a larger byte-level BPE。BPE 指Byte-Pair Encoding 。
此外,
1) 训练更长的时间也可以改进RoBERTa。
2) 使用更多额外的数据,可以改进模型对下游任务的表现。
实验结果主要和BERT、XLNet进行了比较,好于它们。
2 Static vs. Dynamic Masking
BERT默认是静态mask(在数据预处理时表现一次)。我们改成动态的,可以看到表现有提升。动态mask指在每次将序列输入到模型时生成mask,
3 FULL-SENTENCES without NSP loss
SEGMENT-PAIR:BERT中采用的。有NSP。
SENTENCE-PAIR+NSP:将segment换成sentence(句子)。
FULL-SENTENCES:每个输入是连续从一个文档或者多个文档中提取的,总长度至少512个token。输入可能跨文档,即当我们在一个文档采样完后,长度不够时,我们继续在下一个文档中采样,在他们中间会添加个额外的分割token。没有NSP。
DOC-SENTENCES:类似FULL-SENTENCES,只是不跨文档,所以可能不够512个token。我们采用动态创建batch size方法。没有NSP。
如下表,虽然DOC-SENTENCES效果好点,但因为其batchsize在变化,故为了简化与其他模型的比较,我们用的FULL-SENTENCES。
4 大batch的训练
如下表,可以看到2K的batchsize好于BERT的256.
5 BPE
Byte-Pair Encoding (BPE)是介于character-和word-level之间的混合,可以处理在自然语言中普遍存在的大量词汇。BFE不是依靠整个词语,而是采用子词语。
BPE的词汇大小一般是10K到100K个子词。但是unicode 字符占据了相当大一部分。Radford et al. (2019)引入一种新的方式,用bytes代替unicode字符。使用bytes可以学习一个的大小适中50K的子词表,可以编码任何文本,不用引入任何未知token。
原始的BERT使用的是字符水平的BPE,大小30K,是在用启发式tokenization处理后再被学习的。
我们用一个更大的50K子词的byte-level BPE代替BERT中的,不用任何额外的处理或者输入的tokenization。不过这增加了BERTBASE 和BERTLARGE分别15M、20M的参数量。
不过也有研究说BPE可能轻损害某些任务的表现。但是我们认为一个广泛使用的编码胜过表现上轻微的损失。这部分可以进一步研究下。
6 实验结果
GLUE上的实验结果:
SQuAD实验结果:
RACE实验结果:
RoBERTa: A Robustly Optimized BERT Pretraining Approach相关推荐
- 【预训练语言模型】RoBERTa: A Robustly Optimized BERT Pretraining Approach
·阅读摘要: 本文在BERT模型的基础上进行了一些改进,提出了RoBERTa模型,并证明了RoBERTa比BERT的效果更好一些. ·参考文献: [1] RoBERTa: A Robustly ...
- 论文阅读——RoBERTa A Robustly Optimized BERT Pretraining Approach
RoBERTa A Robustly Optimized BERT Pretraining Approach Abstract Devlin等人在 BERT Pre-training of Deep ...
- 《论文阅读》RoBERTa: A Robustly Optimized BERT Pretraining Approach
<论文阅读>RoBERTa: A Robustly Optimized BERT Pretraining Approach 简介 想法来源 数据集的选择 创新点 总结 期刊:arxiv 2 ...
- RoBERTa: A Robustly Optimized BERT Pretraining Approach(通篇翻译)
RoBERTa:一种稳健优化的BERT预训练方法 Yinhan Liu ∗ § Myle Ott ∗§ Naman Goyal ∗§ Jingfei Du ∗§ Mandar Joshi † Danq ...
- RoBERTa: A Robustly Optimized BERT Pretraining Approach
Abstract Dev 目录 Abstract 1 Introduction 本文贡献: lin等人在 BERT Pre-training of Deep Bidirectional Transfo ...
- RoBERTa:A Robustly Optimized BERT Pretraining Approach(2019-7-26)
模型概述 RoBERTa可以看作是BERT的改进版,从模型结构上讲,相比BERT,RoBERTa基本没有什么创新,它更像是关于BERT在预训练方面进一步的探索.其改进了BERT很多的预训练策略,其结果 ...
- Roberta 充分训练的bert模型
RoBERTa是在论文<RoBERTa: A Robustly Optimized BERT Pretraining Approach>中被提出的.此方法属于BERT的强化版本,也是BER ...
- 《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》
目录 <BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding> 1.Bert研究意 ...
- Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双向Tr
Paper:<BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双 ...
最新文章
- C++函数调用方式(_stdcall, _pascal, _cdecl...)总结 收藏
- Scala数组:使用()代替java的[]
- python不简单_Python学习并不简单!月薪过万也不易
- Python 一键导出微信阅读记录和笔记,666!
- oracle使用parallel并行,多线程查询
- P6348-[PA2011]Journeys【线段树优化建图,最短路】
- 诺基亚继续打情怀牌:怀旧小屏手机入网!
- stopwatch类使用
- Python使用装饰器捕获异常
- 将图片转化为txt文本显示
- 艾滋病多学科协作诊治模式的实施与成效
- 公民住宅权不可侵犯!为阻强拆致人重伤,属正当防卫
- php datedif,Datedif函数全面解析及BUG分析
- esp32查询剩余内存_ESP32 Arduino教程:获取自由堆-esp文件
- MOS管符号特性规则
- 大数据hadoop分布式系统
- Anaconda自用安装
- MySQL连接查询——连接查询的综合应用
- 2020年日历电子版(打印版)_2020年日历打印版超清版
- 计算机教师继续教育心得,教师继续教育学习心得体会范文(精选8篇)