Roberta 充分训练的bert模型

RoBERTa是在论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》中被提出的。此方法属于BERT的强化版本，也是BERT模型更为精细的调优版本。

他改了优化器的参数，原始BERT优化函数采用的是Adam默认的参数，其中β1=0.9,β2=0.999，在RoBERTa模型中考虑采用了更大的batches，所以将β2改为了0.98。

他把静态掩码改成了动态掩码，原始静态mask：BERT中是准备训练数据时，每个样本只会进行一次随机mask（因此每个epoch都是重复），后续的每个训练步都采用相同的mask，这是原始静态mask，即单个静态mask，这是原始 BERT 的做法。动态mask：并没有在预处理的时候执行 mask，而是在每次向模型提供输入时动态生成 mask，所以是时刻变化的。

他对NSP任务进行了探索，对比多种结果并使用了DOC-SENTENCES，

SEGMENT-PAIR + NSP：
这是原始 BERT 的做法。输入包含两部分，每个部分是来自同一文档或者不同文档的 segment （segment 是连续的多个句子），这两个segment 的token总数少于 512 。预训练包含 MLM 任务和 NSP 任务。

SENTENCE-PAIR + NSP：
输入也是包含两部分，每个部分是来自同一个文档或者不同文档的单个句子，这两个句子的token 总数少于 512。由于这些输入明显少于512 个tokens，因此增加batch size的大小，以使 tokens 总数保持与SEGMENT-PAIR + NSP 相似。预训练包含 MLM 任务和 NSP 任务。

FULL-SENTENCES：
输入只有一部分（而不是两部分），来自同一个文档或者不同文档的连续多个句子，token 总数不超过 512 。输入可能跨越文档边界，如果跨文档，则在上一个文档末尾添加文档边界token 。预训练不包含 NSP 任务。

DOC-SENTENCES：
输入只有一部分（而不是两部分），输入的构造类似于FULL-SENTENCES，只是不需要跨越文档边界，其输入来自同一个文档的连续句子，token 总数不超过 512 。在文档末尾附近采样的输入可以短于 512个tokens，因此在这些情况下动态增加batch size大小以达到与 FULL-SENTENCES 相同的tokens总数。预训练不包含 NSP 任务。

Roberta采用DOC-SENTENCES输入格式。

他使用了超大的batchs:整整8K。

他使用了更大的数据集：从bert的16G变成了160G，并增大了step，训练了500K步。

Byte-Pair Encoding（BPE）是字符级和词级别表征的混合，支持处理自然语言语料库中的众多常见词汇。

原版的 BERT 实现使用字符级别的 BPE 词汇，大小为30K，是在利用启发式分词规则对输入进行预处理之后学得的。Facebook 研究者没有采用这种方式，

他使用更大的byte级别BPE词汇表来训练BERT。roberta使用unicode的bytes进行编码，用于学习高频字节的组合，添加到原有词表中。词表总50M大小，比bertbase增加了15M,。且没有对输入作任何额外的预处理或分词。

Roberta 充分训练的bert模型相关推荐

使用huggingface的Transformers预训练自己的bert模型+FineTuning
① 将"softmax+交叉熵"推广到多标签分类问题多分类问题引申到多标签分类问题(softmax+交叉熵) 作者苏剑林论述了将多分类任务下常用的softmax+CE的方式,推广 ...
基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践
基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践 1.任务介绍本次实践选题为AI研习社2019年9月份举办的中文对话情感分析任务,并在原任务基础上进行了拓展.任务首先给定一中文语句数据集 ...
英伟达“暴力碾压”谷歌：53分钟训练完BERT，2.2毫秒完成推理，创下NLP三项新纪录...
边策发自凹非寺量子位报道 | 公众号 QbitAI AI硬(he)件(dan)厂商英伟达今天宣布,他们在NLP模型上取得了三大突破,为今后会话AI的落地应用铺平了道路. 英伟达用自己的硬件与 ...
[深度学习] 自然语言处理 --- BERT模型原理
一 BERT简介 NLP:自然语言处理(NLP)是信息时代最重要的技术之一.理解复杂的语言也是人工智能的重要组成部分.Google AI 团队提出的预训练语言模型 BERT(Bidirectional ...
RoBERTa: A Robustly Optimized BERT Pretraining Approach（通篇翻译）
RoBERTa:一种稳健优化的BERT预训练方法 Yinhan Liu ∗ § Myle Ott ∗§ Naman Goyal ∗§ Jingfei Du ∗§ Mandar Joshi † Danq ...
深度学习（二）BERT模型及其一系列衍生模型
文章目录声明一.BERT 概述 1. BERT 是什么? 2. 传统方法 VS 预训练方法 3. BERT 的输入 ① 5 种特殊的 token 4. 核心结构 1. Multi-Head 2. ...
(含源码)「自然语言处理(NLP)」社区问答评估Bert模型优化
来源: AINLPer 微信公众号(每日更新-) 编辑: ShuYini 校稿: ShuYini 时间: 2020-03-21 引言: 本文分享的内容主要包括社区问答质量评估(基于Bert模型微调). ...
基于bert模型的文本分类研究：“Predict the Happiness”挑战
1. 前言在2018年10月,Google发布了新的语言表示模型BERT-"Bidirectional Encoder Representations from Transformers& ...
【NLP】BERT 模型与中文文本分类实践
简介 2018年10月11日,Google发布的论文<Pre-training of Deep Bidirectional Transformers for Language Understan ...

Roberta 充分训练的bert模型

Roberta 充分训练的bert模型相关推荐

最新文章

热门文章