RoBERTa是在论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》中被提出的。此方法属于BERT的强化版本,也是BERT模型更为精细的调优版本。

他改了优化器的参数,原始BERT优化函数采用的是Adam默认的参数,其中β1=0.9,β2=0.999,在RoBERTa模型中考虑采用了更大的batches,所以将β2改为了0.98。

他把静态掩码改成了动态掩码原始静态mask:BERT中是准备训练数据时,每个样本只会进行一次随机mask(因此每个epoch都是重复),后续的每个训练步都采用相同的mask,这是原始静态mask,即单个静态mask,这是原始 BERT 的做法。动态mask:并没有在预处理的时候执行 mask,而是在每次向模型提供输入时动态生成 mask,所以是时刻变化的。

他对NSP任务进行了探索,对比多种结果并使用了DOC-SENTENCES,

SEGMENT-PAIR + NSP:
这是原始 BERT 的做法。输入包含两部分,每个部分是来自同一文档或者不同文档的 segment (segment 是连续的多个句子),这两个segment 的token总数少于 512 。预训练包含 MLM 任务和 NSP 任务。

SENTENCE-PAIR + NSP:
输入也是包含两部分,每个部分是来自同一个文档或者不同文档的单个句子,这两个句子的token 总数少于 512。由于这些输入明显少于512 个tokens,因此增加batch size的大小,以使 tokens 总数保持与SEGMENT-PAIR + NSP 相似。预训练包含 MLM 任务和 NSP 任务。

FULL-SENTENCES:
输入只有一部分(而不是两部分),来自同一个文档或者不同文档的连续多个句子,token 总数不超过 512 。输入可能跨越文档边界,如果跨文档,则在上一个文档末尾添加文档边界token 。预训练不包含 NSP 任务。

DOC-SENTENCES:
输入只有一部分(而不是两部分),输入的构造类似于FULL-SENTENCES,只是不需要跨越文档边界,其输入来自同一个文档的连续句子,token 总数不超过 512 。在文档末尾附近采样的输入可以短于 512个tokens, 因此在这些情况下动态增加batch size大小以达到与 FULL-SENTENCES 相同的tokens总数。预训练不包含 NSP 任务。

Roberta采用DOC-SENTENCES输入格式。

他使用了超大的batchs:整整8K。

他使用了更大的数据集:从bert的16G变成了160G,并增大了step,训练了500K步。

Byte-Pair Encoding(BPE)是字符级和词级别表征的混合,支持处理自然语言语料库中的众多常见词汇。

原版的 BERT 实现使用字符级别的 BPE 词汇,大小为30K,是在利用启发式分词规则对输入进行预处理之后学得的。Facebook 研究者没有采用这种方式,

他使用更大的byte级别BPE词汇表来训练BERT。roberta使用unicode的bytes进行编码,用于学习高频字节的组合,添加到原有词表中。词表总50M大小,比bertbase增加了15M,。且没有对输入作任何额外的预处理或分词。

Roberta 充分训练的bert模型相关推荐

  1. 使用huggingface的Transformers预训练自己的bert模型+FineTuning

    ① 将"softmax+交叉熵"推广到多标签分类问题 多分类问题引申到多标签分类问题(softmax+交叉熵) 作者苏剑林论述了将多分类任务下常用的softmax+CE的方式,推广 ...

  2. 基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践

    基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践 1.任务介绍   本次实践选题为AI研习社2019年9月份举办的中文对话情感分析任务,并在原任务基础上进行了拓展.任务首先给定一中文语句数据集 ...

  3. 英伟达“暴力碾压”谷歌:53分钟训练完BERT,2.2毫秒完成推理,创下NLP三项新纪录...

    边策 发自 凹非寺  量子位 报道 | 公众号 QbitAI AI硬(he)件(dan)厂商英伟达今天宣布,他们在NLP模型上取得了三大突破,为今后会话AI的落地应用铺平了道路. 英伟达用自己的硬件与 ...

  4. [深度学习] 自然语言处理 --- BERT模型原理

    一 BERT简介 NLP:自然语言处理(NLP)是信息时代最重要的技术之一.理解复杂的语言也是人工智能的重要组成部分.Google AI 团队提出的预训练语言模型 BERT(Bidirectional ...

  5. RoBERTa: A Robustly Optimized BERT Pretraining Approach(通篇翻译)

    RoBERTa:一种稳健优化的BERT预训练方法 Yinhan Liu ∗ § Myle Ott ∗§ Naman Goyal ∗§ Jingfei Du ∗§ Mandar Joshi † Danq ...

  6. 深度学习(二)BERT模型及其一系列衍生模型

    文章目录 声明 一.BERT 概述 1. BERT 是什么? 2. 传统方法 VS 预训练方法 3. BERT 的输入 ① 5 种特殊的 token 4. 核心结构 1. Multi-Head 2. ...

  7. (含源码)「自然语言处理(NLP)」社区问答评估Bert模型优化

    来源: AINLPer 微信公众号(每日更新-) 编辑: ShuYini 校稿: ShuYini 时间: 2020-03-21 引言: 本文分享的内容主要包括社区问答质量评估(基于Bert模型微调). ...

  8. 基于bert模型的文本分类研究:“Predict the Happiness”挑战

    1. 前言 在2018年10月,Google发布了新的语言表示模型BERT-"Bidirectional Encoder Representations from Transformers& ...

  9. 【NLP】BERT 模型与中文文本分类实践

    简介 2018年10月11日,Google发布的论文<Pre-training of Deep Bidirectional Transformers for Language Understan ...

最新文章

  1. Android 实时文件夹
  2. 荒谬而可信的Docker数据中心商业案例
  3. linux systemd 服务管理脚本简介
  4. Java中集合(六)Queue
  5. 【Notes8】Linux开发环境,Linux命令,vi命令,/正则,Hash,iNode,文件查找与读取,Linux开机自启动
  6. .NET6之MiniAPI(十四):跨域CORS(上)
  7. perl大骆驼和小骆驼_你好骆驼:自动文件传输
  8. sqlmap绕过d盾_Waf功能、分类与绕过
  9. Centos7安装图形桌面
  10. c++之string类详解
  11. Js获取屏幕宽度、高度 移动端H5适配
  12. 2、图片亮度,对比度,饱和度,明度调整 transforms.ColorJitter(brightness=0, contrast=0, saturation=0, hue=0)
  13. Ubuntu交叉编译U-boot
  14. 合并多个excel文件数据
  15. 港科夜闻|全国政协副主席梁振英先生率香港商企及机构代表一行到莅临香港科大(广州)访问交流...
  16. 分享一个免费的计算机书籍资料网站(含有编程语言,算法,人工智能,游戏开发等书籍资料)
  17. layui 表格合计
  18. chef_Chef Infra 16添加了YAML配方支持
  19. 红旗 linux 4.4系统安装,红旗Linux6.0 SP1桌面版安装 xfce 4.4.3 的方法
  20. 智慧社区解决方案-全套最新

热门文章

  1. 用HTML代码实现一个可以绽放的玫瑰花动画网页
  2. c语言读取命令行参数,请问C-读取命令行参数怎么读取
  3. MongoDB入门学习(一)简介与基本操作、整合SpringBoot集合操作、整合SpringBoot文档操作
  4. php网站pc域名和手机域名,手機移動端網站和電腦PC端網站域名使用與跳轉PHP代碼...
  5. 小程序源码:老年祝福短视频微信小程序源码下载支持流量主
  6. html如何插入avi视频,学用系列|希沃云课堂无法播放插入视频?看这里一招搞定视频转换...
  7. mysql清空数据库所有表的命令_mysql清空表数据命令是什么?_数据库,mysql,清空表数据...
  8. SSL_1491【天使的起誓】(高精度减法)
  9. 树莓派Scim-pinyin输入法相关(安装,不能切换中文输入法)
  10. 探探快滑——自动滑动软件