RoBERTa- A Robustly Optimized BERT Pretraining Approach

在BERT模型的基础上,做了一些改进,提升了预训练模型的性能。

  • 把静态mask改成动态mask
    BERT中在数据预处理阶段,把数据集复制10份,然后进行MASK,也就是说原始数据集的每个句子都进行10次不同的MASK,但依然会在训练中出现重复。比如Epoch=40,那么每个相同的MASK会被重复训练4次。
    而RoBERTa采用动态mask,每次把squence输入模型时,进行MASK,使得每次训练的MASK都不同。

  • 调整输入格式和NSP任务
    考虑了四种格式:

    发现去掉NSP loss之后性能有所提升;由于FULL-SENTENCES需要变大小的batch,所以采用DOC-SENTENCES形式

  • 调大batch size
    BERT用256,RoBERTa用8k

  • 把character-level BPE 换成byte-level BPE

  • 训练时间更长

  • 用更多训练数据集

总之,本文证明了BERT的预训练方法还有很多可以深挖的地方,在原先的基础上稍作调整又取得了SOTA。

传送门

RoBERTa VS BERT相关推荐

  1. RoBERTa相比BERT的改进

    继BERT.XLNet之后,Facebook提出的RoBERTa(a Robustly Optimized BERT Pretraining Approach).本篇文章主要总结下RoBERTa相比于 ...

  2. 无炫技:纯粹的Bert和Roberta

    项目连接:https://github.com/whgaara/pytorch-roberta 项目概述 bert作为当代NLP的基石型模型,熟练掌握是至关重要的.笔者阅读了很多大牛的代码,发现很多内 ...

  3. 对各大预训练语言模型的简单总结和评述(BERT/RoBERTa/ALBERT/ELECTRA/ERNIE/structBERT/SpanBERT...)

    前言 本文系对BERT及其各种优化的简单总结.如RoBERTa.ALBERT.ERNIE.SBERT.MacBERT等. 随积累,即时更新. 总结 BERT 初始预训练任务简介: MLM,即完形填空. ...

  4. 大BERT —— RoBERTa

    [关于 大 Bert 模型系列算法] 大BERT模型总结 名称 介绍 动机 预训练方法 微调 问题 Bert Transformer的双向编码器 多义词问题 && GPT 单向 Tra ...

  5. 【预训练语言模型】RoBERTa: A Robustly Optimized BERT Pretraining Approach

    ·阅读摘要:   本文在BERT模型的基础上进行了一些改进,提出了RoBERTa模型,并证明了RoBERTa比BERT的效果更好一些. ·参考文献:   [1] RoBERTa: A Robustly ...

  6. RoBERTa: A Robustly Optimized BERT Pretraining Approach(通篇翻译)

    RoBERTa:一种稳健优化的BERT预训练方法 Yinhan Liu ∗ § Myle Ott ∗§ Naman Goyal ∗§ Jingfei Du ∗§ Mandar Joshi † Danq ...

  7. BERT重夺多项测试第一名,改进之后性能追上XLNet,现已开源预训练模型

    晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI NLP领域今年的竞争真可谓激烈.短短一个多月的时间,BERT又重新杀回GLUE测试排行榜第一名. 今年6月,谷歌和CMU提出的NLP模型XL ...

  8. RoBERTa中文预训练模型:RoBERTa for Chinese

    RoBERTa for Chinese, TensorFlow & PyTorch 项目主页:https://github.com/brightmart/roberta_zh 中文预训练RoB ...

  9. 深度学习实战(4)如何向BERT词汇表中添加token,新增特殊占位符

    向BERT词汇表中添加token 问题表述 添加特殊占位符号 add_special_tokens 其他占位符接口 报错与解决方案 问题表述 在实际应用或者学术科研过程中,我们常常需要添加一些特殊的占 ...

最新文章

  1. MFC中MessageBox()用法
  2. 国内哪里培训python比较好-现在哪家培训机构培训python比较靠谱?
  3. BZOJ 4221 [JOI2012春季合宿]Kangaroo (DP)
  4. ReactJS入门之JSX语法
  5. java1121123211234321_使用for 语句打印显示下列数字形式:n=4 1 1 2 1 1 2 ,使用for 语句打印显示下列数字形式:n=4...
  6. JPA的persistence.xml的使用及常见问题
  7. http协议组成(请求状态码)
  8. yum安装mysql5.7 简书_阿里云服务器(centos7.3)上安装jdk、tomcat、mysql、redis
  9. 《神经网络与深度学习》最新版!
  10. 暴力技术(一)——BFS广(宽)度优先搜索
  11. Centos7下搭建FastDFS+Nginx
  12. internet download manager补丁_NS《古树旋律》推出免费追加乐曲补丁 含五首新曲!...
  13. Android网络多线程断点续传下载
  14. 调用微博API获取微博内容
  15. 网络传输协议都有什么
  16. C++ 捕获程序异常奔溃minidump
  17. 高德地图的自动定位功能
  18. php barcode_php 生成条形码
  19. 求1-1/2+1/3-.....+1/99-1/100
  20. 软件测试基础 - 单元测试理论部分

热门文章

  1. 2022年玻璃行业研究报告
  2. P1421(洛谷)买文具
  3. 说说恶意软件吧~~Malware 分析
  4. 计算机测试工装,工装测试操作规范
  5. 【Vue】仿小米商城系统(一)
  6. JS使用定时器实现倒计时
  7. python x轴显示指定时间刻度
  8. 解决华为M2 平板前置摄像头录制视频黑屏
  9. 分享一下我的学习方法
  10. Solr核心原理倒排索引