DeepNet :Scaling Transformers to 1000 Layer

  • Introduction
  • TL;DR for Practitioners
  • Experiment

Introduction

作者提出了一种简单且高效的方法稳定的提升了Transformer 的深度,这种方法是一种新的残差连接的方式(DeepNorm),它结合了以前的Post-LN的高表现与Pre-LN的稳定性的优点。通过这种方法作者把Transformer的层数提升了一个数量级。

作者还提到 200 层 3.2B的参数要outperform 48层12B的参数的模型 5个点。

近年来大模型是一个趋势,参数量从million 到 billion 再到 trillions。尽管有着巨大的参数,但是他们的深度都被模型性训练不稳定所制约。

作者还提到大模型训练更深层次的网络不稳定的原因可能是exploding model update,本人理解为 大量的更新参数 可能会陷入局部最优。

TL;DR for Practitioners


上述图片为deepnorm的伪代码,其中以Post-LN为基础,给 x 加一个alpha权重,然后对ffn,v_projection, out_projection 与 q_projection 和k_projection分别采用不同的初始化方法,区别是gain参数,其中gain参数为一个可选的比例因子。

alpha 与beta的选择参考如下:

N-layer encoder, M-layer decoder

Experiment

DeepNet :Scaling Transformers to 1000 Layer相关推荐

  1. 【深度学习】这千层transformer让我目瞪口呆

    作者:十方 见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transforme ...

  2. DEEPNORM:千层transformer...

    见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transformers to ...

  3. 训练1000层的Transformer究竟有什么困难?

    ©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 追一科技 研究方向 | NLP.神经网络 众所周知,现在的 Transformer 越做越大,但这个"大"通常是&q ...

  4. 《预训练周刊》第39期: 深度模型、提示学习

    No.39 智源社区 预训练组 预 训 练 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...

  5. LLMs模型速览(GPTs、LaMDA、GLM/ChatGLM、PaLM/Flan-PaLM、BLOOM、LLaMA、Alpaca)

    文章目录 一. GPT系列 1.1 GPTs(OpenAI,2018--2020) 1.2 InstructGPT(2022-3) 1.2.1 算法 1.2.2 损失函数 1.3 ChatGPT(20 ...

  6. Layer 2:公链本就不该追求性能 |链捕手

    经历了两年时间,区块链行业从无到有出现了数十个.上百个不同设计的 Layer 2 项目,而大部分人对 Layer 2 的认识仅仅就是「扩容方案」那般可有可无. 为什么公链就是性能那么低?为什么我们觉得 ...

  7. AIGC之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

    AIGC之LLaMA:<LLaMA: Open and Efficient Foundation Language Models>翻译与解读 导读:该论文提出了一个开源的大规模语言模型LL ...

  8. Caffe中对MNIST执行train操作执行流程解析

    之前在 http://blog.csdn.net/fengbingchun/article/details/49849225 中简单介绍过使用Caffe train MNIST的文章,当时只是仿照ca ...

  9. TensorFlow人工智能引擎入门教程之十 最强网络 RSNN深度残差网络 平均准确率96-99%

    摘要: 这一章节我们讲一下 RSNN深度残差网络 ,他准确率非常好,比CNN还要高.而且非常新 出现在2015 residual network http://blog.csdn.net/sunbai ...

最新文章

  1. 在听伏尔加纤夫曲 超酷
  2. Java API —— Map接口
  3. sql相同顺序法和一次封锁法_率土之滨追击战法攻略
  4. mysql解释中fitered_MySQL的explain中的参数说明
  5. META-INF目录是干啥用的?
  6. 信息学奥赛一本通 2064:【例2.1】交换值
  7. 重排列(51Nod-2513)
  8. opencv打开pb_NSFW-Score: OpenCV读取pb转化的ONNX模型时报错
  9. Linux内核网络协议栈3-创建socket(1)
  10. 当鼠标移入时切换背景图时闪烁的问题
  11. Maven学习总结(46)——Maven跳过单元测试的两种方法及其区别(-Dmaven.test.skip=true与-DskipTests)
  12. python剑指offer替换空格_《剑指Offer》字符串 替换空格
  13. java 静态方法的使用_java的静态方法的使用
  14. tensorflow之regularizer
  15. java 观察者模式_观察者模式(Observer Pattern)
  16. 测试工程师如何薪资过万
  17. 生成密钥、配送密钥和更新密钥
  18. 使用Nginx反向代理豆瓣Api电影接口(解决微信小程序频繁调用api被关小黑屋)
  19. swagger换新UI
  20. js 删除数组元素。

热门文章

  1. 1142:单词的长度c语言解法
  2. nacos2.X集群错误:com.alibaba.nacos.shaded.io.grpc.StatusRuntimeException: UNAVAILABLE: io exception
  3. 计算机接口电路的种类,接口电路的分类_接口电路的功能_接口电路的作用是什么...
  4. nlp, ml, 学习书单
  5. 韩顺平--IO流专题
  6. 无法在已有的 xxxxxxx“上还原文件 zzz。请重新发出 RESTORE 语句,用 WITH REPLACE 来覆盖原先存在的文件
  7. 办公系统租用云主机建站用云主机
  8. 八核版三星Galaxy S4(I9500)root教程
  9. 单选/复选框中点击文字能选择该选项
  10. 使用单选框、复选框,让用户选择