卖萌屋今日学术精选

大家好,我是卖萌酱。

今天下午卖萌屋作者群里一位MILA实验室的大佬在临睡前(蒙特利尔时间凌晨0点半)甩出来一篇论文:

大佬表示太困了,肝不动了,于是卖萌酱左手抄起一罐咖啡,右手接过论文就开始肝了,必须第一时间分享给卖萌屋的读者小伙伴们!

论文链接:
https://arxiv.org/pdf/2203.00555.pdf

首先,把Transformer模型训深最大的问题是什么?

耗显存?

训练慢?

都不是!最大的问题是压根就不收敛啊...

所以这篇论文最关键的贡献就是提出了一种新的Normalization方式——DeepNorm,有效解决了Transformer训练困难的问题。

其实早在2019年,就有研究者针对Transformer训练困难的问题,提出了Pre-LN来提升Transformer的训练稳定性,但是随后有人发现,Pre-LN会导致模型底层的梯度比顶层的还要大,这显然是不合理的,因此往往训练出的模型效果不如传统的Post-LN。

尽管后续也有一些补丁来试图解决这些问题,但这些既有的尝试都只能让Transformer的模型深度最多训练到几百层,始终无法突破千层的天花板。

本文提出的DeepNorm,则成功打破了这个天花板。

DeepNorm

从以上DeepNorm伪代码实现中,可以看到这确实是simple but effective的方法,作者也给出了几个不同场景下的参数经验取值。

效果层面,作者在机器翻译benchmark上做了实验:

可以看到随着模型深度从10层到100层再到1000层,机器翻译BLEU指标持续上升。

而在与前人工作的比较上,200层的DeepNet(3.2B参数量)比Facebook M2M 48层的矮胖大模型(12B参数量)有足足5个点的BLEU值提升。

此外,作者表示将来会尝试将DeepNet往更多NLP任务上迁移(包括预训练语言模型),期待DeepNet能给NLP带来下一波春天!

上期回顾:
别再双塔了!谷歌提出DSI索引,检索效果吊打双塔,零样本超BM25!

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

1000层的Transformer,诞生了!相关推荐

  1. 训练1000层的Transformer究竟有什么困难?

    ©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 追一科技 研究方向 | NLP.神经网络 众所周知,现在的 Transformer 越做越大,但这个"大"通常是&q ...

  2. Transformer深至1000层还能稳定训练,微软实习生一作,LSTM之父转发

    博雯 发自 凹非寺 量子位 | 公众号 QbitAI 近几年,随着业内"大力出奇迹"的趋势,Transformer的模型参数量也是水涨船高. 不过,当参数从数百万增加至数十亿,甚至 ...

  3. 数据结构电梯模拟 100梯1000层 不限梯数

    电梯模拟 不限电梯数 不限楼层数 100梯1000层!源码见文末 电梯模拟 实验要求 设计思路 设计要求 设计实现 类和对象 模拟方法 有限状态机 电梯调度优化 综合 输出展示 源码 电梯模拟 实验要 ...

  4. 前1000位粉丝的诞生

    作为一个新生微博,最重要的便是积累初期的粉丝,而目前行业内常见的手段就是大量收听用户来获取一定量的反关注.   一.找到用户 那么如何找到我们需要关注的大量用户呢?我在此总结了5种方式: 1.进入某个 ...

  5. 【深度学习】这千层transformer让我目瞪口呆

    作者:十方 见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transforme ...

  6. DEEPNORM:千层transformer...

    见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transformers to ...

  7. 怒写400篇AI文章!这群妹子卷疯了…

    今天这篇文章不谈技术,给大家分享一些干货!首先来聊聊一个AI圈子里画风清奇的公众号 夕小瑶的卖萌屋.公号的作者中不仅妹子居多,颜值能打,而且喜欢将学术研究和大厂业务上线中的收获与读者分享. 卖萌屋的作 ...

  8. GAU-α:尝鲜体验快好省的下一代Attention

    ©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 追一科技 研究方向 | NLP.神经网络 在FLASH:可能是近来最有意思的高效Transformer设计中,我们介绍了 GAU(Gat ...

  9. 2022年3月新资讯学习日志

    3月31日 BERT-as-service 时隔三年突然更新,这次连名儿都改了 数据集蒸馏 by Matching Training Trajectories 大厂常考机器学习知识点总结(下) 手把手 ...

最新文章

  1. linux卸载kodi,如何在Ubuntu上安装Kodi 18 Beta
  2. linux编译项目的命令,Linux用make指令编译进度条程序
  3. vivado烧写FPGA速度调节
  4. Linux 临时表空间满了,Temporary表空间100%解决方案
  5. 前端 PDFObject.embed预览PDF,另类方式隐藏工具条样例
  6. 超大图上的节点表征学习
  7. centos mysql 主从_CentOS 搭建 MySql 主从备份
  8. 软件工程师安德烈·梅萨加冕 2021 世界小姐冠军
  9. sql server期中综合练习
  10. 欢迎使用CSDN-markdown编辑器,以及markdown的使用说明
  11. windows必备的驱动软件推荐
  12. VMware Esxi 下载地址
  13. stm32VC调试psam卡遇到的问题以及解决
  14. 立法保障交通权 日本交通政策基本法是如何制定的?
  15. 容易被误解的inline
  16. “好奇号”火星探测器正在利用AI自主寻找探测目标
  17. 度小满数据开发面试真题2
  18. 基于Vue+SpringCloudAlibaba微服务电商项目实战-商品服务-015:亿万级别商品详情页面实现动态优化
  19. 10款网站后台管理系统模板_bootstrap网站后台模板_html后台模板下载(二)
  20. can总线短距离不用双绞线_电磁干扰很严重,如何提高CAN总线电磁兼容性

热门文章

  1. centos安装Python2.7
  2. 实现一个简单的web服务器
  3. (译)Windows Azure的7月更新:SQL数据库,流量管理,自动缩放,虚拟机
  4. [原创]FineUI秘密花园(二十一) — 表格之动态创建列
  5. select()函数以及FD_ZERO、FD_SET、FD_CLR、FD_ISSET
  6. TCP如何保证可靠性
  7. 终于有人将进程间通信讲明白了
  8. 操作系统,你搞定了没?
  9. 学习,一定是脱“贫”致富的捷径
  10. string contains不区分大小写_String基础复习