1000层的Transformer，诞生了！

卖萌屋今日学术精选

大家好，我是卖萌酱。

今天下午卖萌屋作者群里一位MILA实验室的大佬在临睡前（蒙特利尔时间凌晨0点半）甩出来一篇论文：

大佬表示太困了，肝不动了，于是卖萌酱左手抄起一罐咖啡，右手接过论文就开始肝了，必须第一时间分享给卖萌屋的读者小伙伴们！

论文链接：
https://arxiv.org/pdf/2203.00555.pdf

首先，把Transformer模型训深最大的问题是什么？

耗显存？

训练慢？

都不是！最大的问题是压根就不收敛啊...

所以这篇论文最关键的贡献就是提出了一种新的Normalization方式——DeepNorm，有效解决了Transformer训练困难的问题。

其实早在2019年，就有研究者针对Transformer训练困难的问题，提出了Pre-LN来提升Transformer的训练稳定性，但是随后有人发现，Pre-LN会导致模型底层的梯度比顶层的还要大，这显然是不合理的，因此往往训练出的模型效果不如传统的Post-LN。

尽管后续也有一些补丁来试图解决这些问题，但这些既有的尝试都只能让Transformer的模型深度最多训练到几百层，始终无法突破千层的天花板。

本文提出的DeepNorm，则成功打破了这个天花板。

DeepNorm

从以上DeepNorm伪代码实现中，可以看到这确实是simple but effective的方法，作者也给出了几个不同场景下的参数经验取值。

效果层面，作者在机器翻译benchmark上做了实验：

可以看到随着模型深度从10层到100层再到1000层，机器翻译BLEU指标持续上升。

而在与前人工作的比较上，200层的DeepNet（3.2B参数量）比Facebook M2M 48层的矮胖大模型（12B参数量）有足足5个点的BLEU值提升。

此外，作者表示将来会尝试将DeepNet往更多NLP任务上迁移（包括预训练语言模型），期待DeepNet能给NLP带来下一波春天！

上期回顾：
别再双塔了！谷歌提出DSI索引，检索效果吊打双塔，零样本超BM25！

后台回复关键词【入群】

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各大顶会论文集！

1000层的Transformer，诞生了！相关推荐

Transformer深至1000层还能稳定训练，微软实习生一作，LSTM之父转发
博雯发自凹非寺量子位 | 公众号 QbitAI 近几年,随着业内"大力出奇迹"的趋势,Transformer的模型参数量也是水涨船高. 不过,当参数从数百万增加至数十亿,甚至 ...
数据结构电梯模拟 100梯1000层不限梯数
电梯模拟不限电梯数不限楼层数 100梯1000层!源码见文末电梯模拟实验要求设计思路设计要求设计实现类和对象模拟方法有限状态机电梯调度优化综合输出展示源码电梯模拟实验要 ...
前1000位粉丝的诞生
作为一个新生微博,最重要的便是积累初期的粉丝,而目前行业内常见的手段就是大量收听用户来获取一定量的反关注. 一.找到用户那么如何找到我们需要关注的大量用户呢?我在此总结了5种方式: 1.进入某个 ...
【深度学习】这千层transformer让我目瞪口呆
作者:十方见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transforme ...
DEEPNORM：千层transformer...
见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transformers to ...
怒写400篇AI文章！这群妹子卷疯了…
今天这篇文章不谈技术,给大家分享一些干货!首先来聊聊一个AI圈子里画风清奇的公众号夕小瑶的卖萌屋.公号的作者中不仅妹子居多,颜值能打,而且喜欢将学术研究和大厂业务上线中的收获与读者分享. 卖萌屋的作 ...
GAU-α：尝鲜体验快好省的下一代Attention
©PaperWeekly 原创 · 作者 | 苏剑林单位 | 追一科技研究方向 | NLP.神经网络在FLASH:可能是近来最有意思的高效Transformer设计中,我们介绍了 GAU(Gat ...
2022年3月新资讯学习日志
3月31日 BERT-as-service 时隔三年突然更新,这次连名儿都改了数据集蒸馏 by Matching Training Trajectories 大厂常考机器学习知识点总结(下) 手把手 ...

1000层的Transformer，诞生了！

1000层的Transformer，诞生了！相关推荐

最新文章

热门文章