1000层的Transformer,诞生了!
卖萌屋今日学术精选
大家好,我是卖萌酱。
今天下午卖萌屋作者群里一位MILA实验室的大佬在临睡前(蒙特利尔时间凌晨0点半)甩出来一篇论文:
大佬表示太困了,肝不动了,于是卖萌酱左手抄起一罐咖啡,右手接过论文就开始肝了,必须第一时间分享给卖萌屋的读者小伙伴们!
论文链接:
https://arxiv.org/pdf/2203.00555.pdf
首先,把Transformer模型训深最大的问题是什么?
耗显存?
训练慢?
都不是!最大的问题是压根就不收敛啊...
所以这篇论文最关键的贡献就是提出了一种新的Normalization方式——DeepNorm,有效解决了Transformer训练困难的问题。
其实早在2019年,就有研究者针对Transformer训练困难的问题,提出了Pre-LN来提升Transformer的训练稳定性,但是随后有人发现,Pre-LN会导致模型底层的梯度比顶层的还要大,这显然是不合理的,因此往往训练出的模型效果不如传统的Post-LN。
尽管后续也有一些补丁来试图解决这些问题,但这些既有的尝试都只能让Transformer的模型深度最多训练到几百层,始终无法突破千层的天花板。
本文提出的DeepNorm,则成功打破了这个天花板。
从以上DeepNorm伪代码实现中,可以看到这确实是simple but effective的方法,作者也给出了几个不同场景下的参数经验取值。
效果层面,作者在机器翻译benchmark上做了实验:
可以看到随着模型深度从10层到100层再到1000层,机器翻译BLEU指标持续上升。
而在与前人工作的比较上,200层的DeepNet(3.2B参数量)比Facebook M2M 48层的矮胖大模型(12B参数量)有足足5个点的BLEU值提升。
此外,作者表示将来会尝试将DeepNet往更多NLP任务上迁移(包括预训练语言模型),期待DeepNet能给NLP带来下一波春天!
上期回顾:
别再双塔了!谷歌提出DSI索引,检索效果吊打双塔,零样本超BM25!
后台回复关键词【入群】
加入卖萌屋NLP/IR/Rec与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各大顶会论文集!
1000层的Transformer,诞生了!相关推荐
- 训练1000层的Transformer究竟有什么困难?
©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 追一科技 研究方向 | NLP.神经网络 众所周知,现在的 Transformer 越做越大,但这个"大"通常是&q ...
- Transformer深至1000层还能稳定训练,微软实习生一作,LSTM之父转发
博雯 发自 凹非寺 量子位 | 公众号 QbitAI 近几年,随着业内"大力出奇迹"的趋势,Transformer的模型参数量也是水涨船高. 不过,当参数从数百万增加至数十亿,甚至 ...
- 数据结构电梯模拟 100梯1000层 不限梯数
电梯模拟 不限电梯数 不限楼层数 100梯1000层!源码见文末 电梯模拟 实验要求 设计思路 设计要求 设计实现 类和对象 模拟方法 有限状态机 电梯调度优化 综合 输出展示 源码 电梯模拟 实验要 ...
- 前1000位粉丝的诞生
作为一个新生微博,最重要的便是积累初期的粉丝,而目前行业内常见的手段就是大量收听用户来获取一定量的反关注. 一.找到用户 那么如何找到我们需要关注的大量用户呢?我在此总结了5种方式: 1.进入某个 ...
- 【深度学习】这千层transformer让我目瞪口呆
作者:十方 见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transforme ...
- DEEPNORM:千层transformer...
见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transformers to ...
- 怒写400篇AI文章!这群妹子卷疯了…
今天这篇文章不谈技术,给大家分享一些干货!首先来聊聊一个AI圈子里画风清奇的公众号 夕小瑶的卖萌屋.公号的作者中不仅妹子居多,颜值能打,而且喜欢将学术研究和大厂业务上线中的收获与读者分享. 卖萌屋的作 ...
- GAU-α:尝鲜体验快好省的下一代Attention
©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 追一科技 研究方向 | NLP.神经网络 在FLASH:可能是近来最有意思的高效Transformer设计中,我们介绍了 GAU(Gat ...
- 2022年3月新资讯学习日志
3月31日 BERT-as-service 时隔三年突然更新,这次连名儿都改了 数据集蒸馏 by Matching Training Trajectories 大厂常考机器学习知识点总结(下) 手把手 ...
最新文章
- linux卸载kodi,如何在Ubuntu上安装Kodi 18 Beta
- linux编译项目的命令,Linux用make指令编译进度条程序
- vivado烧写FPGA速度调节
- Linux 临时表空间满了,Temporary表空间100%解决方案
- 前端 PDFObject.embed预览PDF,另类方式隐藏工具条样例
- 超大图上的节点表征学习
- centos mysql 主从_CentOS 搭建 MySql 主从备份
- 软件工程师安德烈·梅萨加冕 2021 世界小姐冠军
- sql server期中综合练习
- 欢迎使用CSDN-markdown编辑器,以及markdown的使用说明
- windows必备的驱动软件推荐
- VMware Esxi 下载地址
- stm32VC调试psam卡遇到的问题以及解决
- 立法保障交通权 日本交通政策基本法是如何制定的?
- 容易被误解的inline
- “好奇号”火星探测器正在利用AI自主寻找探测目标
- 度小满数据开发面试真题2
- 基于Vue+SpringCloudAlibaba微服务电商项目实战-商品服务-015:亿万级别商品详情页面实现动态优化
- 10款网站后台管理系统模板_bootstrap网站后台模板_html后台模板下载(二)
- can总线短距离不用双绞线_电磁干扰很严重,如何提高CAN总线电磁兼容性
热门文章
- centos安装Python2.7
- 实现一个简单的web服务器
- (译)Windows Azure的7月更新:SQL数据库,流量管理,自动缩放,虚拟机
- [原创]FineUI秘密花园(二十一) — 表格之动态创建列
- select()函数以及FD_ZERO、FD_SET、FD_CLR、FD_ISSET
- TCP如何保证可靠性
- 终于有人将进程间通信讲明白了
- 操作系统,你搞定了没?
- 学习,一定是脱“贫”致富的捷径
- string contains不区分大小写_String基础复习