ICML2020 | 伯克利提出大模型提升Transformer的训练和推理效率

点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★，与你不见不散

仅作分享，不代表本公众号立场，侵权联系删除

转载于：专知

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源！可打印版本附pdf下载链接

来自伯克利ICML2020的反直觉研究成果！通过增加模型尺寸来提升Transformer的训练与推理！重压缩，大模型比轻压缩，小模型获得更高的准确度。

由于硬件资源有限，深度学习模型的训练目标通常是在训练和推理的时间和内存限制下最大化准确性。在这种情况下，我们研究了模型大小的影响，关注计算受限的NLP任务的Transformer模型:自监督的预训练和高资源机器翻译。我们首先展示了，尽管较小的Transformer模型在每次迭代中执行得更快，但更广、更深入的模型在显著更少的步骤中收敛。此外，这种收敛速度通常超过了使用更大模型的额外计算开销。因此，计算效率最高的训练策略是反直觉地训练非常大的模型，但在少量迭代后停止。

这导致了大型Transformer 模型的训练效率和小型Transformer 模型的推理效率之间的明显权衡。然而，我们表明大模型比小模型在压缩技术(如量化和剪枝)方面更健壮。因此，一个人可以得到最好的两个好处: 重压缩，大模型比轻压缩，小模型获得更高的准确度。

https://www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a

https://bair.berkeley.edu/blog/2020/03/05/compress/

概述：

在当前的深度学习范式中，使用更多的计算(例如，增加模型大小、数据集大小或训练步骤)通常会导致更高的模型准确度(brock2018large;raffel2019exploring)。最近自监督预训练的成功进一步论证了这种趋势。因此，计算资源日益成为提高模型准确度的关键制约因素。这个约束导致模型训练的(通常是隐含的)目标是最大化计算效率:如何在固定的硬件和训练时间下达到最高的模型准确度。

最大化计算效率需要重新考虑关于模型训练的常见假设。特别是，有一个典型的隐式假设，即模型必须经过训练直到收敛，这使得较大的模型在有限的计算预算下显得不太可行。我们通过展示以收敛为代价来增加模型大小的机会来挑战这一假设。具体地说，我们表明，训练Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小，但很早停止训练。

在我们的实验中，我们改变了Transformer模型的宽度和深度，并在自监督的预训练(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上训练)和机器翻译(WMT14英语→法语)上评估了它们的训练时间和准确性。对于这些任务，我们首先展示了更大的模型比更小的模型在更少的梯度更新中收敛到更低的验证错误(第3节)。此外，这种收敛速度的增加超过了使用更大模型所带来的额外计算开销——计算效率最高的模型是非常大的，并且远远不能收敛(例如，图2，左)。我们还表明，收敛的加速主要是参数计数的函数，只有模型宽度、深度和批大小的微弱影响。

虽然较大的模型训练速度更快，但它们也增加了推理的计算和内存需求。这种增加的成本在现实应用中尤其成问题，推理成本占主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而，对于RoBERTa来说，这种权衡可以与压缩相协调:与小型模型相比，大型模型在压缩方面更加健壮(第4节)。因此，使用可比较的推理成本，大型重压缩的模型优于小型轻压缩的模型(例如，图2，右)。

end

这是我的私人微信，还有少量坑位，可与相关学者研究人员交流学习

目前开设有人工智能、机器学习、计算机视觉、自动驾驶（含SLAM）、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群，备注：CV联盟

王博的公众号，欢迎关注，干货多多

王博的系列手推笔记（附高清PDF下载）：

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（上）

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（下）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（上）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（下）

博士笔记 | 周志华《机器学习》手推笔记第八章（上）

博士笔记 | 周志华《机器学习》手推笔记第八章（下）

博士笔记 | 周志华《机器学习》手推笔记第九章

点个在看支持一下吧

ICML2020 | 伯克利提出大模型提升Transformer的训练和推理效率相关推荐

【自然语言处理】【大模型】Chinchilla：训练计算利用率最优的大语言模型
Chinchilla:训练计算利用率最优的大语言模型 <Training Compute-Optimal Large Language Models> 论文地址:https://arxiv ...
大模型的好伙伴，浅析推理加速引擎FasterTransformer
来自:吃果冻不吐果冻皮进NLP群->加入NLP交流群最近几个月,随着ChatGPT的现象级表现,大模型如雨后春笋般涌现.而模型推理是抽象的算法模型触达具体的实际业务的最后一公里. 但是在这个 ...
LORA大模型加速微调和训练算法
ChatGPT带领着大模型像雨后春笋一般层出不穷,大家都对大模型微调跃跃欲试,现在咱们聊聊其中的常见的算法 1 LORA 理论低秩矩阵分解(Low Rank Matrix Factorization ...
百度集团副总裁吴甜发布文心大模型最新升级，AI应用步入新阶段
11月30日,由深度学习技术与应用国家工程研究中心主办.百度飞桨承办的WAVE SUMMIT+2022深度学习开发者峰会如期举行.百度集团副总裁.深度学习技术及应用国家工程研究中心副主任吴甜带来了文心 ...
一文搞懂ChatGPT相关概念和区别：GPT、大模型、AIGC、LLM、Transformer、羊驼、LangChain…..
ChatGPT横空出世后,伴随而来的是大量AI概念,这些概念互相之间既有联系也有区别,让人一脸懵逼,近期大鱼做了GPT相关概念的辨析,特此分享给你. 1)Transformer 2)GPT 3)Ins ...
提升大模型研究应用技能：第2期前沿讲习班报名，顶尖专家面授，多角度系统培训...
人工智能研究与应用范式正经历一场剧变,越来越多的顶级团队和杰出人才纷纷加入这一变革浪潮.作为AI大模型科研先锋,智源研究院携手一批卓越的学者与工程师,致力于将尖端技术与经验传授给有潜力的学习者,通过高 ...
【大咖论道】周志华，唐杰教授等专家，站在 2022，展望大模型的未来
28 日,阿里巴巴达摩院发布 2022 十大科技趋势.其中,"大模型参数竞赛进入冷静期,大小模型将在云边端协同进化"的断言,在 AI 圈备受关注. 2021 是大模型爆发之年,我们 ...
大模型的1000+篇文章总结
大模型的1000+篇文章总结本文收集和总结了有关大模型的1000+篇文章,由于篇幅有限只能总结近期的内容,想了解更多内容可以访问:http://www.ai2news.com/, 其分享了有关AI的 ...
仅480块GPU搞出万亿参数大模型！达摩院3个月打造，出手即商用
金磊发自凹非寺量子位报道 | 公众号 QbitAI 不要6000张GPU!不要2000张TPU! 只要480,万亿参数大模型"抱回家"! 还没完,更惊艳的在后边. 同为万亿 ...

ICML2020 | 伯克利提出大模型提升Transformer的训练和推理效率

ICML2020 | 伯克利提出大模型提升Transformer的训练和推理效率相关推荐

最新文章

热门文章