ICML2020 | 伯克利提出大模型提升Transformer的训练和推理效率
点上方蓝字计算机视觉联盟获取更多干货
在右上方 ··· 设为星标 ★,与你不见不散
仅作分享,不代表本公众号立场,侵权联系删除
转载于:专知
AI博士笔记系列推荐
周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接
来自伯克利ICML2020的反直觉研究成果!通过增加模型尺寸来提升Transformer的训练与推理!重压缩,大模型比轻压缩,小模型获得更高的准确度。
由于硬件资源有限,深度学习模型的训练目标通常是在训练和推理的时间和内存限制下最大化准确性。在这种情况下,我们研究了模型大小的影响,关注计算受限的NLP任务的Transformer模型:自监督的预训练和高资源机器翻译。我们首先展示了,尽管较小的Transformer模型在每次迭代中执行得更快,但更广、更深入的模型在显著更少的步骤中收敛。此外,这种收敛速度通常超过了使用更大模型的额外计算开销。因此,计算效率最高的训练策略是反直觉地训练非常大的模型,但在少量迭代后停止。
这导致了大型Transformer 模型的训练效率和小型Transformer 模型的推理效率之间的明显权衡。然而,我们表明大模型比小模型在压缩技术(如量化和剪枝)方面更健壮。因此,一个人可以得到最好的两个好处: 重压缩,大模型比轻压缩,小模型获得更高的准确度。
https://www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a
https://bair.berkeley.edu/blog/2020/03/05/compress/
概述:
在当前的深度学习范式中,使用更多的计算(例如,增加模型大小、数据集大小或训练步骤)通常会导致更高的模型准确度(brock2018large;raffel2019exploring)。最近自监督预训练的成功进一步论证了这种趋势。因此,计算资源日益成为提高模型准确度的关键制约因素。这个约束导致模型训练的(通常是隐含的)目标是最大化计算效率:如何在固定的硬件和训练时间下达到最高的模型准确度。
最大化计算效率需要重新考虑关于模型训练的常见假设。特别是,有一个典型的隐式假设,即模型必须经过训练直到收敛,这使得较大的模型在有限的计算预算下显得不太可行。我们通过展示以收敛为代价来增加模型大小的机会来挑战这一假设。具体地说,我们表明,训练Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止训练。
在我们的实验中,我们改变了Transformer模型的宽度和深度,并在自监督的预训练(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上训练)和机器翻译(WMT14英语→法语)上评估了它们的训练时间和准确性。对于这些任务,我们首先展示了更大的模型比更小的模型在更少的梯度更新中收敛到更低的验证错误(第3节)。此外,这种收敛速度的增加超过了使用更大模型所带来的额外计算开销——计算效率最高的模型是非常大的,并且远远不能收敛(例如,图2,左)。我们还表明,收敛的加速主要是参数计数的函数,只有模型宽度、深度和批大小的微弱影响。
虽然较大的模型训练速度更快,但它们也增加了推理的计算和内存需求。这种增加的成本在现实应用中尤其成问题,推理成本占主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,对于RoBERTa来说,这种权衡可以与压缩相协调:与小型模型相比,大型模型在压缩方面更加健壮(第4节)。因此,使用可比较的推理成本,大型重压缩的模型优于小型轻压缩的模型(例如,图2,右)。
end
这是我的私人微信,还有少量坑位,可与相关学者研究人员交流学习
目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟
王博的公众号,欢迎关注,干货多多
王博的系列手推笔记(附高清PDF下载):
博士笔记 | 周志华《机器学习》手推笔记第一章思维导图
博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”
博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”
博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”
博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”
博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)
博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)
博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)
博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)
博士笔记 | 周志华《机器学习》手推笔记第八章(上)
博士笔记 | 周志华《机器学习》手推笔记第八章(下)
博士笔记 | 周志华《机器学习》手推笔记第九章
点个在看支持一下吧
ICML2020 | 伯克利提出大模型提升Transformer的训练和推理效率相关推荐
- 【自然语言处理】【大模型】Chinchilla:训练计算利用率最优的大语言模型
Chinchilla:训练计算利用率最优的大语言模型 <Training Compute-Optimal Large Language Models> 论文地址:https://arxiv ...
- 大模型的好伙伴,浅析推理加速引擎FasterTransformer
来自:吃果冻不吐果冻皮 进NLP群->加入NLP交流群 最近几个月,随着ChatGPT的现象级表现,大模型如雨后春笋般涌现.而模型推理是抽象的算法模型触达具体的实际业务的最后一公里. 但是在这个 ...
- LORA大模型加速微调和训练算法
ChatGPT带领着大模型像雨后春笋一般层出不穷,大家都对大模型微调跃跃欲试,现在咱们聊聊其中的常见的算法 1 LORA 理论 低秩矩阵分解(Low Rank Matrix Factorization ...
- 百度集团副总裁吴甜发布文心大模型最新升级,AI应用步入新阶段
11月30日,由深度学习技术与应用国家工程研究中心主办.百度飞桨承办的WAVE SUMMIT+2022深度学习开发者峰会如期举行.百度集团副总裁.深度学习技术及应用国家工程研究中心副主任吴甜带来了文心 ...
- 一文搞懂ChatGPT相关概念和区别:GPT、大模型、AIGC、LLM、Transformer、羊驼、LangChain…..
ChatGPT横空出世后,伴随而来的是大量AI概念,这些概念互相之间既有联系也有区别,让人一脸懵逼,近期大鱼做了GPT相关概念的辨析,特此分享给你. 1)Transformer 2)GPT 3)Ins ...
- 提升大模型研究应用技能:第2期前沿讲习班报名,顶尖专家面授,多角度系统培训...
人工智能研究与应用范式正经历一场剧变,越来越多的顶级团队和杰出人才纷纷加入这一变革浪潮.作为AI大模型科研先锋,智源研究院携手一批卓越的学者与工程师,致力于将尖端技术与经验传授给有潜力的学习者,通过高 ...
- 【大咖论道】周志华,唐杰教授等专家,站在 2022,展望大模型的未来
28 日,阿里巴巴达摩院发布 2022 十大科技趋势.其中,"大模型参数竞赛进入冷静期,大小模型将在云边端协同进化"的断言,在 AI 圈备受关注. 2021 是大模型爆发之年,我们 ...
- 大模型的1000+篇文章总结
大模型的1000+篇文章总结 本文收集和总结了有关大模型的1000+篇文章,由于篇幅有限只能总结近期的内容,想了解更多内容可以访问:http://www.ai2news.com/, 其分享了有关AI的 ...
- 仅480块GPU搞出万亿参数大模型!达摩院3个月打造,出手即商用
金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 不要6000张GPU!不要2000张TPU! 只要480,万亿参数大模型"抱回家"! 还没完,更惊艳的在后边. 同为万亿 ...
最新文章
- cytoscape插件bingo使用
- git 基本命令记录
- 呼叫我或异步REST
- 发送邮件 的类 C# .net
- 数据库运作实践三三之歌(秘制口诀)
- python控制流代码怎么用_Python-11:Python语法基础-控制流
- 合成PDF(多文件变一文件、多页变一页)
- 思科计算机网络技术第一章,cisco思科网络技术教程第一章.ppt
- qq互联android sdk,QQ互联API列表 - YangJunwei
- 支持ECSHOP 2.73手机客户端
- 微信公众平台开发入门教程[2020版]
- 直播延时是如何产生的?4G摄像头无插件播放视频流媒体服务器EasyDSS超低延时直播的实现方案
- 有趣的设计模式——从一杯奶茶品味装饰模式
- java计算机毕业设计高校教学资源库设计与实现---源码+mysql数据库+系统+lw文档+部署
- 交通预测论文翻译:Deep Learning on Traffic Prediction: Methods,Analysis and Future Directions
- python 图像识别实现四川麻将回放牌面数据
- 题目4:常微分方程初值问题
- seo图片优化-详解alt标签的使用方法
- 最全的在线生成网址二维码的API接口(已更新12个接口)
- 内容超出div,设置滚动条
热门文章
- nuke无法理解服务器的响应,cuke4nuke服务器没有重新开始
- qcalendarwidget只显示月_万家基金旗下26只产品规模迷你 万家精选重仓地产股年内收益排名靠后丨基金...
- unity shader入门精要_Unity Shader 入门(一):渲染流水线
- java调用android_Java及Android中常用链式调用写法简单示例
- python 随机数_python 随机数
- sonarqube代码检核工具安装
- html5 mask,HTML5 Canvas渐进填充与透明实现图像的Mask效果
- 编码的奥秘txt_各学科最佳入门丛书推荐
- 80网口打印机ip固定工具_打印机网络打印
- linux网络编程客户端,Linux网络编程入门