512张GPU炼出10万亿参数巨模型!5个月后达摩院模型再升级,今年双十一已经用上了...
点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达
博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI
超大规模的预训练模型的参数量级又双叒被刷爆了!
100000亿!
(没错,是10万亿)
而且还是用512张GPU,训练了10天搞出来的!
这就是达摩院最新推出的超大规模通用性人工智能大模型,M6-10T。
它在电商、制造业、文学艺术、科学研究等领域都有着多模态、多任务的能力,在各自现实场景的下游任务中也频频出现。
而且还能做到即开即用,你今年的双十一背后就有M6-10T的身影。
少量资源快速训练大模型
不过剁手节的事可以先放一边,问题关键是:M6-10T到底是怎么使用少量资源完成对极限规模模型的训练的?
要知道,之前微软的DeepSpeed MoE模型,也是使用了512张A100才完成了3.5万亿参数的训练。
而自家在5个月前推出的万亿级参数的M6,则是用480块GPU训练的。
所以,512张GPU怎么就放下了10万亿参数?
这就要提到达摩院自研的分布式框架Whale。
基于这一框架,M6模型可以使用粒度可控的CPU offload方法,灵活地选择offload的模型层。
也就是说,可以不用将所有的权重offload到CPU memory中,而选择保留部分权重在GPU memory上进行计算,以进一步地提高GPU利用率。
放下了参数,下一步就是提高训练效率。
M6-10T模型采用了一种叫做共享解除(Pseudo-to-Real)的新的训练策略:
这一策略分为两个阶段。
第一阶段,利用跨层参数共享机制快速构建并训练小模型Pseudo Giant。
参数少得多的Pseudo Giant不受内存的限制,因此可以用大批量训练来加速。
再配合上专家拆分和合并的机制,最终只需要使用256张GPU即可快速训练一个Pseudo Giant。
第二阶段则解除共享参数的联系,得到新的Real Giant模型。
“共享”阶段训练好的模型层的参数会为Real Giant的每一层提供初始化,大模型即可在训练好的小模型的基础上继续优化。
在下游评估中可以看到,从头开始训练Real Giant模型非常耗时,而Pseudo Giant训练的收敛速度比Real Giant训练有5倍左右的优势:
△在48个NVIDIA V100 GPU设备上训练
这一机制不仅能够使M6-10T在样本量的维度上具有更快的收敛速度,也能将模型的训练速度提升7倍以上。
而相对于之前的M6-MoE和M6-T,采用了新的训练策略的M60-10T迷惑度(perplexity)更低,模型更优越:
可以说,之前使用480GPU的万亿参数模型M6,如果采用现在的方法,那就只需要64张GPU就能完成训练。
双十一背后的模型
而除了算法层面的价值,M6-10T一经推出就能够投入使用。
比如说即将来临的双十一中,你或许就能发现这些AI设计款的衣服上架。
△基于M6设计生成的服装款式
这就是大模型带来的创造力。
在结合了StyleGAN后,M6能够在少样本情况下自动生成图像,且保持良好的细节质量和可编辑性。
而且与传统的设计款式图不同,M6生成的还是更接近实物的照片效果。
在手机淘宝和支付宝中,也会有基于M6智能生成的内容文案:
同时,大模型的多模态特征提取能力,也能进行商品属性标签补充,用于进行认知召回。
可以说,阿里巴巴内部超过40个业务团队背后,都有着基于个版本的M6模型形成的服务化平台的支撑。
而除了电商领域,还有金融、工业、传统科学等诸多应用方向。
现在,M6服务化平台以及成为了前业界覆盖最广泛的大模型生态的服务化平台。
那么未来是继续追求更大量级的模型,进行参数规模的迭代吗?
阿里达摩院M6的科研团队表示:
伴随着参数规模的扩大,当前的预训练模型在语言模型建模之类的任务上取得了不错的进展,
但对知识的理解还比较浅薄。因此,如何将大模型有效迁移到多种类型的下游任务上,让大模型真正地理解并运用知识,这将是研究人员会进一步探索的问题。
论文:
https://arxiv.org/abs/2110.03888
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
点个在看 paper不断!
512张GPU炼出10万亿参数巨模型!5个月后达摩院模型再升级,今年双十一已经用上了...相关推荐
- 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG(开放测试)...
转自:机器之心 经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关注.今日,阿里达摩院发 ...
- 270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG
作者|机器之心编辑部 来源|机器之心 经历「大炼模型」后,人工智能领域正进入「炼大模型」时代.自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后,中文领域同类模型的训练进程备受关 ...
- 今日芯声 | 2019搞笑诺贝尔奖来了!奖金获10万亿奖金的是……
"今日芯声"是读芯术推出的一档简读栏目,汇聚每日国内外最新最热的AI应用资讯,敬请关注. 1.2019搞笑诺贝尔奖揭晓:为什么树袋熊便便是方形,奖金10万亿津巴布韦币 北京时间9月 ...
- 1.6 万亿参数你怕了吗?谷歌大脑语言模型速度是 T5 速度的 7 倍
[CSDN 编者按]四个参数,我就能拟合出一个大象出来,用五个参数我就能让他的鼻子摆动 作者 | 八宝粥 责编 | 张文 头图 | CSDN 下载自视觉中国 出品 | CSDN(ID:CSDNne ...
- 1.6万亿参数你怕了吗?谷歌大脑发布语言模型 Switch Transformer,速度碾压T5
[编者按]『四个参数画大象,五个参数鼻子晃』 著名实验和理论物理学家.诺奖得主费米曾经这样引用冯诺依曼的话:"四个参数,我就能拟合出一个大象出来,用五个参数我就能让他的鼻子摆动". ...
- 阿里开源支持10万亿模型的自研分布式训练框架EPL(EasyParallelLibrary)
简介:EPL背后的技术框架是如何设计的?开发者可以怎么使用EPL?EPL未来有哪些规划?今天一起来深入了解. 作者 | 王林.飒洋 来源 | 阿里技术公众号 一 导读 最近阿里云机器学习PAI平台和达 ...
- 阿里开源支持10万亿模型的自研分布式训练框架EPL
一 导读 最近阿里云机器学习PAI平台和达摩院智能计算实验室一起发布"低碳版"巨模型M6-10T,模型参数已经从万亿跃迁到10万亿,规模远超业界此前发布的万亿级模型,成为当前全球最 ...
- 仅用 480 块 GPU 跑出万亿参数!全球首个“低碳版”巨模型 M6 来了
继今年 3 月阿里达摩院发布国内首个千亿参数多模态大模型 M6(MultiModality-to-MultiModality MultitaskMega-transformer,以下简称 M6) 之后 ...
- 仅480块GPU搞出万亿参数大模型!达摩院3个月打造,出手即商用
金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 不要6000张GPU!不要2000张TPU! 只要480,万亿参数大模型"抱回家"! 还没完,更惊艳的在后边. 同为万亿 ...
最新文章
- AX2009报表打印固定长度Barcode条码
- 如何简化Exchange 2007 OWA URL访问
- 辽宁师范大学计算机科学与技术在哪个校区,辽宁师范大学有几个校区及校区地址 哪个校区最好...
- BigData:绘制2018年福布斯中国富豪榜人根据出生地绘制个人或其家族财富分布热点图
- ? 阿里云前端工程化工具 Dawn 正式开源!
- boost::posix_time模块实现本地时间和 UTC 之间的转换的测试程序
- 11. Java基础之继承
- mysql 分数表实现排名
- ajax提交手机号去数据库验证并返回状态值
- 图的知识点总结-数据结构
- nginx tcp代理_nginx 基于tcp/udp代理
- python小人画爱心_使用Python画出小人发射爱心的代码
- 南自以太网103规约
- 清空mysql数据库所有表数据_清空数据库所有表数据mysql
- android支持u盘格式文件,安卓系统OTG支持U盘格式
- 马斯克是全人类的?他旗下有9家公司,特斯拉被评为最没技术含量
- 黑鲨重装计算机安装无法继续,黑鲨装机,小编教你黑鲨怎么安装win7
- Unity与讯飞的aiui交互
- JFinal极速开发微信公众号
- linux设备模型 —— sysfs