【NLP】10000亿参数！英伟达用3072块A100训出史上最大最贵GPT！

卷友们好，我是rumor。

我直接好家伙。

午休摸鱼时打开Arxiv看每日更新，一下就被闪瞎了。

英伟达、斯坦福联合MSR，共同训出了10000亿参数的GPT，比1750亿的GPT3还高出了一个量级。

重要的是，这个训练用了3072个A100，一个售价约10万人民币，我都不敢换算。

Anyway，人穷志不穷，训不起，论文我还看不起吗？

题目：Efficient Large-Scale Language Model Training on GPU Clusters
地址：https://arxiv.org/pdf/2104.04473.pdf
代码：https://github.com/nvidia/megatron-lm

这篇论文讲了啥

这篇文章其实很工程，主要延续威震天的一些策略，继续探索了更大模型的分布式训练。

数据并行的方法很多同学都知道，就是每个worker上都加载全量模型，计算完不同数据后汇总更新。但在训练大模型的过程中，因为参数量的增多，不可避免的得进行模型并行，也就是把不同的层或者tensor放在不同机器上，这就需要server、GPU之间进行更多通讯，而由于各种原因，各种成本（比如通信时间、同步时间）都会呈几倍增长，直接影响到训练速度。

所以，如何组合各个分布式训练方法，最大化训练吞吐、同时保持训练效果是训练大模型的难点之一。

经过努力，英伟达成功地让通信速度的增长接近线性，效率比DeepSpeed框架高出不少。

遗憾的是，作者并没有展示这个语言模型的效果。

但从GPT3的成功来看，惊喜还是会有的，估计又要等到OpenAI来揭开了。

这样下去会被榨干吗

前段时间我一度觉得做更大更强的模型这条路是不可行的，一是以这种暴力方式训下去总有饱和的时候，二是即使浪费那么多资源训出来的模型在实际场景也用不上。

但我今天又有一些新的思考，虽然预见大transformer模型的表现可能会有饱和的一天，但目前并不知道这个天花板在哪里，说不定我们现在还在山脚或者山腰上，这些资金耗费巨大的预训练去探索上界还是有价值的。另外，GPT-3已经在一些场景上进行落地了，我甚至想能不能直接输入任务描述，让GPT-3给我输出一批训练数据，说不定也可以。

方向不同，各有千秋。不断突破现有模型的天花板是有价值的，做出性价比高的小模型也是有价值的。


往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑温州大学《机器学习课程》视频
本站qq群851320808，加入微信群请扫码：