点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

5300亿参数!全球最大规模NLP模型诞生。

微软联手英伟达推出,名叫威震天-图灵自然语言生成模型(Megatron Turing-NLG)。

据他们介绍,这样的量级不仅让它成为全球规模最大,同时也是性能最强的NLP模型。

训练过程一共使用了4480块英伟达A100 GPU,最终使该模型在一系列自然语言任务中——包括文本预测、阅读理解、常识推理、自然语言推理、词义消歧——都获得了前所未有的准确率。

三倍规模于GPT-3

此模型简称MT-NLG,是微软Turing NLG和英伟达Megatron-LM两者的“继任者”。

Turing NLG由微软于2020年2月推出,参数为170亿;Megatron-LM来自英伟达,2019年8月推出,参数83亿。

它俩在当时分别是第一、二大规模的Transfomer架构模型。

我们都知道大参数规模的语言模型效果会更好,但训练起来也很有挑战性,比如:

  • 即使是最大容量的GPU,也存不下如此规模的参数;

  • 如果不特别注意优化算法、软件和硬件堆栈,那么所需的大量计算操作可能会导致训练时间过长。

那这个参数已是GPT-3三倍的MT-NLG又是如何解决的呢?

答案就是汲取“两家”所长,融合英伟达最先进的GPU加速训练设备,以及微软最先进的分布式学习系统,来提高训练速度。

并用上千亿个token构建语料库,共同开发训练方法来优化效率和稳定性。

具体来说,通过借鉴英伟达Megatron-LM模型的GPU并行处理,以及微软开源的分布式训练框架DeepSpeed,创建3D并行系统。

对于本文中这个5300亿个参数的模型,每个模型副本跨越280个NVIDIA A100 GPU,节点内采用Megatron-LM的8路张量切片(tensor-slicing),节点间采用35路管道并行(pipeline parallelism)。

然后再使用DeepSpeed的数据并行性进一步扩展到数千个GPU。

最终在基于NVIDIA DGX SuperPOD的Selene超级计算机上完成混合精度训练。

(该超级计算机由560个DGX A100服务器提供支持,每个DGX A100有8个 NVIDIA A100 80GB Tensor Core GPU,通过NVLink 和 NVSwitch相互完全连接)。

该模型使用了Transformer解码器的架构,层数、hidden dimension和attention head分别为 105、20480和128。

训练所用数据集包括近20万本书的纯文本数据集Books3、问答网站Stack Exchange、维基百科、学术资源网站PubMed Abstracts、ArXiv、维基百科、GitHub等等,这些都是从他们先前搭建的Pile数据集中挑出的质量较高的子集。

最终一共提取了2700亿个token。

五大任务上的准确度测试

开发者在以下5大任务上对MT-NLG进行了准确度测试。

  • 在文本预测任务LAMBADA中,该模型需预测给定段落的最后一个词。

  • 在阅读理解任务RACE-h和BoolQ中,模型需根据给定的段落生成问题的答案。

  • 在常识推理任务PiQA、HellaSwag和Winogrande中,每个任务都需要该模型具有一定程度的常识了解。

  • 对于自然语言推理,两个硬基准,ANLI-R2和HANS考验先前模型的典型失败案例。

  • 词义消歧任务WiC需该模型从上下文对多义词进行理解。

结果该模型在PiQA开发集和LAMBADA测试集上的零样本、单样本和少样本三种设置中都获得了最高的成绩。

在其他各项任务上也获得了最佳。

除了报告基准任务的汇总指标外,他们还对模型输出进行了定性分析,并观察到,即使符号被严重混淆,该模型也可以从上下文中推断出基本的数学运算。

当然,该模型也从数据中也提取出了刻板印象和偏见。微软和英伟达表示也在解决这个问题。

另外,他们表示在生产场景中使用MT-NLG都必须遵守微软的“负责任的AI原则”来减少输出内容的负面影响,但目前该模型还未公开。

参考链接:

https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

点个在看 paper不断!

5300亿NLP模型“威震天-图灵”发布,由4480块A100训练,微软英伟达联合出品相关推荐

  1. 5300亿参数,SOTA屠榜!最大NLP预训练模型新王登基,微软英伟达联手称霸

    来自:新智元 [导读]微软和英伟达联合发布了迄今为止最大.最强的人工智能语言模型:Megatron-Turing自然语言生成模型(MT-NLG).其包含5300亿个参数,在一系列自然语言任务包括阅读理 ...

  2. 最新3D GAN可生成三维几何数据了!模型速度提升7倍,英伟达斯坦福出品

    明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2D图片变3D,还能给出3D几何数据? 英伟达和斯坦福大学联合推出的这个GAN,真是刷新了3D GAN的新高度. 而且生成画质也更高,视角随 ...

  3. 英伟达新核弹GPU:4nm制程800亿晶体管,20张即可承载全球互联网流量,全新Hopper架构太炸了...

    丰色 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 他来了他来了,老黄带着英伟达的最新一代GPU来了. 之前大家猜的5nm错了,一手大惊喜,老黄直接上了台积电4nm工艺. 新卡取名H100,采 ...

  4. 英伟达日入2.3亿净赚8千万,挖矿业务断崖跳水,老黄喊话马斯克

    夏乙 千平 发自 凹非寺 量子位 出品 | 公众号 QbitAI 英伟达的赚钱能力,同比又创了新高. 刚刚,这家公司发布了第二季度财务报告.简单来说,英伟达在第二财季每天的收入达到2.3亿元,净利润同 ...

  5. 英伟达发布全球最大GPU:性能提升10倍,售价250万

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 英伟达的新杀器又来了. 刚刚,在GTC 2018大会上,黄仁勋发布全球最大GPU. 他说的是DGX-2. DGX-2能够实现每秒2千万亿次浮 ...

  6. AI算力霸主诞生!英伟达发布首款安培架构GPU,性能提升20倍

    来源:雷锋网 由于疫情缘故,本该在今年3月英伟达(NVIDIA)GTC 2020上发布的安培(Ampere)架构曝光多次却一直未发布. 5月15日,英伟达CEO黄仁勋发布了英伟达新一代GPU架构安培, ...

  7. 磨刀霍霍向Gamer 老黄发布英伟达甜点级显卡RTX 2060...

    雷锋网消息,CES前夕,英伟达发布了基于图灵架构的显卡GeForce RTX 2060,英伟达CEO黄仁勋表示,"桌面游戏玩家要求很高,RTX 2060设定了新标准 - 无与伦比的价格,非凡 ...

  8. 磨刀霍霍向Gamer 老黄发布英伟达甜点级显卡RTX 2060

    雷锋网消息,CES前夕,英伟达发布了基于图灵架构的显卡GeForce RTX 2060,英伟达CEO黄仁勋表示,"桌面游戏玩家要求很高,RTX 2060设定了新标准 - 无与伦比的价格,非凡 ...

  9. AI一分钟 | 英伟达发布Tesla T4 GPU新品;腾讯发布《2018 年全球自动驾驶法律政策研究报告》...

    ▌英伟达宣布 Tesla T4 GPU 新品:基于图灵架构,加速 AI 运算 近日,英伟达发布了一款专为 AI 推理工作而设计的显卡,它就是可以加速语音.视频.搜索引擎.图像神经网络的 Tesla T ...

最新文章

  1. android jar 电子书下载,【Android】Gradle project sync jar包长时间下载不下来的解决办法...
  2. 9个必知的 Python 操作文件/文件夹方法
  3. R构建幂回归模型(Power Regression)
  4. class没有发布到tomcat_基于Tomcat的Websocket范例及permessage-deflate扩展特性的研究
  5. 单元测试框架之unittest(一)
  6. Keepalived配置日志文件
  7. 游戏中用到的设计模式
  8. java mail发送邮件(单发和群发)
  9. 评论:Arun Gupta撰写的“ Java EE 6 Pocket Guide”
  10. linux安装mysql启动失败的原因_爱在linux系统安装mysql启动失败如何处理?
  11. 使用 JMockit 来 mock 构造函数
  12. 怎么用计算机看,如何巧妙的查看电脑使用痕迹
  13. 7种最有效的懒人减肥方法,收藏了!
  14. 简洁优雅的.net代码赏析
  15. 【数据库--db4o 介绍】
  16. 概率论 方差公式_概率论复习:重要概念和公式
  17. 微软office办公系列软件的具体用处及办公作用说明指南
  18. 【论文评审】怎样审稿?
  19. Win10 安装loadrunner提示计算机上缺少vc2005_sp1_with_atl_fix_redist解决方法
  20. 如何写好活动方案?学会5W2H框架分析法。

热门文章

  1. INTERSECT/EXCEPT VS. IN/NOT IN
  2. Datawhale组队学习周报(第035周)
  3. 【CTF】实验吧 疑惑的汉字
  4. empress和queen区别_queen与empress
  5. 3行Python代码就能获取海量数据?
  6. 赠书 | 新手指南——如何通过HuggingFace Transformer整合表格数据
  7. MaskFlownet:基于可学习遮挡掩模的非对称特征匹配丨CVPR 2020
  8. 网易有道周枫:AI正带来革命性变化,但在线教育的核心是内容
  9. AI一分钟 | 科大讯飞2017年度财报:营收54.45亿元,净利润4.35亿元;滴滴首谈无人驾驶战略:只做软件不造车
  10. 在看不见的地方,AI正在7×24为你在线服务