边策 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

AI硬(he)件(dan)厂商英伟达今天宣布,他们在NLP模型上取得了三大突破,为今后会话AI的落地应用铺平了道路。

英伟达用自己的硬件与并行计算软件相结合,在BERT模型的训练和推理上创下三项世界纪录:

  1. 最快的BERT训练速度,只需53分钟

  2. 最快的BERT推理速度,只需2.2ms

  3. 最大的BERT模型,包含83亿参数

今年以来,NLP领域的“军备竞赛”越来越激烈。基于Transformer架构的模型,如谷歌的XLNet和Facebook的RoBERTa,在GLUE、SQuAD这些基准测试榜单头名争夺中你方唱罢我登场。

两大公司为了刷榜的消耗了大量的时间和计算资源。为了提高BERT的训练速度,谷歌堆上了1024块TPU,用76分钟训练出了BERT模型。Facebook用上了1024个英伟达V100 GPU。

英伟达也不甘示弱,用1472个V100 GPU首次实现在一个小时之内训练完BERT模型。

英伟达表示,这项研究能够帮助企业使用实时会话AI更自然地与客户互动,帮助开发人员将最先进的NLP模型大规模部署在应用程序中。

最大的BERT模型

英伟达使用了92个DGX-2H节点、1,472个V100 GPU的DGX SuperPOD系统来训练BERT模型,将BERT-Large训练时间从几天缩短到到53分钟。

如果你觉得上面的堆硬件太过暴力,英伟达也给出更低配置下的训练速度。他们在“只有”16个V100 GPU的NVIDIA DGX-2用2.8天内训练了BERT-Large,展示了英伟达GPU对于会话AI的可扩展性。

考虑到开发人员对大型NLP模型不断增长的需求,英伟达建立并训练了世界上最大的基于Transformer的语言模型GPT-2 8B,它具有83亿个参数,是BERT-Large的24倍、GPT-2的5.6倍。

GPT-2 8B模型使用原生PyTorch进行训练,在512 GPU上有8路模型并行和的64路数据并行。实验是在DGX SuperPOD上进行的,其基准模型为12亿个参数,适用于单个V100 GPU。在单个GPU上运行此基线模型的端到端训练pipeline可实现39 TeraFLOPS的算力,这是V100 GPU的理论峰值算力的30%。

通过8路并行模型将模型扩展到512个GPU上的83亿个参数,NVIDIA团队在整个应用程序中实现了高达15.1 PetaFLOPS的持续性能,并且与基线相比达到了76%的扩展效率。

为了研究这些几十亿参数的Transformer(变形金刚)网络,英伟达还开源了Megatron(威震天)项目。

最快的推理速度

上面的推理部分太过“烧钱”,而英伟达在BERT推理上取得的进步可以让普通开发者也能用上。因为现在一些实时处理的任务也开始用上了Transformer,比如语音合成(TTS)、语音识别(ASR)。

但是Transformer在这些落地化场景中却遇到了困难。这是因为在推理部署阶段,计算性能会面临巨大的挑战。以BERT为原型的多层Transformer模型,其性能常常难以满足在线业务对于低延迟和高吞吐的要求。

于是,英伟达提出了Faster Transformer,并在GitHub上开源了代码。

Faster Transformer是一个BERT Transformer单层前向计算的高效实现,代码简洁,后续可以通过简单修改支持多种Transformer结构。

目前优化集中在编码器(encoder)的前向计算。底层由CUDA和cuBLAS实现,支持FP16和FP32两种计算模式,其中FP16可以充分利用Volta和Turing架构GPU上的张量核心单元。

英伟达使用运行TensorRT的T4 GPU,仅在2.2毫秒内就对BERT-Base SQuAD数据集进行了推理,远低于许多实时应用的10毫秒处理阈值。

英伟达测试了不同生产环境下Faster Transformer前向计算的执行时间以及与TensorFlow XLA的性能比较。

在小batch size情况下,12层Transformer在P4和T4上的性能表现如下:

固定句子长度为32,标准模型和裁剪模型在不同batch size下,12层Transformer在V100上实现了2倍的速度提升:

传送门

Megatron开源地址:
https://github.com/NVIDIA/Megatron-LM

Faster Transformer开源地址:
https://github.com/NVIDIA/DeepLearningExamples/tree/master/FasterTransformer

加入社群 | 与优秀的人交流

小程序 | 全类别AI学习教程

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

英伟达“暴力碾压”谷歌:53分钟训练完BERT,2.2毫秒完成推理,创下NLP三项新纪录...相关推荐

  1. 实测 | 英伟达A100深度学习性能:训练速度高达V100的3.5倍!

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习> ...

  2. AI芯片:寒武纪DianNao,英伟达NVDLA和谷歌TPU1的芯片运算架构对比分析

    前面几篇博客分别分析了目前市面上能够找到的各家AI芯片的结构. 下面做一个阶段性的对比分析及总结. AI芯片运算架构对比 整体来看,NVDLA的架构与寒武纪的DianNao比较像.所以,单位资源的性能 ...

  3. AI性能基准测试从此有了「中国标准」!英伟达、谷歌可以试试

    2020-11-10 15:56:02 金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在秀算力这件事上,近几年一个叫MLPerf的AI性能基准测试,经常跃入人们的视线. 为了拿这个标准证 ...

  4. AI性能基准测试从此有了「中国标准」!英伟达、谷歌可以试试这套算力卷

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在秀算力这件事上,近几年一个叫MLPerf的AI性能基准测试,经常跃入人们的视线. 为了拿这个标准证明实力,英伟达.谷歌等「算力」大厂的表现 ...

  5. 谷歌首篇电子病历论文定义了预测精度的评估指标用_AI性能基准测试从此有了中国标准!英伟达、谷歌可以试试这套算力卷...

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在秀算力这件事上,近几年一个叫MLPerf的AI性能基准测试,经常跃入人们的视线. 为了拿这个标准证明实力,英伟达.谷歌等「算力」大厂的表现 ...

  6. 谷歌查看html地址_104篇CVPR 2019论文,追踪谷歌、Facebook、英伟达研究课题

    [新智元导读]人工智能顶级会议CVPR刚刚公布了最佳论文,谷歌.Facebook和英伟达也随后公布了自家发表的论文共计104篇,本文列出了三家大厂论文的完整列表. 本周,在美国加利福尼亚州长滩举办了C ...

  7. 不可思议!英伟达新技术训练NeRF模型最快只需5秒,代码已开源

    英伟达将训练 NeRF 模型从 5 小时缩至 5 秒. 你曾想过在 5 秒内训练完成狐狸的 NeRF 模型吗?现在英伟达做到了! 令人不可思议的是,就如谷歌科学家 Jon Barron 在推特上表示的 ...

  8. 使用英伟达NeMo让你的文字会说话,零基础即可实现自然语音生成任务 | 附代码...

    语音合成技术可以将文字信息转换成标准流畅的语音且进行朗读,在公共服务.智慧交通.泛娱乐.智能硬件等领域具有广泛应用. 在第3期英伟达x量子位NLP公开课上,英伟达开发者社区经理分享了[使用NeMo让你 ...

  9. 英伟达发布全球最大GPU:性能提升10倍,售价250万

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 英伟达的新杀器又来了. 刚刚,在GTC 2018大会上,黄仁勋发布全球最大GPU. 他说的是DGX-2. DGX-2能够实现每秒2千万亿次浮 ...

最新文章

  1. R语言时间序列(time series)分析实战:霍尔特指数Holt‘s平滑法预测
  2. 使用指针输入输出一维数组
  3. Golang 优化之路-空结构[转]
  4. C#之windows桌面软件第五课:串口助手实现定时关闭设备、鼠标移动使按钮颜色变化功能
  5. 【小白学习C++ 教程】十三、C++命名空间namespace
  6. 深入理解Java虚拟机——JVM类加载机制(类加载过程和类加载器)
  7. openfeign调用服务是否需要网关_阿里新一代微服务解决方案:Spring Cloud Alibaba
  8. 软件工程的难题-解耦问题
  9. 女生中专学计算机,女生读中专哪个专业好
  10. Cocos2d-x Touch事件处理机制(better)
  11. nrf52840合成4合1烧录文件
  12. 132 个 Web 设计工具(上)
  13. unity创建一个VR项目(一)
  14. 学校学业水平测试软件,中小学生学业水平测试
  15. 【烈日炎炎战后端】Git(0.1万字)
  16. 为Visual studio 2008 添加汇编工程模板(原创)
  17. I \ Q信号、IFI \ IFQ信号、差分信号、单端信号知识总结
  18. 浅说ksm的适用范围
  19. 宗教信仰和推荐系统解决同一问题
  20. 《Elasticsearch 源码解析与优化实战》第20章:磁盘使用量优化

热门文章

  1. 【元气云妹】有趣有料的云吞铺子,来一碗吗?
  2. MVC 视图与控制器传值的几种方法
  3. start_stop_time
  4. Hadoop集群的NameNode的备份
  5. GOF对Builder模式的定义(转载)
  6. 缓存区溢出检测工具BED
  7. Xamarin iOS教程之添加和定制视图
  8. Linux的load导入语句,LOAD DATA INFILE语句导入数据进入MySQL的一些注意事项
  9. Mysql 修改 复杂的汇总_MySQL数据分析:复杂查询
  10. ascii码_umask,补码,ASCII码:稍微深入考虑一点