周一,黄教主又很淡定的在自家厨房里开完了GTC发布会。

众所周知,NLP领域的模型一个比一个大,自从百亿参数的Google T5出来后,大部分AI研究者只能望着手里的蹩脚算力兴叹。如今动辄就是千亿、万亿参数模型,目前比较流行的V100主机显然已经无法满足需求。而本周刚落幕的GTC发布会,则为如今的万亿模型想象力的时代提供了一份极其重要的保障,不仅使得造万亿模型都成为了可能,甚至打开了通往十万亿乃至更大想象力算力密集型AI模型之路的潘多拉魔盒。 这其中的关键,就是在本届GTC大会上全新升级的 DGX SuperPOD 。

为AI而生的超算

首先用一张图来类比DGX SuperPOD、DGX A100以及A100计算卡之间的关系:

DGX SuperPOD是专门为AI量身定制的大规模、安全、可扩展的超级计算机,不仅在整个企业范围内保护和扩展AI算力,并且还提供相关的配套软件来完成集群操作,帮助企业开发者更好的调度和管理算力。

如今人工智能已经几乎渗透到现代商业的方方面面,相应的,模型训练对算力的渴求也以持续呈指数级增长,并且远远未到边界。尤其是在自然语言处理、推荐系统和生物计算等AI核心业务应用上,动辄千亿、甚至万亿级别参数量的模型已经成为了当下的热门研究方向。

另一方面,随着AI对全领域的渗透,互联网公司也在谋求一种更加安全、便捷、大规模、可扩展、数据可隔离的集群式解决方案,从而为全公司的诸多业务和研究团队提供服务,以支持不断变化的项目需求和算力需求。

而DGX SuperPOD恰到好处的满足了这份想象力。

2019年,英伟达基于多台DGX系统构建了第一代SuperPOD 系统,该超算以远低于一般超算的成本和能耗跻身性能世界前20之列。

2020年,NVIDIA揭开了第二代SuperPOD的帷幕。该产品不但具有创纪录的性能,而且能够在短短三周内完成部署。它的出现使得构建世界一流AI超级计算集群所需的时间不再需要花费漫长的数个月。第二代SuperPOD基于DGX A100系统和Mellanox网络架构构建,其证明了可以凭借单个平台将全球最复杂语言理解模型的处理时间从数周缩短至一个小时之内。

而在本届GTC大会上,我们看到DGX SuperPOD又迎来了一波全面的升级。此外,新一代SuperPOD极大的解放了部署效率,大幅降低了AI算力集群的购置成本,并且具备算力线性扩展能力和完备的技术支持,使得这份AI巅峰算力具备切实的企业内落地能力。

算力巅峰,成本可期,撑起百万亿参数模型

相比上一代SuperPOD系统,本次新发布的SuperPOD配备了目前最先进的80GB显存的加强版A100,为SuperPOD带来最高可达 90TB 的HBM2显存,以及高达2.2EB/s的总带宽

这是什么概念呢?

以上图NLP发展轨迹为例,自2018年ELMo诞生之日起,NLP预训练语言模型的参数量就迎来了持续的指数爆炸级增长,如今语言模型参数量已经从三年前的不足1亿,爆炸式增长至1750亿。可以预见的是,按照这份增长速度,到2023年时,语言模型达到 100万亿 的参数量规模都是值得想象的。而SuperPOD高达90TB的HBM2显存容量,甚至可以撑起这份百万亿模型参数的想象力!

而在带宽方面,要知道,在传统的高性能计算解决方案中,若实现2.2EB/s的总带宽,需要多达11,000台CPU服务器,大约相当于有250个机柜的数据中心,比SuperPOD整整多了15倍!这意味着我们的数据中心仅需要很少的物理空间,就能装得下这份顶级算力。

这个代表如今AI算力巅峰的超算在价格上却离我们并不遥远,DGX SuperPOD的报价自 700万美元 起,并且6000万美元即可扩展至完整版的系统,实现高达 700 PetaFLOPs 的恐怖算力。

BlueField-2 DPU

值得注意的是,借助NVIDIA BlueField-2,新发布的SuperPOD成为了世界上首台云原生超级计算机,支持多租户共享,具备完全的数据隔离和裸机性能

云原生超级计算(Cloud-Native Supercomputing)是下一代超级计算的重要组成部分。云原生超级计算机将高性能计算与云计算服务的安全性和易用性相结合,换句话说,云原生超级计算为HPC云提供了一个与TOP500超级计算机一样强大的系统,多个用户可以安全地共享该系统,而不会牺牲其应用程序的性能。

NVIDIA以其最新的DGX SuperPOD形式向全球用户提供云原生超级计算机,其中就包括现已投入生产的NVIDIA BlueField-2数据处理单元DPU(Data Processing Unit)。

越来越多的企业需要将高性能AI计算推进到实操模式,在这种模式下,许多开发人员可以确保他们的工作像在云中一样安全且隔离。

NVIDIA BlueField-2 DPU 是针对企业级部署和支撑200 Gbps网络连接进行研发优化的计算模块。不仅企业获得了加速的,完全可编程的网络,同时该网络实现了零信任安全性以防止数据泄露,完美地隔离用户和数据,拥有和裸机同样的性能表现。

现在,每个DGX SuperPOD都具有此功能,在其中的每个DGX A100节点中集成了两个NVIDIA BlueField-2 DPU。IT管理员可以使用NVIDIA BlueField DPU的卸载,加速和隔离功能为共享的AI基础架构实施安全的多租户,而不会影响DGX SuperPOD的AI性能。

Base Command

Base Command Manager是为DGX SuperPOD配备的专用管理软件,负责协调 DGX SuperPOD 基础架构上的 AI 模型训练和相关操作,让世界各地的开发团队能够顺利开展工作。值得一提的是,Base Command也是英伟达内部使用的DGX管理和操作工具,其可以让多个用户和 IT 团队安全地访问、共享和操作 DGX SuperPOD 基础架构。

目前,英伟达正在使用Base Command为数千名工程师和200多个团队提供支持,每周使用超过100万个GPU小时。

Base Command Manager由用于大规模、多用户和多团队AI开发工作流的NVIDIA基本命令平台和用于集群管理的NVIDIA基本命令管理器组成。其中,基本命令平台提供了一个图形用户界面,其中包括一系列常用的工具,如Jupyter Notebook,以及完整的命令行API。团队leader也可以通过它设置项目优先级,评估、预测算力需求。

用户通过命令平台可以非常方便的管理自己的训练任务、计算环境、数据集和工作空间等,以及配置任务需要的计算量(GPU节点数)等。如下图所示,图形化界面非常直观友好。

此外,在基本命令平台上,我们可以非常清晰的看到所提交任务的运行时长、GPU利用率甚至更深层次的Tensor Core活跃度、显存活跃度、通信负载等实时参数变化,帮助我们深入的监控、监测和调试模型训练。如下图所示。

小时级超算部署效率

在传统的搭建流程中,一项关键性的工作就是要预先规划好你需要将你的基础设施扩展到多大的规模,然后开始构建网络架构,直至达到最终目标。虽然这种方法能够实现增长,但会产生大量前期成本。搭建一个传统的数据中心,不仅需要一个大型的专业技术团队,而且往往要耗费数个月才能完成,时间、空间和金钱成本高昂。

而新一代DGX SuperPOD不仅有着恐怖的计算性能,而且部署效率方面也有了极大的提升。实际证明,4名由英伟达专业调配的操作人员仅需不到1个小时,就能组装起一套由20台系统组成的DGX A100集群,并且凭借Mellanox的交换功能可以轻松地将多个系统互连在一起,以至最终达到SuperPOD的规模。此外,如前文所述,同等带宽下,新一代SuperPOD相比传统CPU集群更是可以节约高达15倍的数据中心物理空间。

凭借这种新的拓展方式,不仅超算的部署效率和成本控制有了极大的改善和保障,企业机构还可以实现近乎线性的算力扩展,而且每次增加这一个这种由20台DGX系统构成的SuperPOD模块时所产生的支出也将变得更少。

最后,贴一张GTC大会后的英伟达股价走势图

寻求报道、约稿、文案投放:
添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

撑起百万亿参数模型想象力!英伟达发布新一代SuperPOD超算,AI算力新巅峰!相关推荐

  1. 90TB显存!英伟达发布新一代SuperPod超算,AI算力新巅峰!

    周一,黄教主又很淡定的在自家厨房里开完了GTC发布会 众所周知,NLP领域的模型一个比一个大,自从百亿参数的Google T5出来后,大部分AI研究者只能望着手里的蹩脚算力兴叹.如今动辄就是千亿.万亿 ...

  2. 2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片

    2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片 英伟达核弹级GPU:800亿晶体管,20块承载全球互联网流量 2022年3 月 22 日,在英伟达 GTC2022 上,英伟达介绍了 Hoppe ...

  3. 每日新闻丨英伟达发布全球最小边缘AI超级计算机;IBM开发出全球首个金融服务就绪公有云...

    趋势洞察 百度CTO王海峰:人工智能已经进入到工业大生产阶段 百度首席技术官(CTO)王海峰在第二届中国国际进口博览会上表示,人工智能已经不仅仅是新的生产力,已经进入到工业大生产阶段.他介绍,百度人工 ...

  4. 用“AI核弹”饱和攻击的英伟达,如何赢下AI计算新赛场?

    在2012年的ImageNet挑战赛(ILSVRC)上,深度卷积神经网络AlexNet横空出世,在图像分类识别领域实现了质的飞跃,被认为是AI时代的标志性事件,代表着深度学习时代的正式开端. 在此之前 ...

  5. 英伟达发布 532.03 驱动,为新游戏和新显卡带来支持

    继英伟达 RTX 4060系列显卡陆续发售后,又发布了 GeForce Game Ready 532.03 WHQL 驱动,驱动人生整理了一下NVIDIA GeForce Game Ready 532 ...

  6. 英伟达发布业绩预警后股价暴跌13%,又是中国市场的锅...

    本周一,英伟达发布业绩预警,将第四季度营收预估下调5亿美元,股市开盘后英伟达股价一度暴跌17%以上,最终收盘股价为138.01美元,下跌13.82%.过去52周,英伟达股最高为292.76美元,最低为 ...

  7. 英伟达发布全球唯一千万亿级集成型 AI 工作组服务器

    IT之家 11 月 17 日消息 今天,英伟达发布全球唯一的千万亿级工作组服务器 NVIDIA DGX Station A100,配备四个 NVIDIA A100 GPU,具有高达 320GB 的 G ...

  8. 英伟达发布“空气CPU”,Arm架构专为AI而生,性能超x86十倍,与自家GPU更搭

    梦晨 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 30系显卡买不到?英伟达老黄刚刚又发布一款"空气CPU". 不过就算你抢不到也没关系,因为这款CPU专门为服务器 ...

  9. AI算力霸主诞生!英伟达发布首款安培架构GPU,性能提升20倍

    来源:雷锋网 由于疫情缘故,本该在今年3月英伟达(NVIDIA)GTC 2020上发布的安培(Ampere)架构曝光多次却一直未发布. 5月15日,英伟达CEO黄仁勋发布了英伟达新一代GPU架构安培, ...

最新文章

  1. 64位微型计算机系统是指内存,重庆2012年计算机非等级考试一级笔试试题
  2. linux cpu平均利用率st,理解 CPU 利用率
  3. mysql unsupported data type._数据查询Unsupported command错误
  4. tensorboard ValueError: Duplicate plugins for name projector
  5. libzdb 连接到mysql_MySQL 连接
  6. 依赖注入的三种方式_Java核心知识 Spring原理十 Spring 依赖注入四种方式
  7. 分布式系统的面试题1
  8. PHP如何获取文件行数
  9. jqGrid方法整理
  10. python 下载文件-Python下载文件的方法
  11. Redis 菜鸟教程学习笔记- Redis 命令- Key
  12. 事物的开始和结束命令分别是什么_5. 详解Redis中的事务
  13. 什么是敏捷项目管理?
  14. kindle for PC更新后无法打开解决方案
  15. 【Zeekr_Tech】整车OTA概述
  16. c语言编程图片识别条形码,基于Zbar的条形码图像识别算法的制作方法
  17. declspec(naked) 编写干净函数
  18. STM32驱动_rc522
  19. AMD64(x86_64)架构abi文档:
  20. python不可以处理pdf文件_使用 Python 处理 pdf

热门文章

  1. shell脚本判断文件类型
  2. hello nodejs
  3. WinForm与脚本的交互
  4. TCP如何保证可靠性
  5. 运行地址与加载地址估计大部分人没弄明白~
  6. 【Pytorch神经网络理论篇】 30 图片分类模型:Inception模型
  7. Django基本概念、安装、配置到实现框架,Xmind学习笔记
  8. 二、Java 面向对象高级——Collection、泛型
  9. LeetCode 2141. 同时运行 N 台电脑的最长时间(二分查找)
  10. Scala 入门2(数组、List、Set、Map、元组、Option、Iterator)