周一,黄教主又很淡定的在自家厨房里开完了GTC发布会

众所周知,NLP领域的模型一个比一个大,自从百亿参数的Google T5出来后,大部分AI研究者只能望着手里的蹩脚算力兴叹。如今动辄就是千亿、万亿参数模型,目前比较流行的V100主机显然已经无法满足需求。而本周刚落幕的GTC发布会,则为如今的万亿模型想象力的时代提供了一份极其重要的保障,不仅使得造万亿模型都成为了可能,甚至打开了通往十万亿乃至更大想象力算力密集型AI模型之路的潘多拉魔盒。 这其中的关键,就是在本届GTC大会上全新升级的DGX SuperPod A100

为AI而生的超算

首先用一张图来类比DGX SuperPod、DGX A100以及A100计算卡之间的关系:

DGX SuperPod A100是专门为AI量身定制的大规模、安全、可扩展的超级计算机,不仅在整个企业范围内保护和扩展AI算力,并且还提供相关的配套软件来完成集群操作,帮助企业开发者更好的调度和管理算力。

如今人工智能已经几乎渗透到现代商业的方方面面,相应的,模型训练对算力的渴求也以持续呈指数级增长,并且远远未到边界。尤其是在自然语言处理、推荐系统和生物计算等AI核心业务应用上,动辄千亿、甚至万亿级别参数量的模型已经成为了当下的热门研究方向。

另一方面,随着AI对全领域的渗透,互联网公司也在谋求一种更加安全、便捷、大规模、可扩展、数据可隔离的集群式解决方案,从而为全公司的诸多业务和研究团队提供服务,以支持不断变化的项目需求和算力需求。

而DGX SuperPod A100恰到好处的满足了这份想象力。

2019年,英伟达基于多台DGX系统构建了第一代SuperPod系统,该超算以远低于一般超算的成本和能耗跻身性能世界前20之列。

2020年,NVIDIA揭开了第二代SuperPOD的帷幕。该产品不但具有创纪录的性能,而且能够在短短三周内完成部署。它的出现使得构建世界一流AI超级计算集群所需的时间不再需要花费漫长的数个月。第二代SuperPOD基于DGX A100系统和Mellanox网络架构构建,其证明了可以凭借单个平台将全球最复杂语言理解模型的处理时间从数周缩短至一个小时之内。

而在本届GTC大会上,我们看到DGX SuperPod又迎来了一波全面的升级。此外,新一代SuperPod极大的解放了部署效率,大幅降低了AI算力集群的购置成本,并且具备算力线性扩展能力和完备的技术支持,使得这份AI巅峰算力具备切实的企业内落地能力。

算力巅峰,成本可期,撑起百万亿参数模型

相比上一代SuperPOD系统,本次新发布的SuperPod配备了目前最先进的80GB显存的加强版A100,为SuperPod带来最高可达**90TB的HBM2显存,以及高达2.2EB/s的总带宽

这是什么概念呢?

以上图NLP发展轨迹为例,自2018年ELMo诞生之日起,NLP预训练语言模型的参数量就迎来了持续的指数爆炸级增长,如今语言模型参数量已经从三年前的不足1亿,爆炸式增长至1750亿。可以预见的是,按照这份增长速度,到2023年时,语言模型达到 100万亿 的参数量规模都是值得想象的。而SuperPOD高达90TB的HBM2显存容量,甚至可以撑起这份百万亿模型参数的想象力!

而在带宽方面,要知道,在传统的高性能计算解决方案中,若实现2.2EB/s的总带宽,需要多达11,000台CPU服务器,大约相当于有250个机柜的数据中心,比SuperPOD整整多了15倍!这意味着我们的数据中心仅需要很少的物理空间,就能装得下这份顶级算力。

这个代表如今AI算力巅峰的超算在价格上却离我们并不遥远,DGX SuperPOD的报价自 700万美元 起,并且6000万美元即可扩展至完整版的系统,实现高达 700 PetaFLOPs 的恐怖算力。

BleuField-2 DPU

值得注意的是,借助NVIDIA BleuField-2,新发布的SuperPOD成为了世界上首台云原生超级计算机,支持多租户共享,具备完全的数据隔离和裸机性能

云原生超级计算(Cloud-Native Supercomputing)是下一代超级计算的重要组成部分。云原生超级计算机将高性能计算与云计算服务的安全性和易用性相结合,换句话说,云原生超级计算为HPC云提供了一个与TOP500超级计算机一样强大的系统,多个用户可以安全地共享该系统,而不会牺牲其应用程序的性能。

NVIDIA以其最新的DGX SuperPOD形式向全球用户提供云原生超级计算机,其中就包括现已投入生产的NVIDIA BlueField-2数据处理单元DPU(Data Processing Unit)。

越来越多的企业需要将高性能AI计算推进到实操模式,在这种模式下,许多开发人员可以确保他们的工作像在云中一样安全且隔离。

NVIDIA BlueField-2 DPU 是针对企业级部署和支撑200 Gbps网络连接进行研发优化的计算模块。不仅企业获得了加速的,完全可编程的网络,同时该网络实现了零信任安全性以防止数据泄露,完美地隔离用户和数据,拥有和裸机同样的性能表现。

现在,每个DGX SuperPOD都具有此功能,在其中的每个DGX A100节点中集成了两个NVIDIA BlueField-2 DPU。 IT管理员可以使用NVIDIA BlueField DPU的卸载,加速和隔离功能为共享的AI基础架构实施安全的多租户,而不会影响DGX SuperPOD的AI性能。

Base Command

Base Command Manager是为DGX SuperPod配备的专用管理软件,负责协调 DGX SuperPOD 基础架构上的 AI 模型训练和相关操作,让世界各地的开发团队能够顺利开展工作。值得一提的是,Base Command也是英伟达内部使用的DGX管理和操作工具,其可以让多个用户和 IT 团队安全地访问、共享和操作 DGX SuperPOD 基础架构。

目前,英伟达正在使用Base Command为数千名工程师和200多个团队提供支持,每周使用超过100万个GPU小时。

Base Command Manager由用于大规模、多用户和多团队AI开发工作流的NVIDIA基本命令平台和用于集群管理的NVIDIA基本命令管理器组成。其中,基本命令平台提供了一个图形用户界面,其中包括一系列常用的工具,如Jupyter Notebook,以及完整的命令行API。团队leader也可以通过它设置项目优先级,评估、预测算力需求。

用户通过命令平台可以非常方便的管理自己的训练任务、计算环境、数据集和工作空间等,以及配置任务需要的计算量(GPU节点数)等。如下图所示,图形化界面非常直观友好。

此外,在基本命令平台上,我们可以非常清晰的看到所提交任务的运行时长、GPU利用率甚至更深层次的Tensor Core活跃度、显存活跃度、通信负载等实时参数变化,帮助我们深入的监控、监测和调试模型训练。如下图所示。

小时级超算部署效率

在传统的搭建流程中,一项关键性的工作就是要预先规划好你需要将你的基础设施扩展到多大的规模,然后开始构建网络架构,直至达到最终目标。虽然这种方法能够实现增长,但会产生大量前期成本。搭建一个传统的数据中心,不仅需要一个大型的专业技术团队,而且往往要耗费数个月才能完成,时间、空间和金钱成本高昂。

而新一代DGX SuperPOD不仅有着恐怖的计算性能,而且部署效率方面也有了极大的提升。实际证明,4名由英伟达专业调配的操作人员仅需不到1个小时,就能组装起一套由20台系统组成的DGX A100集群,并且凭借Mellanox的交换功能可以轻松地将多个系统互连在一起,以至最终达到SuperPOD的规模。此外,如前文所述,同等带宽下,新一代SuperPOD相比传统CPU集群更是可以节约高达15倍的数据中心物理空间。

凭借这种新的拓展方式,不仅超算的部署效率和成本控制有了极大的改善和保障,企业机构还可以实现近乎线性的算力扩展,而且每次增加这一个这种由20台DGX系统构成的SuperPod模块时所产生的支出也将变得更少。

最后,贴一张GTC大会后的英伟达股价走势图

90TB显存!英伟达发布新一代SuperPod超算,AI算力新巅峰!相关推荐

  1. 撑起百万亿参数模型想象力!英伟达发布新一代SuperPOD超算,AI算力新巅峰!

    周一,黄教主又很淡定的在自家厨房里开完了GTC发布会. 众所周知,NLP领域的模型一个比一个大,自从百亿参数的Google T5出来后,大部分AI研究者只能望着手里的蹩脚算力兴叹.如今动辄就是千亿.万 ...

  2. 2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片

    2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片 英伟达核弹级GPU:800亿晶体管,20块承载全球互联网流量 2022年3 月 22 日,在英伟达 GTC2022 上,英伟达介绍了 Hoppe ...

  3. 每日新闻丨英伟达发布全球最小边缘AI超级计算机;IBM开发出全球首个金融服务就绪公有云...

    趋势洞察 百度CTO王海峰:人工智能已经进入到工业大生产阶段 百度首席技术官(CTO)王海峰在第二届中国国际进口博览会上表示,人工智能已经不仅仅是新的生产力,已经进入到工业大生产阶段.他介绍,百度人工 ...

  4. 用“AI核弹”饱和攻击的英伟达,如何赢下AI计算新赛场?

    在2012年的ImageNet挑战赛(ILSVRC)上,深度卷积神经网络AlexNet横空出世,在图像分类识别领域实现了质的飞跃,被认为是AI时代的标志性事件,代表着深度学习时代的正式开端. 在此之前 ...

  5. 英伟达发布 532.03 驱动,为新游戏和新显卡带来支持

    继英伟达 RTX 4060系列显卡陆续发售后,又发布了 GeForce Game Ready 532.03 WHQL 驱动,驱动人生整理了一下NVIDIA GeForce Game Ready 532 ...

  6. 英伟达发布业绩预警后股价暴跌13%,又是中国市场的锅...

    本周一,英伟达发布业绩预警,将第四季度营收预估下调5亿美元,股市开盘后英伟达股价一度暴跌17%以上,最终收盘股价为138.01美元,下跌13.82%.过去52周,英伟达股最高为292.76美元,最低为 ...

  7. 叫板英特尔,英伟达发布首个 CPU,集齐“三芯”!

    作者 | 马超 出品 | CSDN(ID:CSDNnews) 昨日,在英伟达的新品发布会大会上,英伟达 CEO 黄仁勋如期拿出了首款 CPU 芯片 Grace,剑指 AI 云计算,其实笔者在之前的文章 ...

  8. NVIDIA 英伟达发布H100 GPU,水冷服务器适配在路上

    导语 1.GPU的价值不止体现在深度学习,在高性能计算.人工智能.生物信息.分子模拟.计算化学.材料力学.系统仿真.流体力学.机械设计.生物制药.航空动力.地质勘探.气候模拟等领域,算法越来越复杂,需 ...

  9. 英伟达发布“空气CPU”,Arm架构专为AI而生,性能超x86十倍,与自家GPU更搭

    梦晨 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 30系显卡买不到?英伟达老黄刚刚又发布一款"空气CPU". 不过就算你抢不到也没关系,因为这款CPU专门为服务器 ...

最新文章

  1. AI人工智能工程师 学习大纲
  2. boost::signals2::shared_connection_block相关的测试程序
  3. 几种排序算法性能的比较
  4. 通过环境变量注入的方式启动SAP Spartacus B2B模块
  5. mybatis配置insert/update/delete同一个模板
  6. QML笔记-使用Row的时候要注意的地方(一定要指明高度和宽度)
  7. pandas读取csv文件数据并使用matplotlib画折线图和饼图
  8. 首届电子商务AI算法大赛 Organized by automlai
  9. NetSetMan特别版 网络地址切换工具
  10. cocoStudio工具的使用-----场景编辑器
  11. java jlabel 字体加粗_这样在java里面的标签Jlabel设置字体加粗和下划线
  12. winform使用CefSharp嵌入浏览器
  13. Win10如何更改C:\Users\下的用户名
  14. matplotlib报Unknown symbol: \rule, found ‘\‘ (at char 42), (line:1, col:43)
  15. 点、圆、圆柱类的设计
  16. 南京邮政计算机技术岗位待遇,邮政营业员月薪是多少?工资待遇及前景怎么样...
  17. 吴炯:投资开心网的阿里巴巴前CTO
  18. 带你渐入佳境,一文捋清协程
  19. 力扣数据库题目刷题日记
  20. 笔记本电脑常用的快捷键

热门文章

  1. Windows CE.0002.ERROR:Image is too large for current RAM and RAMIMAGE settings.
  2. Ubuntu 10.10 下配置Telnet服务器
  3. STL中empty()函数的误用
  4. RCF的优势--分布式应用
  5. Linux下获取xml调试信息等级
  6. mysql concat $_mysql concat 的诡异问题
  7. python爬取天气数据山东_Python的学习《山东省各城市天气爬取》
  8. Vue3 组件通信学习笔记
  9. React ref的转发
  10. 一、Web服务器——Tomcat Servlet学习笔记