来源:雷锋网

由于疫情缘故,本该在今年3月英伟达(NVIDIA)GTC 2020上发布的安培(Ampere)架构曝光多次却一直未发布。

5月15日,英伟达CEO黄仁勋发布了英伟达新一代GPU架构安培,并带来了基于安培架构GPU A100的DGX-A100 AI系统。

此次GTC 2020最重磅的产品是安培架构GPU A100,这是目前全球最大的7nm芯片,面积高达826平方毫米,集成了540亿个晶体管。相比Volta架构实现了高达20倍的性能提升,并且可以同时满足AI训练和推理的需求。

第八代安培GPU架构性能提升高达20倍

“A100 是迄今为止人类制造出的最大 7nm制程芯片,集AI训练和推理于一身,并且其性能相比于前代产品提升了高达20倍。”黄仁勋说

就具体参数来看,A100 采用目前最先进的台积电(TSMC)7nm工艺,拥有 540 亿个晶体管,20倍AI算力。而且它是一块 3D 堆叠芯片,面积高达 826mm^2,GPU的最大功率达到 400W。

除了性能提升,安培GPU也可以实现在一个平台上对横向扩展以及纵向扩展的负载的加速。“A100将在提高吞吐量的同时,降低数据中心的成本。”

上一次英伟达发布如此性能强大的GPU芯片还是2017年的Tesla V100。在英伟达看来,自Volta 架构的Tesla V100推出后,业界对AI模型训练算力的需求增长了 3000 倍。这显然也是英伟达放手增加算力和吞吐量的动力所在。

除此之外,A100还有另外四大关键特性:

  • 具有TF32的第三代Tensor Core核心,英伟达广泛采用的Tensor Core核心现在已变得更加灵活、快速且易于使用。

  • 多实例GPU-MG,一种全新技术功能,可将单个A100GPU分割为多达七个独立的GPU,为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化。

  • 第三代NVIDIA NVLInk,使GPU之间的高速联接增加至原来的两倍,实现服务器的高效性能扩展。

  • 结构化稀疏,这种全新效率技术利用AI数学固有的稀疏性,使性能提升了一倍。

对于具有TF32的第三代Tensor Core核心,黄仁勋解释,其功能经过扩展后加入了专为AI开发的全新TF32,它能在无需更改任何代码的情况下,使FP32精度下的AI性能提高多达20倍。

此外,TensorCore核心现在支持FP64精度,相比于前代,其为HPC应用所提供的计算力比之前提高了多达2.5倍。

凭借这些新功能,英伟达A100能够成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。

第三代AI系统DGX A100

英伟达推出了第三代AI系统DGX A100,高达5 Petaflops(每秒一千万亿(10的15次方)次浮点运算)的Al性能刷新的全球最高激励,并且首次将整个数据中心的性能和功能集成到一个灵活的平台中。

DGXA100系统集成了8个A100 Tensor Core GPU, 具有320GB内存用以训练最大型的AI数据集,以及速度可达200Gbps MeLLanox HDR互连。

另外,利用A100的多实例GPU功能,每台DGXA100系统能够被分割为多达56个实例,用于加速多个小型工作负载的处理速度。

凭借这些功能,企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源,加快数据分析、训练和推理等各种工作负载的速度。

DGX A100有6大技术特性:

  • 8 个 NVIDIA A100 TensorCore GPU, Al 性能达 5PetafLops, GPU 内存共 320GB ,有着每秒 12.4TB的带宽。

  • 6 个采用第三代NVIDIA NVLink技术的NVIDIA NVSwitch互联结构,4.8TB每秒的双向带宽

  • 9个 MeLLanox ConnectX-6 HDR 200Gb/s网络接口,提供总计每秒3.6TB的双向带宽。MeLLanox网络计算和网络加速引擎,例如RDMA、GPUDirect,以 及SHARP技术,实现最高性能和可扩展性。

  • 15TB Gen4 NVMe 内存,速度比 Gen3 NVMe SSDs 快 2 倍。

  • NVIDIA DGX软件堆栈,其中包括专为AI和数据科学工作负载而优化的软件,能够实现性 能的最大化,使企业能够更快获得AI基础架构投资回报。

黄仁勋说,通过一个价值100万美元由5个DGX A100系统组成的机架,可以取代当下价值1100万美元,由50个DGX-1和600个CPU组成的25个机架AI训练和推理的数据中心。并且,功耗也可以由630kW大幅降低至28kW。

也就是说,5个DGXA100组成的系统,实现相同的性能,耗电量为现有数据中心系统的1/20,空间为1/25,成本为1/10。

据悉,DGXA100的首批订单将送往美国能源部的阿贡国家实验室(Argonne National Laboratory),该实验室将运用该集群的Al和计算力来更好地研究和应对新冠肺炎。

其他更新

此外,面向边缘AI市场,英伟达此次GTC 2020推出了两款计算平台,分别是适用于较大型商业通用服务器上的EGX A100和适用于微型边缘服务器的微型EGX Jetson Xavier NX。

英伟达还展示了新一代DGXSuper POD,这个集群由140台 DGXA100系统组成,AI算力高达700 Petaflops,利用 MeLLanox HDR 200Gbps InfiniBand 互连技术,NVIDIA 将 140 台 DGX A100 系统结合在一起,构建了 DGXSuper POD AI超级计算机,用于内部对话式AI、基因组学和自动 驾驶等领域的研究。

除了上述以外,英伟达还推出了:

  • GPU加速应用框架——NVIDIA Jarvis

  • 开源社区合作,为Apache Spark 3.0提供端到端GPU加速

  • NIVIDIA医疗平台Clara重大性能拓展

  • 25/50 Gb/s智能以太网卡NVIDIA Mellanox ConnectX-6LxSmartNIC

参考链接:

https://tech.ifeng.com/c/7wTlxgyKrPF

END

备注:部署

模型压缩与应用部署交流群

模型压缩、网络压缩、神经网络加速、轻量级网络设计、知识蒸馏、应用部署、MNN、NCNN等技术,

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

AI算力霸主诞生!英伟达发布首款安培架构GPU,性能提升20倍相关推荐

  1. “半价买2080Ti”,英伟达发布RTX 30系列显卡,性能翻倍价格更低,网友高呼“NVIDIA YES”...

    晓查 贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 千呼万唤始出来!游戏玩家等待了2年的英伟达新显(he)卡(dan)终于来了,而且加量又减价. 今天,黄仁勋在自家厨房里正式发布新一代 ...

  2. 叫板英特尔,英伟达发布首个 CPU,集齐“三芯”!

    作者 | 马超 出品 | CSDN(ID:CSDNnews) 昨日,在英伟达的新品发布会大会上,英伟达 CEO 黄仁勋如期拿出了首款 CPU 芯片 Grace,剑指 AI 云计算,其实笔者在之前的文章 ...

  3. 英伟达发布史上最强GPU,却叫停了自动驾驶车路测

    作者 | DavidZh 出品 | AI科技大本营(公众号ID:rgznai100) 当地时间 3 月 27 日,英伟达在美国圣克拉的 GTC 大会上推出多款产品. ▌显卡扩容,史上最强的 DGX-2 ...

  4. AI一分钟 | 英伟达发布Tesla T4 GPU新品;腾讯发布《2018 年全球自动驾驶法律政策研究报告》...

    ▌英伟达宣布 Tesla T4 GPU 新品:基于图灵架构,加速 AI 运算 近日,英伟达发布了一款专为 AI 推理工作而设计的显卡,它就是可以加速语音.视频.搜索引擎.图像神经网络的 Tesla T ...

  5. 英伟达发布“空气CPU”,Arm架构专为AI而生,性能超x86十倍,与自家GPU更搭

    梦晨 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 30系显卡买不到?英伟达老黄刚刚又发布一款"空气CPU". 不过就算你抢不到也没关系,因为这款CPU专门为服务器 ...

  6. 2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片

    2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片 英伟达核弹级GPU:800亿晶体管,20块承载全球互联网流量 2022年3 月 22 日,在英伟达 GTC2022 上,英伟达介绍了 Hoppe ...

  7. 每日新闻丨英伟达发布全球最小边缘AI超级计算机;IBM开发出全球首个金融服务就绪公有云...

    趋势洞察 百度CTO王海峰:人工智能已经进入到工业大生产阶段 百度首席技术官(CTO)王海峰在第二届中国国际进口博览会上表示,人工智能已经不仅仅是新的生产力,已经进入到工业大生产阶段.他介绍,百度人工 ...

  8. 仅售99美元!英伟达发布最小AI计算机Jetson Nano

    3月17日,GTC 2019来了,英伟达CEO黄仁勋的主题演讲放在了北京时间3月19日的上午5:00.还是熟悉的皮夹克,还是熟悉的黄教主.与往年有些不同的是,英伟达此次是带着"翻身" ...

  9. 英伟达发布全球唯一千万亿级集成型 AI 工作组服务器

    IT之家 11 月 17 日消息 今天,英伟达发布全球唯一的千万亿级工作组服务器 NVIDIA DGX Station A100,配备四个 NVIDIA A100 GPU,具有高达 320GB 的 G ...

最新文章

  1. 倚天·屠龙——唯我独尊
  2. Vista下的程序集缓存卸载方法,也就是C:\Windows\assembly之下的卸载方法
  3. 计算机相关概念总结(3)
  4. python定义函数的组成部分有_Python文档学习笔记(4)--定义函数
  5. EOF的意义及用法(while(scanf(“%d“,n) != EOF))
  6. 中南林科大c语言程序设计,2017年中南林业科技大学计算机与信息工程学院802C语言与数据结构之C程序设计考研题库...
  7. time库是python中处理时间的标准库_python语言time库和datetime库基本使用详解
  8. 机器学习实战-回归算法-18
  9. 给年终总结报告加分的技巧:手机上就能看的可视化长什么样?
  10. css hacks (ie6,ie7,ie8,firefox,Chrome)
  11. 股票分红对于短期投资有好处吗?
  12. 【转载】C#字符串测试---------字符串截取,字符串分割
  13. WF4读书笔记(一):创建一个简单的工作流
  14. MD5加密不可逆的原因
  15. 一、音频基础知识 - 语音的基本特征
  16. 国家信息化体系六要素
  17. 基于jsp+mysql+Spring的SSM在线蛋糕商城销售网站项目设计和实现
  18. 数据挖掘学习日记1·有监督学习与无监督学习
  19. 柠檬的45种生活妙用
  20. 《二叉平衡树(一)》

热门文章

  1. OpenCV单目视觉定位(测量)系统(新增 含代码)(转载)
  2. 包管理器Bower使用手册之一
  3. linux cordova安装教程,mac怎么安装cordova?
  4. matlab话pca的双标图biplot,r – 用ggplot2绘制pca biplot
  5. 树莓派python界面编程_玩转树莓派-RaspBerry,使用Python开发定制界面
  6. java版模拟经营_我的世界JAVA版
  7. 华为p9 android版本,华为P9的手机系统是什么
  8. 1708硬盘转接口_ICY DOCK全球首款U.2转USB转接器震撼上市
  9. 查找树的指定层级_阿里面试,问了B+树,这个回答让我通过了
  10. java怎么访问私有类_如何从Java类的外部访问类的私有方法?