滴滴云A100 GPU裸金属服务器(BMS)是基于NVIDIA A100 GPU推出的公有云裸金属服务器产品,NVIDIA A100 Tensor Core GPU基于最新的Ampere架构,相比上一代NVIDIA Tesla V100 GPU增加了许多新特性,在HPC、AI和数据分析领域都有更好的表现。嘻嘻伯伯来详细说下滴滴云GPU裸金属服务器A100硬件参数及性能详解:

滴滴云A100 GPU裸金属服务器

A100为NVIDIA最新发布的顶级GPU,滴滴云A100 GPU裸金属服务器(BMS)是基于NVIDIA A100 GPU推出的公有云裸金属服务器。NVIDIA A100 Tensor Core GPU基于最新的Ampere架构,相比上一代NVIDIA Tesla V100 GPU增加了了许多新特性,在HPC、AI和数据分析领域都有更好的表现。滴滴云GPU服务器使用AI大师码 1717 购买GPU等产品享9折优惠。

滴滴云基于 A100 GPU 的产品包括裸金属服务器(BMS)、透传性 GPU 云服务器和 vGPU 云服务器产品,可用于深度学习训练/推理、视频处理、科学计算、图形图像处理等场景。目前基于 A100 GPU 的裸金属服务器产品开放测试,欢迎企业用户垂询。

A100 搭载了革命性的多实例 GPU(Multi-instance GPU 或 MIG)虚拟化与 GPU 切割能力,对云服务供应商(CSPs)更加友好。当配置为 MIG 运行状态时,A100 可以通过分出最多 7 个核心来帮助供应商提高 GPU 服务器的利用率,无需额外投入。A100 稳定的故障分离也能够让供应商安全的分割GPU。

A100 带有性能强劲的第三代 Tensor Core,支持更为丰富的 DL 和 HPC 数据类型,同时具有比 V100 更高的计算吞吐。 A100 新的稀疏(Sparsity)特性能够进一步让计算吞吐翻倍。新的 TensorFloat-32 (TF32) 核心运算单元让 A100 在 DL 框架和 HPC 中轻松加速以 FP32 作为输入/输出数据的运算,比 V100 FP32 FMA 操作快10倍,稀疏优化(sparse)下可以达到 20 倍。在 FP16/FP32 的混合精度下也能达到 V100 的 2.5 倍,稀疏优化后达 5 倍。新的 Bfloat16(BF16)/FP32 混合精度 Tensor Core 运算单元和 FP16/FP32 混合精度以相同的频率运行。Tensor Core 对 INT8,INT4 和 INT1 的加速为 DL 推理提供了全面支持,A100 sparse INT8 比 V100 INT8 快 20 倍。在 HPC 中,A100 Tensor 核心的 IEEE 兼容 FP64 处理让它的表现是 V100的 2.5 倍。

下图为A100 GPU支持的各种浮点数据类型位宽表示:

A100 硬件参数与前代GPU对比

板卡名 Tesla V100 SXM2 RTX 2080 Ti Quadro RTX 6000 Tesla A100 SXM4
GPU 型号 GV100 TU102 TU102 GA100
GPU 工艺 TSMC 12nm TSMC 12nm TSMC 12nm TSMC 7nm
CUDA 架构 Volta(SM_70) Turing (SM_75) Turing (SM_75) Ampere(SM_80)
SM 数目 80 68 72 108
SP 数目 5120 4352 (=68 * 64) 4608 (=72 * 64) 6912 (=108 * 64)
GPU 时钟频率 1.53 GHz 1.545 GHz* 1.77 GHz 1.41 GHz
ROPs 128 88 96 160
TMUs 320 272 288 432
Tensor Cores 640 544 576 432
RT Cores N/A 68 72 N/A
显存容量 32 GB HBM2 11 GB GDDR6 24 GB GDDR6 40 GB HBM2E
显存位宽 4096 bits 352 bits 384 bits 5120 bits
显存频率 0.876 GHz(x2) 1.75 GHz(x8) 1.75 GHz(x8) 1.215 GHz(x2)
显存带宽 897 GB/s 616 GB/s** 672 GB/s 1555 GB/s
功耗 250 W 250 W 260 W 400 W

A100与前代GPU CUDA Core/Tensor Core计算能力对比(单位:每时钟周期每 SM 乘累加次数):

根据上述表格中的数字可以计算出A100峰值计算能力:

计算类型 峰值吞吐(TFLOPS/TOPS)
FP64, CUDA Core 9.746(= 108 x 32 x 1410MHz x 2)
FP64, Tensor Core 19.49(= 108 x 64 x 1410MHz x 2)
FP32, CUDA Core 19.49(= 108 x 64 x 1410MHz x 2)
TF32, Tensor Core 155.9(= 108 x 512 x 1410MHz x 2)
TF32, Tensor Core, Sparse 311.87(= 108 x 1024 x 1410MHz x 2)
FP16, CUDA Core 77.96(= 108 x 256 x 1410MHz x 2)
FP16, Tensor Core 311.87(= 108 x 1024 x 1410MHz x 2)
FP16, Tensor Core, Sparse 623.74(= 108 x 2048 x 1410MHz x 2)
INT8, CUDA Core 77.96(= 108 x 256 x 1410MHz x 2)
INT8, Tensor Core 623.74(= 108 x 2048 x 1410MHz x 2)
INT8, Tensor Core, Sparse 1247.5(= 108 x 4096 x 1410MHz x 2)
INT4, Tensor Core 1247.5(= 108 x 4096 x 1410MHz x 2)
INT4, Tensor Core, Sparse 2495(= 108 x 8192 x 1410MHz x 2)
INT1, Tensor Core 4990(= 108 x 16384 x 1410MHz x 2)

滴滴云A100 GPU裸金属服务器性能及硬件参数详解相关推荐

  1. 裸金属服务器性能描述,金山云-文档中心-集群支持裸金属服务器

    容器服务支持金山云裸金属服务器作为集群中的节点.容器直接运行于高性能裸金属服务器上,无虚拟化性能损失,将为您带来更强劲的性能体验. 使用前须知 金山云容器服务暂不负责裸金属服务器的创建,裸金属服务器仅 ...

  2. 阿里云计算型弹性裸金属服务器ebmc4云服务器配置性能详解

    阿里云计算型弹性裸金属服务器ebmc4怎么样?阿里云计算型弹性裸金属服务器ebmc4云服务器配置.性能.适用场景详解! 计算型弹性裸金属服务器ebmc4云服务器 均为I/O优化实例 支持IPv6 仅支 ...

  3. 裸金属服务器性能描述,裸金属服务器性能描述

    裸金属服务器性能描述 内容精选 换一换 修改裸金属服务器指定元数据.裸金属服务器状态(OS-EXT-STS:vm_state属性)必须是active.stopped.paused或者suspended ...

  4. 服务器1U和2U参数详解

    务器也分塔式和机架式的,塔式不用机柜,机架式用机柜: U是服务器机箱的高度 1U等于4.45厘米 随着企业信息化的快速发展,对服务器的需求量也越来越大,在有限的机房的空间里,如何合理的规划与实施,对与 ...

  5. 阿里云GPU计算型弹性裸金属服务器实例ebmgn6v详解和使用场景

    阿里云GPU计算型弹性裸金属服务器实例规格族ebmgn6v详解及适用场景,InstanceTypes分享裸金属ebmgn6v实例规格配置及应用场景: 裸金属ebmgn6v规格特性 基于创新X-Drag ...

  6. 【裸金属服务器学习笔记】

    文章目录 一.什么是裸金属服务器? 二.裸金属服务器和物理机.虚拟机等,有哪些区别和联系? 三.裸金属服务器的适用客户群体 四.裸金属服务器的关键技术 五.裸金属服务器有哪些限制? 参考文档 一.什么 ...

  7. 云计算三层架构_金山云发布星曜裸金属服务器 打造面向云计算2.0的云基础架构...

    "随着云计算2.0时代的全面到来,用户对于算力的需求正在发生明显的变化,如何提供兼具高性能.高稳定性和高安全性的服务器,更好地满足新时期用户的算力需求,是云厂商需要解决的首要问题." ...

  8. 裸金属服务器与云服务器的差别是什么?

    以阿里云为例弹性裸金属服务器通过技术创新实现客户价值.具体而言,弹性裸金属服务器具有以下优势: 用户独占计算资源作为一款云端弹性计算类产品,弹性裸金属服务器具备了物理机级的性能和隔离性.您可以独占计算 ...

  9. 一起来看看华为云的裸金属服务器

    裸金属服务器是什么? 裸金属服务器的英文名是Bare Metal Server,BMS.其实就是一台物理服务器,没错就是它: 什么叫裸金属服务器呢? 其实这个名称是在公有云服务中出现的,公有云中如果提 ...

最新文章

  1. javascript 两个数组组成一个对象
  2. 汇总运行在Hadoop YARN上的开源系统
  3. Libsvm的一些说明帮助吧
  4. 课堂派派典型用户和场景
  5. [LeetCode] Binary Tree Paths - 二叉树基础系列题目
  6. ABAP workbench API的使用方法
  7. 字符串函数参数传入传出(字符串反转)
  8. 常用的几种编程语言的介绍
  9. maven怎么和ecli_Maven的配置和Eclipse中导入SpringBoot项目一些注意点
  10. yshon对讲机如何调频率_窄带宽、窄脉宽、高重复频率,主动调Q光纤激光器是如何实现的?...
  11. 乐山市计算机学校欺骗,据说这个学校很乱。
  12. ITU-T E.800 有关服务质量(QoS)的术语定义
  13. 【读PPT】管中窥豹:用大数据洞察“用户画像”的秘密!
  14. Node.js的安装下载和运行JS代码和常用命令和按键
  15. android 动态壁纸 例子,调用android动态壁纸的实例介绍
  16. 在别人电脑登录微信会【泄露隐私】,登录微信后一定要删除这个文件
  17. 解决VMware虚拟机字体模糊的办法
  18. chroma8000使用_台湾致茂MES系统Chroma8000上使用更安全敏捷
  19. 供配电系统中的PE、N、PEN线各指的是什么?怎么区别和使用?
  20. style 标签属性 scoped 的作用和原理

热门文章

  1. OpenCvSharp 棋盘格标定助手
  2. 什么是聚合路由器、聚合路由器有什么用
  3. Node.js获取AJAX参数Demo
  4. Java零散知识点XXXXXXXXX
  5. 你绝对不能错过的7款开源硬件架构
  6. Longhorn时代,浏览器的终结?——关于Avalon和XAML
  7. STM8驱动0.96寸OLED(12864液晶屏)
  8. 相对论中光速恒定,时间可变的原理
  9. 小米 MIX4 发布、三年要拿下全球第一、还有一只 9999 元的狗?快看 3 个小时雷军都讲了什么!...
  10. 一个简单的蓝牙指令测试工具