滴滴云A100 GPU裸金属服务器性能及硬件参数详解

滴滴云A100 GPU裸金属服务器（BMS）是基于NVIDIA A100 GPU推出的公有云裸金属服务器产品，NVIDIA A100 Tensor Core GPU基于最新的Ampere架构，相比上一代NVIDIA Tesla V100 GPU增加了许多新特性，在HPC、AI和数据分析领域都有更好的表现。嘻嘻伯伯来详细说下滴滴云GPU裸金属服务器A100硬件参数及性能详解：

滴滴云A100 GPU裸金属服务器

A100为NVIDIA最新发布的顶级GPU，滴滴云A100 GPU裸金属服务器（BMS）是基于NVIDIA A100 GPU推出的公有云裸金属服务器。NVIDIA A100 Tensor Core GPU基于最新的Ampere架构，相比上一代NVIDIA Tesla V100 GPU增加了了许多新特性，在HPC、AI和数据分析领域都有更好的表现。滴滴云GPU服务器使用AI大师码 1717 购买GPU等产品享9折优惠。

滴滴云基于 A100 GPU 的产品包括裸金属服务器（BMS）、透传性 GPU 云服务器和 vGPU 云服务器产品，可用于深度学习训练/推理、视频处理、科学计算、图形图像处理等场景。目前基于 A100 GPU 的裸金属服务器产品开放测试，欢迎企业用户垂询。

A100 搭载了革命性的多实例 GPU（Multi-instance GPU 或 MIG）虚拟化与 GPU 切割能力，对云服务供应商（CSPs）更加友好。当配置为 MIG 运行状态时，A100 可以通过分出最多 7 个核心来帮助供应商提高 GPU 服务器的利用率，无需额外投入。A100 稳定的故障分离也能够让供应商安全的分割GPU。

A100 带有性能强劲的第三代 Tensor Core，支持更为丰富的 DL 和 HPC 数据类型，同时具有比 V100 更高的计算吞吐。 A100 新的稀疏（Sparsity）特性能够进一步让计算吞吐翻倍。新的 TensorFloat-32 (TF32) 核心运算单元让 A100 在 DL 框架和 HPC 中轻松加速以 FP32 作为输入/输出数据的运算，比 V100 FP32 FMA 操作快10倍，稀疏优化（sparse）下可以达到 20 倍。在 FP16/FP32 的混合精度下也能达到 V100 的 2.5 倍，稀疏优化后达 5 倍。新的 Bfloat16(BF16)/FP32 混合精度 Tensor Core 运算单元和 FP16/FP32 混合精度以相同的频率运行。Tensor Core 对 INT8，INT4 和 INT1 的加速为 DL 推理提供了全面支持，A100 sparse INT8 比 V100 INT8 快 20 倍。在 HPC 中，A100 Tensor 核心的 IEEE 兼容 FP64 处理让它的表现是 V100的 2.5 倍。

下图为A100 GPU支持的各种浮点数据类型位宽表示：

A100 硬件参数与前代GPU对比

板卡名	Tesla V100 SXM2	RTX 2080 Ti	Quadro RTX 6000	Tesla A100 SXM4
GPU 型号	GV100	TU102	TU102	GA100
GPU 工艺	TSMC 12nm	TSMC 12nm	TSMC 12nm	TSMC 7nm
CUDA 架构	Volta(SM_70)	Turing (SM_75)	Turing (SM_75)	Ampere(SM_80)
SM 数目	80	68	72	108
SP 数目	5120	4352 (=68 * 64)	4608 (=72 * 64)	6912 (=108 * 64)
GPU 时钟频率	1.53 GHz	1.545 GHz*	1.77 GHz	1.41 GHz
ROPs	128	88	96	160
TMUs	320	272	288	432
Tensor Cores	640	544	576	432
RT Cores	N/A	68	72	N/A
显存容量	32 GB HBM2	11 GB GDDR6	24 GB GDDR6	40 GB HBM2E
显存位宽	4096 bits	352 bits	384 bits	5120 bits
显存频率	0.876 GHz(x2)	1.75 GHz(x8)	1.75 GHz(x8)	1.215 GHz(x2)
显存带宽	897 GB/s	616 GB/s**	672 GB/s	1555 GB/s
功耗	250 W	250 W	260 W	400 W

A100与前代GPU CUDA Core/Tensor Core计算能力对比（单位：每时钟周期每 SM 乘累加次数）：

根据上述表格中的数字可以计算出A100峰值计算能力：

计算类型	峰值吞吐(TFLOPS/TOPS)
FP64, CUDA Core	9.746(= 108 x 32 x 1410MHz x 2)
FP64, Tensor Core	19.49(= 108 x 64 x 1410MHz x 2)
FP32, CUDA Core	19.49(= 108 x 64 x 1410MHz x 2)
TF32, Tensor Core	155.9(= 108 x 512 x 1410MHz x 2)
TF32, Tensor Core, Sparse	311.87(= 108 x 1024 x 1410MHz x 2)
FP16, CUDA Core	77.96(= 108 x 256 x 1410MHz x 2)
FP16, Tensor Core	311.87(= 108 x 1024 x 1410MHz x 2)
FP16, Tensor Core, Sparse	623.74(= 108 x 2048 x 1410MHz x 2)
INT8, CUDA Core	77.96(= 108 x 256 x 1410MHz x 2)
INT8, Tensor Core	623.74(= 108 x 2048 x 1410MHz x 2)
INT8, Tensor Core, Sparse	1247.5(= 108 x 4096 x 1410MHz x 2)
INT4, Tensor Core	1247.5(= 108 x 4096 x 1410MHz x 2)
INT4, Tensor Core, Sparse	2495(= 108 x 8192 x 1410MHz x 2)
INT1, Tensor Core	4990(= 108 x 16384 x 1410MHz x 2)