滴滴云A100 40G 性能测试 V100陪练!
眼看游戏卡RTX3080 发售在即,我终于等到了滴滴云(感谢)A100的测试机会。因为新卡比较紧张,一直在排队中,直到昨天才拿了半张A100...今天终于上手了单张40G的A100,小激动,小激动,小激动!!!基于安培架构的最新一代卡皇(NVIDIA GPU A100 Ampere)可以搞起来了。
Part 1:系统环境
A100正处于内存阶段,官网上还看不到。内测通过ssh连接,ssh连上去之后大概看了下系统环境。
操作系统,CPU,RAM数据如上。重点关注GPU:A100-SXM4-40GB (上次摸DGX A100的时候,没有把测试跑起来,好悔)
CUDA11,CudNN,TensorFlow1.5.2 等配套环境滴滴云都已经部署好了,可以省去好多时间!
这里需要注意,新版显卡必须要用CUDA11,而且得用NV自己编译的TensorFlow1.5.2。
然后,网上捞一段Python代码:
from tensorflow.python.client
import device_lib print(device_lib.list_local_devices())
输出:
Created TensorFlow device (/device:GPU:0 with 36672 MB memory) -> physical GPU (device: 0, name: A100-SXM4-40GB, pci bus id: 0000:cb:00.0, compute capability: 8.0)
[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 3653225364972814250
, name: "/device:XLA_CPU:0"
device_type: "XLA_CPU"
memory_limit: 17179869184
locality {
}
incarnation: 7582640257522961335
physical_device_desc: "device: XLA_CPU device"
, name: "/device:XLA_GPU:0"
device_type: "XLA_GPU"
memory_limit: 17179869184
locality {
}
incarnation: 5159602092499780099
physical_device_desc: "device: XLA_GPU device"
, name: "/device:GPU:0"
device_type: "GPU"
memory_limit: 38453856175
locality {bus_id: 6numa_node: 5links {}
}
incarnation: 3682405687960901280
physical_device_desc: "device: 0, name: A100-SXM4-40GB, pci bus id: 0000:cb:00.0, compute capability: 8.0"
]
可以看到有XLA_GPU和GPU,物理设备型号为A100-SXM4-40GB,算力8.0,调用应该没问题!
Part 2:掂量掂量
卡到手了,肯定是要测一测!
既然是测试,肯定需要有陪跑选手滴。这里用到的设备为谷歌Colab的V100 16G,矩池云的2080TI 11G(为啥要拉上我这个性价比之王 ╰(艹皿艹 ) ,曾经的我随风飞扬,现在的我感觉天台的风好凉)。
设备有了,怎么测试才科学呢?用娱乐大师么? 不行滴,不行滴,不行滴!
首先,操作系统都是 Ubuntu18.04,跑不了Window上的软件。
其次,这里主要是比较深度学习能力,不比吃鸡能力。
深度学习卡能干什么?炼丹咯!
刚好看到(蓄谋已久)TensorFlow官方有提供Benchmarks,可以测试一些常见模型,那我就现学现卖用这个来做个“业余”测试吧,本文提供数据仅供参考,如有谬误,不要找我!
项目地址:
https://github.com/tensorflow/benchmarks
运行前需要先安装好CUDA,Cudnn,和TensorFlow,基本没什么多余的依赖。
三行命令就可以跑起来了
git clone https://github.com/tensorflow/benchmarks.git
cd benchmarks/scripts/tf_cnn_benchmarks
python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=32 --model=resnet50
如果要测试特定的版本:
git checkout cnn_tf_v1.15_compatible
这里注意区分1.15和1.5版本,别搞错哦!
Part 3:测试结果
怀着无比激动的心情,重复着无比枯燥的复制黏贴,终于把表格做出了。每次跑会有一些微小的差别,但是整体偏差不会太高。
Model /GPU | A100 | V100 | 2080ti |
ResNet50 | 645.26 | 386.06 | 303.65 |
AlexNet | 8282.46 | 4808.18 | 3905.13 |
Inception v3 | 440.01 | 254.19 | 198.97 |
VGG16 | 442.20 | 250.19 | 178.02 |
GoogLeNet | 1556.06 | 1029.42 | 777.65 |
ResNet152 | 228.29 | 138.39 | 115.28 |
A100 VS V100 VS 2080ti
这张表格使用Benchmarks的默认参数对比了A100,V100, 2080ti的性能。横向为GPU,列为模型名称,中间的为吞吐量images/sec,数字越大就证明越强。从结果来看,A100 Vs V100,基本保持在1.5倍上,比较好的能达到1.7倍左右。
上面为默认参数,下面使用--use_fp16比较一下A100和V100的差距。
Model /GPU | A100 | V100 |
ResNet50 | 1315.11 | 914.24 |
AlexNet | 10587.67 | 8810.04 |
Inception v3 | 946.03 | 579.62 |
VGG16 | 687.07 | 428.17 |
GoogLeNet | 2680.27 | 1878.02 |
ResNet152 | 395.34 | 293.98 |
A100 Vs V100 FP16
因为之前跑了20G的A100,所以也来比较一下通过MIG分割后的卡和单卡之间的差别。
MIG是multi-instance-gpu的缩写,多实例 GPU (MIG) 可提升每个 NVIDIA A100 Tensor 核心 GPU 的性能和价值。MIG 可将 A100 GPU 划分为多达七个实例,每个实例均与各自的高带宽显存、缓存和计算核心完全隔离。
模型/显卡 | A100 40G(单张) | A100 20G(半张) |
ResNet50 | 645.26 | 309.91 |
AlexNet | 8282.46 | 3694.83 |
Inception v3 | 440.01 | 226.36 |
VGG16 | 442.20 | 187.99 |
GoogLeNet | 1556.06 | 748.62 |
ResNet152 | 228.29 | 119.79 |
A100 40G VS MIG 20G
从结果来看,40G和20Gx2有输有赢。也就是说MIG切完后性能并没有掉很多。
因为我手上显卡资源匮乏,没有其他设备,所以网上找了一张表格,可以通过V100作为参考系,对比一下其他设备和A100的差距。
再贴两张官方的性能对比图
从官方的图来看,8张A100最好的情况下能达到8张V100的6倍多。其中跑ResNet-50 V1.5的时候大概能达到两倍,刚好TensorFlow Benchmarks提供了这个模型。那我就顺手测一测,如果有不一致,肯定是我的打开方式不对,老黄请不要拿RTX3090显卡砸我,我会空手接...!
Model /GPU | A100 | V100 |
ResNet-50 V1.5 | 606.23 | 349.78 |
ResNet-50 V1.5 FP16 | 1341.26 | 851.87 |
拿出计算器滴滴滴:
606.23 / 349.78 = 1.7331751386585853965349648350392
1341.26 / 859.04 = 1.5744890652329580804582858886919
老黄诚不我欺,四舍五入一下真的是两倍哎!
当然,严格来说,我们的测试环境还是存在不小的差异。NV官方是8卡对决(家里没矿,但是卡多啊),能保证测试过程中其他变量保持一致。我这是随手取了两个平台的单卡。
Part 4:简单总结
《性能提升20倍:英伟达GPU旗舰A100登场》这样的媒体报道,就只能当故事汇了。正常的大厂都不可能这么升级,老黄的刀法也不允许这种事情发生,一年一刀,一刀一倍不香么。从实际情况来看,A100单手怼2080ti(2倍+), 双脚踩V100(1.5倍+)是没有问题滴。
滴滴云对于A100的跟进速度相当之快,很早就开始筹备,现在已经开放测试申请了,如果有需要的可以去申请测试。
要用GPU的可以去他们官网看看,性价比很高(大师码:8888)。
================
原地址:https://www.tonyisstark.com/383.html
滴滴云A100 40G 性能测试 V100陪练!相关推荐
- 滴滴云A100 GPU裸金属服务器性能及硬件参数详解
滴滴云A100 GPU裸金属服务器(BMS)是基于NVIDIA A100 GPU推出的公有云裸金属服务器产品,NVIDIA A100 Tensor Core GPU基于最新的Ampere架构,相比上一 ...
- gpu云服务器运行游戏_滴滴云不甘寂寞,国内首发一款GPU云服务器
北京时间9月1日,滴滴云发布基于NVIDIA Tesla A100 GPU的云服务器产品,据悉滴滴云是该型GPU云服务器产品的国内首发云厂商. 滴滴云基于A100 GPU的产品包括裸金属服务器(BMS ...
- mysql 默认时间_使用Sysbench对滴滴云MySQL进行基准测试
Sysbench是一款开源的多线程.跨平台的基准测试工具,可以执行CPU/内存/线程/IO/数据库等方面的性能测试.本文使用Sysbench针对滴滴云的MySQL进行基准测试. 本文使用的MySQL数 ...
- 2021阿里云、腾讯云、华为云、滴滴云评测比较
由于工作的原因,所以各家云服务器都有在测试使用,主要介绍4家我使用感觉比较好的服务器. 目录 各大主流云服务器控制台界面直观比较 2020年主流各大云服务器价格配置比较表 新老用户优惠券领取 各大主流 ...
- 在滴滴云上搭建 API-Gateway Kong 实践
1. 什么是 API-Gateway ?什么是 Kong ? API-Gateway 是微服务架构体系中一个比较重要的组件,它通常构成所有微服务的入口,它的职责比较多,其较为通用的一些功能是: 路由: ...
- 基于滴滴云安装 Docker 并上传镜像到滴滴云 Docker 仓库
前言 Docker 简化了容器中应用程序进程的管理过程.容器允许您在资源隔离的进程中运行应用程序.容器与虚拟机类似,但容器更便携.更资源友好,并且更依赖于主机操作系统. 本文将介绍如何用滴滴云服务器在 ...
- 滴滴云部署 Hadoop2.7.7+Hive2.3.4
1.本例集群架构如下: 此处我们使用的是滴滴云主机内网 IP,如果需要外部访问 Hadoop,需要绑定公网 IP 即 EIP.有关滴滴云 EIP 的使用请参考以下链接: https://help.di ...
- 微信小程序开发|基于微信小程序的健身陪练系统的设计与实现
作者主页:编程指南针 作者简介:Java领域优质创作者.CSDN博客专家 .CSDN内容合伙人.掘金特邀作者.阿里云博客专家.51CTO特邀作者.多年架构师设计经验.腾讯课堂常驻讲师 主要内容:Jav ...
- 郎朗再度携手VIP陪练《天才小琴童》,决赛现场演绎大师经典
来源:金融界百家 "练琴需要天赋,但后天的练习同样很关键,这才是我们为什么需要陪练嘛".3月20日,VIP陪练"和郎朗一起玩音乐暨天才小琴童第三季"颁奖盛典成功 ...
最新文章
- 【转】js实现复制到剪贴板功能,兼容所有浏览器
- Spring Security 入门(四):自定义-Filter
- MySQL中的重做日志(redo log),回滚日志(undo log),以及二进制日志(binlog)的简单总结
- 从0到50家AI独角兽,中国人工智能凭什么让世界刮目相看?
- C语言头文件避免重复包含
- 多GPU真的能加速吗?
- zookeeper删除节点的权限_Zookeeper使用超级用户删除带权限的节点
- mysql 字段类型设计_Mysql字段类型设计相关问题!-阿里云开发者社区
- DataList项模板中的div在后台得到方法
- oopc——2.类与对象
- python编程入门电子书-Python编程基础 PDF 原书高质量版
- 用PHP爬取知乎的100万用户
- idea设置Maven本地仓库
- fractal 分形维数 盒子维 纹理特征
- 判断是否为回文——判断用户输入的字符串是否为回文。回文是指正反拼写形式都是一样的词,譬如“racecar”。
- accept函数的参数不是随便填的
- 联想笔记本e480恢复出厂设置_联想e480恢复【快速学会免费恢复】
- 2021 第四届安洵杯 MISC wp
- 计算机制图如何绘制太极图,太极图,如何用PS绘制太极图?
- TIM/QQ——将群文件中的临时文件转换成永久文件的方法
热门文章
- python生成订单失败_尝试在Steam上创建购买订单时请求错误(400)
- Excel在统计分析中的应用—第十二章—回归分析与预测-应用LINEST函数进行回归分析
- windows下gromacs中文教程(simulate chain A of insulin (PDB ID: 1ZNI).
- js中复制对象的属性值给新的对象
- 无法打开U盘中的虚拟机
- 小猿圈解析linxu安装方式
- Android实现简单账号密码登录
- VUEPC和手机屏幕适配
- java图形打字机_Android模仿打字机效果的自定义View实现
- [小小明]Python正则表达式速查表与实操手册