Lambda Lab 出品
伊瓢编译
量子位报道 | 公众号 QbitAI

英伟达新发布的RTX 2080 Ti跑深度学习怎么怎么样？

美国人工智能公司Lambda用TensorFlow测试了RTX 2080 Ti。相比1080 Ti， 2080 Ti值得买么？

TL; DR

· 在RTX 2080 Ti上用TensorFlow单精度（FP32）训练CNN比1080 Ti快27％到45％。
· 在RTX 2080 Ti上用TensorFlow半精度（FP16）训练CNN比1080 Ti快60％到65％。
· 如果你做FP16训练，RTX 2080 Ti可能物有所值。做其他训练的话，你需要考虑是否值得为平均增加36％的速度增加71%的成本。

△ 2080 Ti单精度ResNet-152训练的速度是1080Ti的1.41倍

△ 2080 Ti半精度ResNet-152训练的速度是1080Ti的1.65倍

△ 各种模型上的2080 Ti表现比较

原始基准数据

2080 Ti和1080 Ti的单精度表现

我们用TensorFlow模型对2080 Ti和1080 Ti进行了单精度（FP32）训练的基准测试，计量每秒处理的图像（图像/秒）。基准测试可以在文末传送门处找到，下文会提到具体方法。

△ 在FP32训练中2080 Ti相比1080Ti的提速倍数

△ 原始FP32训练速度（图像/秒）

2080 Ti和1080 Ti的半精度性能

半精度算术足以训练许多网络。我们对VGG16和ResNet-152的半精度（FP16）训练的2080 Ti和1080 Ti进行基准测试，计量的还是每秒处理的图像（图像/秒）。使用Yusaku Sako基准脚本进行测试。

△ 用于FP16 / FP32训练的2080 Ti加速

△ 原始FP16 / FP32训练速度（图像/秒）

性价比如何？

因为2080 Ti和1080 Ti这两张款GPU都有11 GB的内存，所以我们会考虑在它们身上花的每一分钱值不值。

计量的指标是每美元每秒处理的图像数量。对于FP32和FP16，1080 Ti每美元会花的更值。

然而，Yusaku Sako基准测试中的FP16 ResNet-152的效率增益仅为1080 Ti的4％。对于FP32，ResNet-152的效率提升为21％，VGG16提高37％。

我们分别以700美元和1200美元的发售价来计算1080 Ti和2080 Ti的价格。

因此，如果你要做FP32训练，1080 Ti可能依然是最佳选择，尤其是在荷包压力比较大的情况下。

△ FP16的成本效率

△ FP32的成本效率

测试方法

· 对于每个模型，我们进行了10次训练实验，计数每秒处理的测量图像，取平均值。
· 加速基准是通过每秒处理的图像数量除以该模型每秒处理的图像数量最小值为得分来计算的。这基本上显示了相对于基线的百分比改善（在这种情况下为1080 Ti）。
· 2080 Ti在基准测试中有张量核心。

硬件

· Lambda Quad Basic
· RAM：64 GB DDR4 2400 MHz
· 处理器：Intel Xeon E5-1650 v4
· 主板：华硕X99-E WS / USB 3.1
· GPU：EVGA XC 2080 Ti GPU TU102和华硕1080 Ti Turbo GP102

软件

· Ubuntu 18.04（仿生）
· TensorFlow 1.11.0-rc1
· CUDA 10.0.130
· CuDNN 7.3

可重现

Lambda Lab已经把基准测试代码开源了，你也可以自己尝试重现一下。

第一步：复制基准报告

1git clone https://github.com/lambdal/lambda-tensorflow-benchmark.git --recursive

第二步：运行基准测试

· 输入正确的gpu_index（默认值为0）和num_iterations（默认值为10）

1cd lambda-tensorflow-benchmark2./benchmark.sh gpu_index num_iterations

第三步：获得结果

· 检查repo目录中的文件夹 - .logs（由benchmark.sh生成）

· 在基准测试和报告中使用相同的num_iterations。

1./report.sh <cpu>-<gpu>.logs num_iterations

批量大小使用

传送门

Lambda Lab测试原文：
https://lambdalabs.com/blog/2080-ti-deep-learning-benchmarks/

github基准测试代码：
https://github.com/lambdal/lambda-tensorflow-benchmark

Yusaku Sako基准脚本：
https://github.com/u39kun/deep-learning-benchmark

— 完 —

加入社群

量子位AI社群28群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

英伟达RTX 2080 Ti值得买么？深度学习测试来了！相关推荐

ubuntu18.04系统外接显卡（英伟达RTX 2080 Ti）驱动安装
1.ubuntu18.04系统安装基于win10 网上教程很多,略... :) 2.硬件设备带雷电3接口的笔记本,我这里是联想的YOGA S740(自带一块MX250独显 ),别的本本也行,一定得雷 ...
AMD推出7nm高端显卡Radeon VII，直指英伟达RTX 2080
显卡战争已经发展到了2019年,并且变得比任何人预想的都要激烈. CES 2019大会上,AMD发布了第一款消费级的 7nm GPU,取名:Radeon VII.据了解,这不是 AMD 的第一颗 7n ...
英伟达RTX 4070 Ti显卡正式发布！你会买吗？
在2022年刚刚过去,显卡市场寒气逼人的情况下,英伟达正式发布RTX 4070 Ti显卡,它能拯救出货量创20年新低,比2021年同期下跌50%的独显市场吗?我们一起来看看. 驱动哥此前一直在关注40 ...
英伟达RTX 2080/2080Ti发布及UltraLAB采用最新turing图灵架构深度学习硬件配置推荐
英伟达在今晚的发布会上正式公布了全新的RTX 2070.RTX 2080以及RTX 2080Ti显卡,Turing GPU基于台积电12nm+工艺,完整的TU102核心(Quadro RTX 8000 ...
Centos8安装英伟达显卡驱动并通过docker部署深度学习环境
20201107 - 每个人的机器和实际需要的环境都不一样,本文只是提供了在自己实验室centos8上的部署过程,部署过程中,没有什么问题.请谨慎参考本篇文章,以免浪费宝贵时间. 0. 引言之前的时 ...
ChatGPT 开始摧毁在线教育公司；与苹果、迪士尼和网飞纠纷中美国编剧协会罢工；英伟达将在今年进行 IPO；深度学习之父从谷歌离职；硅谷银行破产报告……《经济学人 | 第 19周》
ChatGPT 开始摧毁在线教育公司 The disruptive potential of generative artificial intelligence came into sharp fo ...
英伟达 Nano 新手必读：Jetson Nano 深度学习算法模型基准性能测评
NVIDIA在2019年NVIDIA GPU技术会议(GTC)上宣布了Jetson纳米开发工具包,这是一款99美元的计算机,目前可供嵌入式设计师.研究人员和DIY制造商使用,在一个紧凑.易用的平台上, ...
未能加载程序集或它的一个依赖项_英伟达发布kaolin:一个用于加速3D深度学习研究的PyTorch库...
由于大多数现实环境是三维的,因此理想情况下,应针对3D数据训练旨在分析视频或现实环境中的完整任务的深度学习模型.诸如机器人,自动驾驶汽车,智能手机和其他设备之类的技术工具目前正在产生越来越多的3-D数 ...
英伟达RTX 3080值不值得抢？在TensorFlow上训练了卷积网络
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散仅作学术分享,不代表本公众号立场,侵权联系删除转载于:机器之心 AI博士笔记系列推荐周志华<机器学习> ...

英伟达RTX 2080 Ti值得买么？深度学习测试来了！

Lambda Lab 出品
伊瓢编译
量子位报道 | 公众号 QbitAI

TL; DR

△ 2080 Ti单精度ResNet-152训练的速度是1080Ti的1.41倍

△ 2080 Ti半精度ResNet-152训练的速度是1080Ti的1.65倍

△ 各种模型上的2080 Ti表现比较

原始基准数据

2080 Ti和1080 Ti的单精度表现

△ 在FP32训练中2080 Ti相比1080Ti的提速倍数

△ 原始FP32训练速度（图像/秒）

2080 Ti和1080 Ti的半精度性能

△ 用于FP16 / FP32训练的2080 Ti加速

△ 原始FP16 / FP32训练速度（图像/秒）

性价比如何？

△ FP16的成本效率

△ FP32的成本效率

测试方法

硬件

软件

可重现

第一步：复制基准报告

第二步：运行基准测试

第三步：获得结果

批量大小使用

传送门

英伟达RTX 2080 Ti值得买么？深度学习测试来了！相关推荐

最新文章

热门文章

英伟达RTX 2080 Ti值得买么？深度学习测试来了！

Lambda Lab 出品 伊瓢 编译 量子位 报道 | 公众号 QbitAI

TL; DR

△ 2080 Ti单精度ResNet-152训练的速度是1080Ti的1.41倍

△ 2080 Ti半精度ResNet-152训练的速度是1080Ti的1.65倍

△ 各种模型上的2080 Ti表现比较

原始基准数据

2080 Ti和1080 Ti的单精度表现

△ 在FP32训练中2080 Ti相比1080Ti的提速倍数

△ 原始FP32训练速度（图像/秒）

2080 Ti和1080 Ti的半精度性能

△ 用于FP16 / FP32训练的2080 Ti加速

△ 原始FP16 / FP32训练速度（图像/秒）

性价比如何？

△ FP16的成本效率

△ FP32的成本效率

测试方法

硬件

软件

可重现

第一步：复制基准报告

第二步：运行基准测试

第三步：获得结果

批量大小使用

传送门

英伟达RTX 2080 Ti值得买么？深度学习测试来了！相关推荐

最新文章

热门文章

Lambda Lab 出品
伊瓢编译
量子位报道 | 公众号 QbitAI