TensorFlow的RTX 2080 Ti深度学习基准-2020年

在本文中,Lambda讨论了RTX 2080 Ti与其他GPU相比的深度学习性能。我们使用RTX 2080 Ti来训练ResNet-50,ResNet-152,Inception v3,Inception v4,VGG-16,AlexNet和SSD300。我们在训练每个网络时测量每秒处理的图像数。

一些注意事项:

  • 我们使用TensorFlow 1.12 / CUDA 10.0.130 / cuDNN 7.4.1
  • 单GPU基准测试在Lambda的深度学习工作站上运行
  • 多GPU基准测试在Lambda刀片上运行-深度学习服务器
  • V100基准在Lambda Hyperplane上运行-Tesla V100服务器
  • Tensor Core已在所有具有Tensor Core的GPU上使用

RTX 2080 Ti-FP32 TensorFlow性能(1 GPU)

对于神经网络的FP32训练,RTX 2080 Ti是...

  • 比RTX 2080快37%
  • 比GTX 1080 Ti快35%
  • 比Titan XP快22%
  • 速度是Titan V的96%
  • 相当于Titan RTX的87%
  • 与Tesla V100(32 GB)一样快73%

通过训练期间每秒处理的#张图像来衡量。

RTX 2080 Ti-FP16 TensorFlow性能(1 GPU)

RTX 2080 Ti用于神经网络的FP16训练。

  • 比GTX 1080 Ti快72%
  • 比Titan XP快59%
  • 比RTX 2080快32%
  • 速度是Titan V的81%
  • 速度是Titan RTX的71%
  • 速度是Tesla V100(32 GB)的55%

通过训练期间每秒处理的#张图像来衡量。

FP32多GPU扩展性能(1、2、4、8 GPU)

对于每种GPU类型(RTX 2080 Ti,RTX 2080等),我们在训练每个神经网络上的1、2、4和8个GPU时进行性能测试,然后取平均结果。下图提供了有关在FP32中对神经网络进行多GPU训练期间如何扩展每个GPU的指南。RTX 2080 Ti的缩放比例如下:

  • 2个RTX 2080 Ti GPU的训练速度将比1个RTX 2080 Ti快1.8倍
  • 4个RTX 2080 Ti GPU的训练速度将比1个RTX 2080 Ti快约3.3倍
  • 8倍RTX 2080 Ti GPU的训练速度将比1倍RTX 2080 Ti快约5.1倍

RTX 2080 Ti-FP16和FP32

使用FP16可以减少训练时间并支持更大的批次大小/模型,而不会显着影响训练模型的准确性。与FP32相比,RTX 2080 Ti上的FP16培训是...

  • 在ResNet-50上快59%
  • 在ResNet-152上快52%
  • Inception v3快47%
  • 在Inception v4上快34%
  • 在VGG-16上快50%
  • 在AlexNet上快38%
  • SSD300快31%

通过训练期间每秒处理的图像数来衡量。平均速度提高了+ 44.6%。

警告:如果您是机器学习的新手,或者只是测试代码,我们建议使用FP32。将精度降低到FP16可能会干扰收敛。

GPU价格

  • RTX 2080 Ti:1,199.00美元
  • RTX 2080:799.00美元
  • 泰坦RTX:2,499.00美元
  • 泰坦五世:$ 2,999.00
  • 特斯拉V100(32 GB):〜$ 8,200.00
  • GTX 1080 Ti:699.00美元
  • Titan Xp:1,200.00美元

方法

  • 对于每个模型,我们进行了10次训练实验,并测量了每秒处理的图像数量;然后,我们将10个实验的结果取平均值。
  • 对于每个GPU /神经网络组合,我们使用了适合内存的最大批处理大小。例如,在ResNet-50上,V100的批处理大小为192;RTX 2080 Ti使用的批处理大小为64。
  • 我们使用合成数据而非真实数据来最大程度地减少与GPU不相关的瓶颈
  • 多GPU训练是使用模型级并行性进行的

硬件

  • 单GPU培训:Lambda Quad深度学习工作站。CPU:i9-7920X / RAM:64 GB DDR4 2400 MHz
  • 多GPU培训:Lambda Blade-深度学习服务器。CPU:至强E5-2650 v4 / RAM:128 GB DDR4 2400 MHz ECC
  • V100基准:Lambda Hyperplane-V100服务器。CPU:至强金牌6148 / RAM:256 GB DDR4 2400 MHz ECC

软件

  • Ubuntu 18.04(仿生)
  • TensorFlow 1.12
  • CUDA 10.0.130
  • cuDNN 7.4.1

在您自己的计算机上运行基准测试

我们的基准测试代码在github上。如果您通过发送电子邮件至s@lambdalabs.com或发推文@LambdaAPI与我们共享结果,我们将非常乐意。

步骤1:克隆基准存储库

git clone https://github.com/lambdal/lambda-tensorflow-benchmark.git --recursive

步骤2:运行基准测试

  • 输入正确的gpu_index(默认值为0)和num_iterations(默认值为10)
cd lambda-tensorflow-benchmark
./benchmark.sh gpu_index num_iterations

步骤3:报告结果

  • 检查repo目录中的文件夹<cpu>-<gpu> .logs(由Benchmark.sh生成)
  • 在基准测试和报告中使用相同的num_iterations。
./report.sh <cpu>-<gpu>.logs num_iterations

原始基准数据

FP32:在TensorFlow训练期间按每秒处理的图像数量(1个GPU)

型号/ GPU RTX 2080钛 RTX 2080 泰坦RTX 泰坦五世 V100 泰坦Xp 1080钛
ResNet-50 294 213 330 300 405 236 209
ResNet-152 110 83 129 107 155 90 81
盗梦空间v3 194 142 221 208 259 151 136
盗梦空间v4 79 56 96 77 112 63 58
VGG16 170 122 195 195 240 154 134
亚历克斯网 3627 2650 4046 3796 4782 3004 2762
固态硬盘300 149 111 169 156 200 123 108

FP16:在TensorFlow训练期间按每秒处理的图像数量(1个GPU)

型号/ GPU RTX 2080钛 RTX 2080 泰坦RTX 泰坦五世 V100 泰坦Xp 1080钛
ResNet-50 466 329 612 539 811 289 263
ResNet-152 167 124 234 181 305 104 96
盗梦空间v3 286 203 381 353 494 169 156
盗梦空间v4 106 74 154 116 193 67 62
VGG16 255 178 383 383 511 166 149
亚历克斯网 4988 3458 6627 6746 8922 3104 2891
固态硬盘300 195 153 292 245 350 136 123
翻译部分自: RTX 2080 Ti Deep Learning Benchmarks with TensorFlow

Tensorflow与keras学习 (9)——TensorFlow的RTX 2080 Ti深度学习训练基准相关推荐

  1. 基于TensorFlow使用RTX 2080 Ti深度学习基准(2020年)

    在本文中,讨论了RTX 2080 Ti与其他GPU相比的深度学习性能.我们使用RTX 2080 Ti来训练ResNet-50,ResNet-152,Inception v3,Inception v4, ...

  2. 显卡显存测试u盘 mats_影驰RTX 2080 Ti HOF Plus显卡评测:披坚执锐的性能王冠守护者...

    自影驰推出名人堂系列距今已有9年了.将系列名称定为"名人堂",能冠以"Hall of Fame"的产品自然非等闲之辈. 在DIY市场中,性能永远是玩家热议的话题 ...

  3. TensorFlow贡献者黄文坚:解读对比13个深度学习框架后的选择

    [AI创新者]TensorFlow贡献者黄文坚:解读对比13个深度学习框架后的选择 AI创新者 Google 人工智能 深度学习 TensorFlow 阅读5774  [AI创新者]是CSDN人工智能 ...

  4. 我用 tensorflow 实现的“一个神经聊天模型”:一个基于深度学习的聊天机器人

    我用 tensorflow 实现的"一个神经聊天模型":一个基于深度学习的聊天机器人 个工作尝试重现这个论文的结果A Neural Conversational Model(aka ...

  5. 英伟达RTX 2080 Ti值得买么?深度学习测试来了!

    Lambda Lab 出品  伊瓢 编译  量子位 报道 | 公众号 QbitAI 英伟达新发布的RTX 2080 Ti跑深度学习怎么怎么样? 美国人工智能公司Lambda用TensorFlow测试了 ...

  6. Win10+CUDA11.0+RTX 3060ti GPU深度学习主机 pytorch 环境

    Win10+CUDA11.0+RTX 3060ti GPU深度学习主机 pytorch 环境 0. 前言 1. 安装Anaconda ***** 新建环境 ***** 2. 安装CUDA和cuDNN ...

  7. 五本必读的深度学习圣经书籍,入门 AI 从 深度学习 开始

    原标题:`五本必读的深度学习圣经书籍,入门 AI 从「深度学习」开始` (以下以 Daniel Jeffries 第一人称撰写) 多年来,由于实验室研究和现实应用效果之间的鸿沟,少有人持续研究人工智能 ...

  8. 深度学习三巨头共同发文,聊聊深度学习的过去、现在与未来

    作者|Yoshua Bengio,Yann LeCun,Geoffrey Hinton 译者|香槟超新星 出品|AI科技大本营(ID:rgznai100) 人工神经网络领域的研究是基于对人类智能的观察 ...

  9. 深度学习入门笔记(十七):深度学习的极限在哪?

    欢迎关注WX公众号:[程序员管小亮] 专栏--深度学习入门笔记 声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献. 2)本文仅供学术交流,非商用.所以每一部分具 ...

最新文章

  1. HTML5 特性检测:Canvas(画布)
  2. 阿里mysql连接数据库服务器配置_配置链接mysql数据库
  3. python列表写入csv文件_将多个列表写入csv。Python中的文件
  4. 跟我一起学Redis之Redis配置文件啃了一遍之后,从尴尬变得有底气了(总结了一张思维图)...
  5. canvas绘制竖排的数字_大佬教你用Python Tkinter实现数字猜谜小游戏
  6. django框架基础
  7. 造梦工厂宿舍大楼项目远程预付费电能管理系统的设计与应用
  8. java 传输 udp_java UDP传输
  9. xxx项目接口文档模板
  10. SSH工具连接谷歌云VPS实例
  11. excel函数提取计算机登录名,excel常用函数怎么提取姓氏?excel常用函数提取姓氏的方法...
  12. php语言标记可用什么符号,【单选题】不可用作PHP语言标记用的是什么( )符号 A. ? B. 〈php C. ?...
  13. shader篇-动画
  14. unity2018 Image使用Sliced九宫格进行调整
  15. matlab保存nii_Matlab实现NIfTI(ANALYZE)核磁共振图像读写
  16. Android应用程序的开发
  17. LaTex笔记:参考文献、常用公式符号、图表、注释
  18. html dom节点取父节点,JavaScript DOM父子兄节点操作必看详解
  19. Vscode批量处理
  20. 主编编辑器如何添加超链接?

热门文章

  1. Linux部署jupyterlab
  2. postgis 返回 geojson
  3. 极少有人知道的手机4大隐藏功能
  4. 如何让2010 excel同时显示两个窗口
  5. flex弹性布局常用属性
  6. 啊哈算法——第一章:排序
  7. 计算机毕业设计springboot酒店客房管理系统e03qm源码+系统+程序+lw文档+部署
  8. 2018 Multi-University Training Contest 4__全部题解+标程
  9. Maven Repository Checkup
  10. 用SYSTEMTIME和GetLocalTime实现实时钟表