显卡大幅降价了但是还可以再等等,新的40系列显卡也要发售了,所以我们先看看目前上市的显卡的性能对比,这样也可以估算下40显卡的性能,在以后购买时作为参考。

但是在本文之前一定要说下的是:本文并不推荐现在就买显卡,除非必须,现在一定不要买显卡,谁买谁吃亏,目前的情况是,“等” 就对了

回到正题,在这篇文章中我整理了几个在 NVIDIA GeForce RTX 3090 GPU 进行的深度学习性能基准测试。

一般的情况下我们都会使用 TensorFlow github 中的“tf_cnn_benchmarks.py”脚本来进行深度学习的评测。因为大多数的测试都是基于这个脚本,代码在这里( https://github.com/tensorflow/benchmarks/tree/master/scripts/tf_cnn_benchmarks ),如果你是pytorch也可以参考,显卡的基准测试与使用的框架无关,差别不会超过5%。

首先使用 1、2 和 4 个 GPU 配置(针对 2x RTX 3090 与 4x 2080Ti 部分)运行了相同的测试。确定的批量大小是可以容纳可用 GPU 内存的最大批量。

然后还会比较 2022 年最流行的深度学习 GPU 的性能:除NVIDIA 的 RTX 3090以外还包括了、A100、A6000、A5000 和 A4000等产品。

3090对比其他消费级的产品

首先说结果:NVIDIA RTX 3090 在所有型号上均优于所有 GPU(图像/秒)。2x RTX 3090 > 4x RTX 2080 Ti 。对于深度学习,RTX 3090 是市场上性价比最高的 GPU,可大幅降低 AI 工作站的成本。

RTX 3090 ResNet 50 TensorFlow Benchmark

1x GPU 2x GPU batch size
RTX 2080 Ti 522.52 959.78 128
RTX 6000 637.56 1248.54 512
RTX 8000 604.76 1184.52 1024
TITAN RTX 646.13 1287.01 512
RTX 3090 1139.15 2153.53 512

RTX 3090 ResNet 152 TensorFlow Benchmark

1x GPU 2x GPU batch size
RTX 2080 Ti 209.27 348.8 64
RTX 6000 281.94 519.76 256
RTX 8000 285.85 529.05 512
TITAN RTX 284.87 530.86 256
RTX 3090 457.45 857.14 25

RTX 3090 Inception V3 TensorFlow Benchmark

1x GPU 2x GPU batch size
RTX 2080 Ti 310.32 569.24 128
RTX 6000 391.08 737.77 256
RTX 8000 391.3 754.94 512
TITAN RTX 397.09 784.24 256
RTX 3090 697.98 1296.86 256

RTX 3090 Inception V4 TensorFlow Benchmark

1x GPU 2x GPU batch size
RTX 2080 Ti 150.59 247.16 64
RTX 6000 203.9 392.14 256
RTX 8000 203.67 384.29 512
TITAN RTX 207.98 399.16 256
RTX 3090 360 679.61 256

2x NVIDIA RTX 3090 Vs 4x RTX 2080 Ti

1x GPU 2x GPU 4x GPU batch size
RTX 2080 Ti 522.52 959.78 1836.61 128
RTX 3090 1139.15 2153.53 N/A 512

与 RTX 2080 Ti 的 4352 个 CUDA 核心相比,RTX 3090 的 10496 个 CUDA 核心是其CUDA的两倍多, CUDA 核心是 CPU 核心的 GPU 等价物,并针对同时运行大量计算(并行处理)进行了优化。更多 CUDA 内核通常意味着更好的性能和更快的图形密集型处理。3090 拥有 24GB GDDR6X 内存,也是2080 Ti 11G的2倍多,所以取得这样的结果也是情理之中的。

RTX 3090 vs. RTX 3080 Ti vs A6000 vs A5000 vs A100

RTX 3090 GPU的2.5 插槽设计,只能在风冷时在 2-GPU 配置中进行测试。4-GPU 配置需要水冷。所以这也限制了他的测试,如果我们需要购买多块3090一定要注意机箱的大小。

3090一定要上水冷

RTX 3090 可能遇到的一个问题是散热,主要是在多 GPU 配置中。4 x RTX 3090 配置需要水冷。不仅是散热问题,还因为大小问题。

过热导致性能下降高达 60% ,所以水冷是最好的解决方案;提供 24/7 稳定性、低噪音和更长的硬件寿命。此外,任何水冷式 GPU 都可以保证以最大可能的性能运行。水冷 RTX 3090 将保持在 50-60°C 与风冷时 90°C 的安全范围内(90°C 是 GPU 将停止工作和关闭设定值)。2x 或 4x 风冷 GPU 噪音非常大,尤其是鼓风机式风扇。将工作站放在实验室或办公室是不可能的——更不用说服务器了。水冷解决了台式机和服务器中的这种噪音问题。与风扇相比,噪音降低了 20%(水冷却为 49 dB,最大负载时风扇为 62 dB)。

最后总结

对于大多数用户而言,NVIDIA RTX 3090 或 NVIDIA A5000 将为他们提供物超所值的服务。使用大批量可以让模型训练得更快、更准确,从而节省大量时间。RTX 3090 上 24 GB 的 VRAM 对于大多数用例来说绰绰有余,几乎可以为任何型号和大批量提供空间。

NVIDIA 的 RTX 3090 是目前深度学习和 AI 的最佳 GPU。它具有卓越的性能,非常适合为神经网络提供动力。RTX 3090 是 30 系列中唯一能够通过 NVLink 桥接器进行扩展的 GPU 型号。当与 NVLink 网桥配对使用时,可以将显存扩充为 48 GB 来训练大型模型。

40系列

AMD的7000系列据说要比NV的40系列性能的高,但是目前深度学习框架支持的不好,所以对于深度学习来说还只能用 NV的卡,这个目前来说没有办法。

新的40系列的显卡已经公布了上市的时间今年的第三季度,虽然功率高了(600W),但是相应的算力也高了,18432个CUDA核心、96MB缓存。据说4080就能达到 目前3090的水平,根据上面的测试,1万8的CUDA的表现至少要比 1万出头的3090提高60-70%,所以就像我们最上面说的:不是必要的话现在不要买,买了就吃亏,买了就上当。

深度学习的显卡对比评测:2080ti vs 3090 vs A100相关推荐

  1. TensorFlow领衔,七大深度学习框架大对比!

    作者|黄文坚 唐源 编辑|小智 TensorFlow 在 2015 年年底一出现就受到了极大的关注,在一个月内获得了 GitHub上超过一万颗星的关注,目前在所有的机器学习.深度学习项目中排名第一,甚 ...

  2. DL-5 深度学习框架的对比

    在深度学习领域的五大巨头里,它们都各自力挺一种深度学习框架:像谷歌有自家的TensorFlow.Facebook有Torch.百度有Paddle Paddle.微软有CNTK.而亚马逊的AWS则有MX ...

  3. TensorFlow和Caffe、MXNet、Keras等其他深度学习框架的对比

    2019独角兽企业重金招聘Python工程师标准>>> TensorFlow和Caffe.MXNet.Keras等其他深度学习框架的对比 博客分类: 深度学习 Google 近日发布 ...

  4. 深度学习三大框架对比

    人工智能的浪潮正席卷全球,诸多词汇时刻萦绕在我们的耳边,如人工智能,机器学习,深度学习等."人工智能"的概念早在1956年就被提出,顾名思义用计算机来构造复杂的,拥有与人类智慧同样 ...

  5. 3_深度学习中显卡的使用和显存的分配(20181213)

    深度学习中显卡的使用和显存的分配(20181213) 1.查看机器上GPU的使用情况 2.tensorflow 中显卡使用和显存分配 1.显卡的使用,单显卡和多显卡调用 1.通过设置环境变量设置 禁用 ...

  6. 深度学习: 深度学习框架 横向对比

    综述 名称 发布时间 阵营 源码 star fork TensorFlow Nov 1, 2015 Google.Yahoo! tensorflow/tensorflow 62,648 30,331 ...

  7. 论文阅读学习 - 深度学习网络模型分析对比

    深度学习网络模型分析对比 [Paper - An Analysis of Deep Neural Network Models for Practiacal Applications] 从准确率Acc ...

  8. Jetson Xavier、Jetson TX2、 1080(Ti)、2080显卡运行深度学习模型性能对比(英伟达开发平台VS常用显卡)

    前言:         英伟达的Jetson TX2使得很多人认为深度学习模型终于可以像嵌入式开发平台那样做到小型化了,不用再跑在高配计算机或者服务器上面了,但是实际上Jetson TX2开发板的性能 ...

  9. PaddlePaddle, TensorFlow, MXNet, Caffe2 , PyTorch五大深度学习框架2017-10最新评测

    前言 本文将是2017下半年以来,最新也是最全的一个深度学习框架评测.这里的评测并不是简单的使用评测,我们将用这五个框架共同完成一个深度学习任务,从框架使用的易用性.训练的速度.数据预处理的繁琐程度, ...

最新文章

  1. ZJU-java进阶笔记 第七周(异常处理)
  2. 代码的演化-DI(理解依赖注入di,控制反转ioc)
  3. 重载练习2_判断方法的正确重载
  4. python安卓附带文件_Android QPython3 可视化-文件(夹)选择:ListFile.py
  5. Cannot resolve method addSource
  6. 为什么现在是升级到Java 8的最佳时机
  7. mysql字段分隔符拆分_面试题Mysql数据库优化之垂直分表
  8. ansible动态inventory里的针对AWS中国的设置
  9. waymo数据集下载
  10. 韩寒等50名作家3.15联袂声讨百度侵权
  11. SkyLine——3DGIS三维地理信息系统软件产品介绍
  12. ubuntu 14.04+QT5.5+PyQt5.5+Eric-6开发环境搭建
  13. 熊太行.关系攻略之---正确认识关系和自己
  14. Java插入Excel指定行
  15. LINUX中EABI和ABI的理解
  16. 计算机网红,网红短句
  17. MASK_RCNN与YOLO系列算法初学者笔记(摘抄自其他)
  18. python语法(一)
  19. Windows开发之——超好用的快速搜索工具
  20. 设计模式 —— 装饰者模式

热门文章

  1. 查看局域网内其它电脑名称和IP
  2. Word导入与发送、一键生成PPT文案
  3. 天耀18期 - 02.Java基础-标识符、关键字、数据类型【作业】
  4. Dynamic GCN:Dynamic GCN: Context-enriched Topology Learning for Skeleton-based Action Recognition
  5. 输入一个百分制成绩,要求输出成绩等级A、B、C、D、E,其中90-100分为A,80-89分为B,70-79分为C,60-69分为D,60分以下为E。
  6. [附源码]java毕业设计校园征兵及退役复原管理系统
  7. Visualizing Search Results with Solr /browse Velocity
  8. Huawei RH2288 V3 风扇噪音大的解决方案
  9. Matlab 绘制零极点图
  10. 基于PLC等控制伺服3点坐标系计算