晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

NVIDIA最近发布了备受期待的RTX 30系列显卡。

其中,性能最强大的RTX 3090具有24GB显存10496个CUDA核心。而2018年推出的旗舰显卡Titan RTX同样具有24GB显存。

Titan RTX

RTX 3090

架构

图灵TU102

安培GA102

CUDA核心

4609

10496

张量核心

576

328

显存

24GB

24GB

显存带宽

672GB/s

936GB/s

TDP

285W

350W

RTX 3090在深度学习训练任务中,性能表现究竟如何,它能否取代Titan RTX成为最强消费级AI训练卡?现在已经有了答案。

国外两位AI从业者在拿到这款显卡后,第一时间测试了其在TensorFlow上的AI训练性能。

由于RTX 3090现阶段不能很好地支持TensorFlow 2,因此先在TensorFlow 1.15上进行测试。

话不多说,先看数据。在FP32任务上,RTX 3090每秒可处理561张图片,Titan RTX每秒可处理373张图片,性能提升50.4%

而在FP16任务上,RTX 3090每秒可处理1163张图片,Titan RTX每秒可处理1082张图片,性能仅提升7.5%

为何在FP32任务上的性能提升比在FP16上更明显,主要是因为RTX 3090大大提高了CUDA核心的数量。但是用于处理FP16的张量核心数量明显减少,这可能会影响FP16性能。

即便如此,张量核心更少的RTX 3090在很多FP16任务上,性能依然有小幅提升。

随后,英伟达官方提供了支持RTX 3090的CUDA 11.1,谷歌官方在TensorFlow nightly版中提供了对最新显卡的支持。

又有用户再次测试了两款显卡的性能对比。

FP16

FP32

Titan RTX

RTX 3090

Titan RTX

RTX 3090

AlexNet

6634

8255

4448

6493

Inception3

656.1

616.3

223

337.3

Inception4

298.1

132.7

99.74

143.7

ResNet152

423.9

484

134.5

203.6

ResNet150

966.8

1260

336

525.9

VGG16

339.7

442.5

212.1

325.6

 训练性能:每秒处理的图片数量

可以看出,使用FP32进行的所有模型训练,RTX 3090都能实现40%~60%的训练提升。而大多数模型的FP16训练速度几乎不变,最多提升20%,甚至在Inception模型上还有所下降。

只能说RTX 3090在张量核心上的“刀法”颇为精准,如果你对FP16训练性能有较高要求,也许可以等待今后的升级版。

不过RTX 3090上市价格仅1499美元,比Titan RTX便宜1000美元,仍不失为“性价比”之选。

参考链接:

https://www.pugetsystems.com/labs/hpc/RTX3090-TensorFlow-NAMD-and-HPCG-Performance-on-Linux-Preliminary-1902/

https://www.evolution.ai/post/benchmarking-deep-learning-workloads-with-tensorflow-on-the-nvidia-geforce-rtx-3090

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

榜单征集!7大奖项锁定AI TOP企业

「2020中国人工智能年度评选」正式启幕!将从公司、人物、产品、社区四大维度共7个奖项寻找优秀的AI企业,欢迎大家扫码报名参与。

榜单将于12月揭晓,也期待与百万从业者们,共同见证这些优秀企业的荣誉!

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

RTX 3090 AI性能实测:FP32训练速度提升50%,张量核心缩水相关推荐

  1. 【云原生AI】Fluid + JindoFS 助力微博海量小文件模型训练速度提升 18 倍

    简介: 深度学习平台在微博社交业务扮演着重要的角色.计算存储分离架构下,微博深度学习平台在数据访问与调度方面存在性能低效的问题.本文将介绍微博内部设计实现的一套全新的基于 Fluid(内含 Jindo ...

  2. 阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :量子位 AI博士笔记系列推 ...

  3. 旷视孙剑博士提出LGD,训练速度提升51%,适用于目标检测的知识蒸馏

    来源:新智元 [导读]知识蒸馏已经成了目前常用的模型压缩方法,但相关研究还局限在图像分类任务上.最近旷视孙剑博士联手西安交大发表了一篇论文,提出新模型LGD,无需一个强力的teacher模型也能在目标 ...

  4. 单机训练速度提升高达640倍,快手开发GPU广告模型训练平台

    作者|廉相如(快手FeDA智能决策实验室 ) 如何有效处理大规模用户数据进行广告推荐?对于互联网企业的发展和进步至关重要.这也是为何快手成立西雅图实验室并实现新一代GPU广告模型训练平台的原因之一.快 ...

  5. 将sklearn训练速度提升100多倍,美国「返利网」开源sk-dist框架

    点击我爱计算机视觉标星,更快获取CVML新技术 本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载 选自Medium 作者:Evan Harris 机器之心编译 参与: ...

  6. 开源sk-dist,超参数调优仅需3.4秒,sk-learn训练速度提升100倍

    作者 | Evan Harris 译者 | Monanfei 编辑 | Jane  出品 | AI科技大本营(ID:rgznai100) [导语]这篇文章为大家介绍了一个开源项目--sk-dist.在 ...

  7. 为了不让GPU等CPU,谷歌提出“数据回波”榨干GPU空闲时间,训练速度提升3倍多...

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 因为通用计算芯片不能满足神经网络运算需求,越来越多的人转而使用GPU和TPU这类专用硬件加速器,加快神经网络训练的速度. 但是,用了更快的 ...

  8. 谷歌提出“数据回波”榨干GPU空闲时间,训练速度提升3倍多

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习>手推 ...

  9. alexnet训练多久收敛_如何将深度学习训练速度提升一百倍?PAISoar 来了

    阿里妹导读:得力于数据规模增长.神经网络结构的演进和计算能力的增强,深度学习的图像处理.语音识别等领域取得了飞速发展.随着训练数据规模和模型复杂度的不断增大,如何充分利用分布式集群的计算资源加快训练速 ...

最新文章

  1. HelloServlet
  2. VMware vSphere四种迁移类型的区别与适应场景
  3. Dynamics 365-关于Solution的那些事(一)
  4. win7下构建swarm nodes实现跨host的容器之间的通信
  5. 一键下载,双击上传,带你探索提升工作效率的秘密“武器”
  6. Loader之二:CursorLoader基本实例
  7. SAP云平台和SAP HANA Enterprise Cloud(HEC)的区别
  8. 计算机软件侵权责任,对计算机软件侵权行为认定标准
  9. xshell连接linux出现乱码
  10. c++ mysql 操作_c++操作mysql入门详解
  11. 不同网段的PC与交换机的原理
  12. Linux之-atime、ctime、mtime
  13. 打造自己的Android源码学习环境之三:在虚拟机中安装Ubuntu(下)
  14. [3维影像]360度杯子环绕拍摄
  15. 最新变态传奇android,新开超级变态传奇_刚开一秒的变态传奇手游私服 18183Android游戏频道...
  16. 10003 微信登录失败 redirect_uri域名与后台配置不一致
  17. 深入理解计算机系统bomb实验
  18. Codeforces Raif Round 1 (Div. 1 + Div. 2) 1428D Bouncing Boomerangs 贪心+构造
  19. 仓库盘点好方法,使用安卓盘点机PDA扫描商品条码进行超市盘点
  20. GitHub快速学习-三

热门文章

  1. Git:如何在项目提交历史中查找已删除的文件?
  2. 如何高效地遍历 MongoDB 超大集合?
  3. java 项目使用 ajaxfileupload
  4. Error:No suitable device found: no device found for connection “System eth1″
  5. Unity3D 多平台 预编译 宏定义
  6. 移动平台还有哪些创业机会
  7. 达达真人漫画秀,微博演绎男版杜拉拉生存记
  8. 关于验证码整理的新版本
  9. 自动化测试框架设计模式
  10. Docker安装(Mac)