纵观人类几百年来的科技发展史,几乎所有的新兴学科的发展背后都有两个字——“烧钱”!

作为近年来最火热的行业——人工智能,在烧钱方面同样不遑多让。众所周知,人工智能的训练和推理都需要海量的高性能计算,大型企业或者研究机构可以一掷千金部署 HPC;中小型企业或个人研究者通常选择购置性能强劲的 GPU 搭建工作站。那么,2020年的研究者们应该配备什么样的 GPU 才能满足深度学习的需求呢?

做深度学习的朋友都知道,现今深度学习领域最先进的(SOTA)模型往往需要巨大的显存空间,这直接导致了深度学习的研究者们需要配置更强劲的 GPU 设备,否则就会分分钟面临显存不足的窘境。在 techtestreport 的一篇显卡横向测评文章《Best GPU for Deep Learning & AI (2020)》中,研究者们对比了现阶段4款顶尖GPU显卡,并测试了它们对于深度学习 SOTA 模型的支持程度及其AI性能。而更早一些的 lambda 上的一篇结论相似的文章则增加了更多中低端 GPU 的测试。

不管是 techtestreport 还是 lambda ,其最终结论都大同小异:随着深度学习技术的突飞猛进,想要凭借一块 12G 内存的 GPU 通吃图像模型的时代已经一去不复返了——2020年的你至少需要一块2500美元左右的Titan RTX 才可以勉强跑通业界性能最好的模型。

lambda 的评测中包含了以下几款 GPU :

  • RTX 8000:48GB 显存,约 5300 美元
  • RTX 6000:24GB 显存,约 3900 美元
  • Titan RTX:24GB 显存,约 2500 美元
  • RTX 2080Ti:11GB 显存,约 1150 美元
  • RTX 1080Ti:11GB 显存,约 800 美元(翻新)
  • RTX 2080:8GB 显存,约 720 美元
  • RTX 2070:8GB 显存,约 500 美元
  • RTX 2060:6GB 显存,约 359 美元

图像模型测试

评测者在该项测试中选择了CV(计算机视觉)和 NLP(自然语言处理)两个研究方向的顶尖模型进行测试。结果显示,对于图像模型的处理,中低端的基础版 GPU 或 Ti 系的处理效果相差不大,都不尽人意。

与之相对的,以 RTX 8000 为首的3款高端显卡的优势则非常明显。如下图显示,在各个模型中 GPU 的处理能力相对中低端显卡都提升了4-8倍

1. 显存能支持的最大批量大小

如下图显示,在Pix2Pix HD 训练模型中, 24GB 以下显存的( Titan RTX )GPU 根本无法运行。这主要因为输入图像为 2048x1024 的高清大图,训练所需的显存与计算都非常大。

图1 //带*符号表示 GPU 显存不足以运行模型 / 图片来源于网络

2. 性能(每秒处理的图像数量)

评测者选择的均为大模型,即便是其中最快的神经架构搜索模型 NasNet Large,也一直以算力需求大著称。其图像分辨率只有 331x331。

图2 //带*符号表示 GPU 显存不足以运行模型 / 图片来源于网络

语言类模型测试

在语言类模型的测试中,RTX 系高端GPU的优势仍然非常明显。但Titan RTX 却有着更高的性价比。

1. 显存能支持的最大批量大小

评测选择了三个机器翻译模型(前三)和三个预训练语言模型(后三),两者的计数方式不太一样,一条 Sequences 可能相当于几十到几百个 Token。

图3 //带*符号表示 GPU 显存不足以运行模型 / 图片来源于网络

2.性能

图4 //带*符号表示 GPU 显存不足以运行模型 / 图片来源于网络

在这项测试中 RTX 2060 再次被吊打,几乎无法运行大多数模型。而从 RTX2070 直到RTX 2080Ti 也颓势尽显。让人惊喜的是 Titan RTX ,在所有数据上不仅不弱于 RTX 6000 ,甚至有多项数据要强于后者,要知道 RTX 6000 的售价整整高出了将近1500美元!正因为如此, Titan RTX 也被称为此次评测中“物美价廉的深度学习模型性能最佳的GPU”。

测试结果

为了更好理解, lambda 以 Quadro RTX 8000 为基准,将其设定为「1」,其它 GPU 则针对该 GPU 计算出相对性能。如下所示为不同模型在不同 GPU 上进行训练的数据吞吐量:

以上所有测试,lambda 都给出了测试模型与数据集。而测试模型涵盖了图像识别、分割、检测与生成,到机器翻译、语言模型与 GLUE 基准,基本覆盖了 GPU 使用的绝大多数场景。

除了硬件之外,我们还可以从本次测评中观察到近段时间深度学习发展趋势的变化:

  • 语言模型比图像模型更需要大容量显存。这表明语言模型受内存的限制更大,而图像模型受算力的限制更大。
  • 显存越高,意味着性能越强大。因为显存越大,batch size 就越大,CUDA 核可以更加接近满负荷工作。
  • 更大的显存可以按比例用更大的 Batch size,以此推之:24GB 显存的 GPU 相比 8GB 显存的 GPU 可以用上 3 倍的 batch。
  • 对于长序列来说,语言模型的内存占用增长情况不成比例,因为注意力是序列长度的二次方。

所以,2020 年,深度学习需要什么样的 GPU?

答案是:你至少需要一块价值2500美元的 Titan RTX (壕请直接上RTX 8000)。刚刚吃土大半年才买进一块 2080Ti 的你是不是有点绝望?但更让人绝望的是,Titan RTX 也不一定能撑多久。毕竟一年前11GB显存的 2080Ti 还是主流……

另一种思路

单单一块 GPU 显卡就要接近2万大洋,是不是感觉有点丧?但你或许应该转变一种思路,为什么不试试云超算平台?

也许你用过Kaggle Kernel、Google Colab之类的云平台,但它们要么设备过时,要么并不稳定,又或者支持的软件或框架并不齐全,总之使用起来并不那么得心应手。

那你可以试试云端软件推出的云E弹性算力云平台!

云E专为人工智能行业提供的高性能计算一站式解决方案,在全球拥有25个地域节点,超过10万台服务器,整合海量云端异构资源,提供单 GPU 节点可达8卡的业界顶级 GPU NVIDIA Tesla V100。

云E的应用集装箱模块预集成了包括 PaddlePaddle、PyTorch、TF 在内的20多种人工智能框架或专业软件,开箱即用。支持自动化工作流,让整个训练流程简单清晰,使用者只需专注于专业内容,无需再为硬件设备的配置及部署费心费力。

那么,云E平台的使用成本高吗?

我们以前文提到的 Titan RTX 为例,仅在单块 GPU 的投入上就高达2500美元(约17500元人民币)。

如果选择云E弹性算力云平台,即使是选择性能更强的专为高性能计算服务器配置的 Telsa P100,这17500元可以至少训练4375小时!如果选用型号略旧但拥有 64GB 内存的 TPU V2 或者 56GB 的 Telsa P40,成本还能节省一半!

更关键的是,如果遇到紧急任务需要加快训练进度,使用本地机的你不可能马上增加一块 GPU ,而在云E弹性算力云平台,你只需要选择增加卡数,就能轻松将训练速度提升10倍!

怎么样?Get 了深度学习训练的省钱绝招,你是不是急不可耐地想要去试试炫酷的深度学习新模型与新能力了?联系我们,还可能免费获得2000核时算力哦!

跑深度模型的显卡_2020年人工智能深度学习 GPU 解决方案推荐相关推荐

  1. 跑深度模型的显卡_A100跑DeepFaceLab,日迭代破百万,像素上800!

    昨天用滴滴云的A100做了下TenorFlow的基准测试,可能略显抽象!今天来跑跑DeepFaceLab,整体来说A100还是挺强! 已经连续看了两天命令行和数字了,头围有所增加! 环境配置: 主角: ...

  2. 跑深度模型的显卡_近乎白嫖!我的深度学习云GPU平台!便宜、好用、速来!

    PS:金秋十月感恩回馈 1.活动期间使用长租功能(按月.季度),并且不退租,除了享受平台上标示的折扣,官方额外再补贴(5%): 2.邀请一位真实有效GPU用户(比赛用户.研究生优先)奖励4000DBC ...

  3. 跑深度模型的显卡_GPU必知必会 | 哪款显卡配得上我的炼丹炉

    公众号关注 "Python遇见机器学习" 设为"星标",第一时间知晓最新干货~ 本文转载自机器之心 众所周知,深度学习是一个很吃算力的领域,所以,GPU 选得好 ...

  4. 跑深度模型的显卡_不止显卡!这些硬件因素也影响着你的深度学习模型性能

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

  5. 深度长文 | 从FM推演各深度CTR预估模型(附开源代码)

    作者丨龙心尘 & 寒小阳 研究方向丨机器学习,数据挖掘 题记:多年以后,当资深算法专家们看着无缝对接用户需求的广告收入节节攀升时,他们可能会想起自己之前痛苦推导 FM 与深度学习公式的某个夜晚 ...

  6. 2018深度学习在个性化推荐中的应用

    深度学习在个性化推荐中的应用 结论 得益于深度学习强大的表示能力,目前深度学习在推荐系统中需要对用户与物品进行表示学习的任务中有着不错的表现,但优势不如图像与文本那么显著[1]. 深度学习与分布式表示 ...

  7. 深度学习在个性化推荐中的应用

    结论 得益于深度学习强大的表示能力,目前深度学习在推荐系统中需要对用户与物品进行表示学习的任务中有着不错的表现,但优势不如图像与文本那么显著[1]. 深度学习与分布式表示简介 深度学习的概念源于人工神 ...

  8. 人工智能--深度强化模型

    学习目标: 理解深度强化模型的基本原理. 掌握利用深度强化模型训练网络的方法. 学习内容: 利用深度强化模型的代码,改变网络结构和奖励策略,提高网络的平均得分. 学习过程: 调整网络结构,全连接层的参 ...

  9. 旷视张祥雨:高效轻量级深度模型的研究和实践 | AI ProCon 2019

    演讲嘉宾 | 张祥雨(旷视研究院主任研究员.基础模型组负责人) 编辑 | Just 出品 | AI科技大本营(ID:rgznai100) 基础模型是现代视觉识别系统中一个至关重要的关注点.基础模型的优 ...

最新文章

  1. Unity5.6+ 导出Android 应用程序apk的环境配置及导出过程
  2. 完美的隐藏软键盘方法
  3. iOS 项目集成Flutter
  4. openCV内存释放问题
  5. java导出word表格_使用PowerDesigner16.5 逆向数据库 导出word文档
  6. Python程序中的线程操作-锁
  7. 【无标题】线程池中阻塞队列的作用,为什么是先添加队列而不是先创建最大线程
  8. linux 正则查找email_Linux--正则表达式--详解
  9. 看我如何挖到 Dropbox Windows 版的这个 0day(微补丁发布)
  10. autoLayout+sizeClass屏幕适配
  11. Django rest framework 序列化组件
  12. 数据库性能Quest Performance Analysis Overview
  13. Java学习之正则表达式
  14. js中的splice方法使用,删除数组中的最大最小值
  15. ClouderaCDH安装配置说明
  16. 手工创建Oracle11g完整版(超详细)
  17. word段落每行首字怎么对齐_怎样使word文章段落乖乖对齐!一个设置就行!
  18. JVM 垃圾收集器(Garbage Collection)
  19. VLC-3.0全部详细参数
  20. Vue2源码的学习日记(3)

热门文章

  1. Microsoft Excel 中 ROMAN 函数介绍
  2. mysql htop大量进程,htop与dstat
  3. 故障:电脑频繁短暂黑屏
  4. Cadence Virtuoso、Calibre、Altium Designer、HFSS 等 EDA 软件。
  5. HDU 6333 Problem B. Harvest of Apples(莫队离线)
  6. 0X Swagger2
  7. 雅思阅读真经总纲_想提高雅思阅读?这是你一定要知道的8本书
  8. 让一切都停下来——Unschedule
  9. python连接eplan的api_EPLAN API开发之入门篇
  10. 咸鱼ZTMR实例—巡线入门