Alex 发自 凹非寺
量子位 | 公众号 QbitAI

春暖花开,各位深度学习er想不想给自己的“丹炉”升级一波?

“炼丹”爱好者们应该知道,在该领域中,**GPU的总体表现完胜CPU。

那么GPU应该怎么选?不妨来看看这篇超级详尽的“2023版GPU选购指南”

知名测评博主、华盛顿大学在读博士Tim Dettmers亲测后,写下万字长文,手把手教你Pick性价比最高的显卡,避免踩雷。

光是目录就有这么长……

至于谁是性价比之王,不卖关子,这里先放上Tim哥的结论:

对于16位训练过程,RTX 3080的性价比最高;对于8位和16位推理,RTX 4070Ti的性价比最高。

有意思的是,不只这俩,他在本文推荐的显卡全是英伟达家的——Tim哥觉得,对于深度学习,“AMD GPU+ROCm”目前还打不过“NVIDIA GPU+CUDA”。

手把手教你挑GPU

Tim哥自制了一张表格,展示出在训练和推理过程中,一美元能买到多少算力;这在一定程度上体现了英伟达众显卡的性价比。

蓝色-16位训练;红色-16位推理;黄色-8位推理

看到这个,你可能一脸问号:从表格来看,不是RTX 4080在8位和16位推理上的性价比更高吗?

其实,咱们开头说的是“综合性价比”——

除了看一美元能买多少算力,还要结合显卡的运行成本,比如电费。所以总的来说,还是RTX 4070Ti的性价比更高。

虽然RTX3080和RTX 4070 Ti性价比高,但这俩的内存是个明显短板

Tim哥指出,12GB在很多情况下都不够用,要运行Transformer模型的话,至少需要24GB。

于是,Tim哥又贴心地做了一个小程序,帮你根据不同的任务选择最合适的GPU。

其背后的核心思想是:不管干啥,一定要保证GPU的内存满足你的需求。

首先,要弄清楚这个GPU是个人用还是公用,还有就是要处理什么任务——比如,是要训练语言大模型(LLM)吗、参数量有没有超过130亿?还是就做点小项目?

然后再根据自己的钱包情况,参考上面的表格,选择最合适的GPU。

举个例子:

如果要训练LLM且参数量超过130亿,不差钱的可以选择支持Azure公有云的A100或者H100;追求性价比的话,可以选支持AWS的A100或者H100。

但如果预算实在有限,建议放弃……

(在亚马逊上,40GB的英伟达Tesla A100售价为11769美元起,约合人民币79529元。当然这都是针对国外的情况,在国内炼丹仅供参考)

另外,Tim哥还支了一招:最好用云GPU(比如Lambda云)来估测一下所需的GPU内存(至少12GB用于图像生成,至少24GB用于处理Transformer)。

其实假如GPU仅偶尔使用(每隔几天用几小时),甚至都不用去买个实体的,用云GPU就可以了。

对了~如果你真的不在乎这点(?)钱,就要追求极致性能,那可以看看这张表,即GPU的原始性能排行。

那如果实在钱不够,即使是Tim哥推荐的最便宜的GPU也买不起,还有办法吗?

那可以考虑二手呀!

先去买个便宜的GPU用于原型设计和测试,然后在云端进行全面的实验和测试。

关键性能点有哪些?

盘点完英伟达的一堆GPU后,再来叙一叙关乎深度学习速度的几大GPU性能关键点。

(如果你想稍微深入了解一些,请接着往下看。)

Tim哥指出,重点有四:GPU的内存、核心、Tensor Core和缓存

而其中最重要的是Tensor Core

Tensor Core是英伟达为其高端GPU开发的一项技术,本质上,就是加速矩阵乘法的处理单元。其中Tensor即张量,是一种能表示所有类型数据的数据类型。

Tim表示,在所有深度神经网络中,最昂贵的部分是矩阵乘法,而有了Tensor Core,运算速度会变得非常快,有助于大大减少成本。

就拿一个入门级的32×32矩阵乘法来说,通过Tensor Core,将矩阵乘法的运算时间从504个周期,降低到235个周期,直接减半。

而且即便是超大规模的矩阵运算,Tensor Core也能轻松处理。在规模堪比GPT-3的训练中,Tensor Core的TFLOPS利用率也就约为45-65%。

而当两个GPU都有Tensor Cores时,要比较它们性能,最佳指标之一就是内存带宽

例如,A100 GPU的内存带宽为1555GB/s,而V100为900GB/s。因此,A100和V100相比,运算速度大概是后者的1555/900=1.73倍。

由此可见,内存带宽会影响到Tensor Core的性能发挥。于是研究人员开始寻找其他GPU属性,使内存数据传输到Tensor Core的速度更快。

然后,他们发现,GPU的一级缓存、二级缓存、共享内存和使用的寄存器数量也都是相关因素。

对于缓存来说,数据块越小,计算速度越快;所以需要把大的矩阵乘法,划分成小的子矩阵乘法。研究者们把这些小的子矩阵乘法称为“内存碎片”*(memory tiles)。

一部分“碎片”被加载到Tensor Core中,由寄存器直接寻址。

根据英伟达Ampere架构的规则,举个例子~

把每一个权重矩阵都切成4个“碎片”,并假设其中两个为零——于是就得到了一堆稀疏权重矩阵。

然后把这些稀疏权重矩阵与一些密集输入相乘,Tensor Core功能启动,将稀疏矩阵压缩为密集表示,其大小为下图所示的一半。

在压缩之后,密集压缩的“碎片”被送入Tensor Core,计算的矩阵乘法是一般大小的两倍。这样,运算速度就成了通常的2倍。

Tim哥表示,上述性能点,他在统计英伟达GPU性能时都考虑在内了。

如果你把这些东西吃透了话,以后就能完全靠自己配置出最合适的“炼丹炉”了。

原文传送门:
https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/

2023「炼丹」GPU选购指南来了:英伟达3080和4070Ti成性价比之王相关推荐

  1. 把「我的世界」马赛克变成逼真大片,英伟达又出黑科技

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 先来看一 ...

  2. 【AI 简报20201018期】英伟达开源「Imaginaire」、智能手表争夺战是如何打响的?

    导读:本期为 AI 简报 20201018期,将为您带来过去一周关于 AI 新闻 9 条,其他互联网圈内新闻 8 条,希望对您有所帮助~ 有更好的建议或者意见请在下方留言~ AI 1. 图神经网络新课 ...

  3. 【并行计算-CUDA开发】从熟悉到精通 英伟达显卡选购指南

    举报 说到显卡,就不免令人想到英伟达和AMD两家面向个人消费级和企业级最大的显示芯片生产企业,英伟达和AMD,今天小编为大家简单的介绍一下英伟达的显卡选购方面的攻略,为一些想要购买显卡的用户提供一些参 ...

  4. 显卡算力排行_RTX3090 时代最新GPU选购指南:哪款显卡配得上我的炼丹炉?

    ↑ 点击蓝字 关注极市平台作者丨Tim Dettmers 来源丨机器之心编辑丨极市平台 极市导读 近日,华盛顿大学博士Tim Dettmers发表文章,就深度学习从业者如何选购GPU的问题发表了看法. ...

  5. GPU选购指南:哪款显卡配得上我的炼丹炉?

    点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货! 作者丨Tim Dettmers 来源丨机器之心  编辑丨极市平台 导读 近日,华盛 ...

  6. 聚观早报 | 英伟达推「AI」超算;中国2030年前载人登月

    今日要闻:英伟达推「AI」超算:中国2030年前载人登月:AI大热,游戏股全线大涨:ofo创始人二次创业项目陷入困境:微信视频号原创标记已对外显示 英伟达推「AI」超算 5 月 29 日,NVIDIA ...

  7. 英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」...

    明敏 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在"一句话生成照片"这件事上,英伟达又一次突破了大伙的想象力. 他们最新的AI模型GauGAN2,不仅能根据字词生 ...

  8. 20 个 GPU 可承载相当于全球互联网流量、Grace CPU 超级芯片现世,英伟达这届 GTC 发布了什么?...

    整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 技术的极限在哪里? 想必科技圈给出回答大概率是没有! 这不,在 GTC 2022 Keynote 上,身着黑色夹克「战袍」的黄仁勋挂帅,英 ...

  9. 重磅丨英伟达刚刚发布全球最大GPU:GTC2018黄仁勋演讲核心内容整理

    文章来源:机器之心 在刚刚结束的 Keynote 演讲中,英伟达创始人兼首席执行官黄仁勋宣布了该公司在芯片.AI 平台.自动驾驶上的一系列新动作. 正如黄仁勋所说的,今天的发布会有关于:「Amazin ...

最新文章

  1. 字符串转换整数 (atoi)
  2. Linux drm显示系统的两种方案
  3. 公司的电脑为什么卡——因为缺少工程师文化!
  4. Win2003下Exchange2003部署图解之六
  5. 开始学习Solaris
  6. 【ArrayList:键盘录入多个数据,以 0 结束,并在控制台输出最大值】
  7. opencore0.6.3_Ubuntu 18.04 源码编译安装 PHP 7.3
  8. SAP License:SAP学习心得
  9. this指向问题(call、apply、blind),自我理解的
  10. 简单记录 Part1.1
  11. python遗传算法(详解)
  12. Sqlserver2012卸载
  13. android9 三星 港版,【极光ROM】-【三星S20+(国行/港版/台版/韩版/美版) G986X-高通865】-【V9.0 Android-R-UB6】...
  14. win10系统任务栏不显示最小化窗口的处理步骤
  15. SEO当下的力量,你应该关注的4个属性
  16. 2021金山wps校招(前端)
  17. 1.4418不锈钢规范及使用环境详解
  18. 使用Aspose Java在word中绘制插入表格
  19. Windows 7 Service Pack 1已发布:但是您应该安装它吗?
  20. JavaScript 每日一题 #6

热门文章

  1. 数据结构与算法题目集7-39 魔法优惠券(c语言实现)
  2. 8月28日服务器例行维护公告,【已开服】[8月28日]全服更新维护公告
  3. Linux 使用 find 查找文件或文件夹
  4. 坚持#第238天~开始接触shell脚本了
  5. 易到用车面试总结(android)
  6. [文档格式转换神器]pdf,jpg,xps转doc,xls,ppt等office格式
  7. IIS 部署 Net5 应用
  8. 用 C 语言实现 C++ 的 继承 和 多态
  9. 拥有这八款设计软件,足够
  10. 搜索04 Mine Sweeper