免费GPU汇总及选购
一、免费GPU汇总
- 阿里云天池TCC V100 16G显存 8c32g 单次最长运行24小时
- Google colab T4 16G显存 单次最长运行12小时 (GPU/TPU)
- Kaggle Notebook (GPU/TPU) P100 16G显卡 43H每周使用时长
- 百度的AI Studio V100 32G显卡,只能使用paddle
二、GPU购买指南
目前独立显卡主要有AMD和NVIDIA 两家厂商。其中NVIDIA 在深度学习布局较早,对深度学习框架支持更好。因此,目前大家主要会选择NVIDIA 的 GPU。
NVIDIA 有面向个人用户(如GTX系列)和企业用户(如 Tesla系列)的两类 GPU。这两类GPU的计算能力相当,然而,面向企业用户的GPU通常使用被动散热并增加了显存校验,从而更适合数据中心,并通常要比面向个人用户的 GPU 贵上 10倍。
如果是拥有100台机器以上的大公司用户,通常可以考虑针对企业用户的NVIDIA Tesla系列。如果是拥有10~100台机器的实验室和中小公司用户,预算充足的情况下可以考虑 NVIDIA DGX 系列,否则可以考虑购买如 Supermicro之类的性价比比较高的服务器,然后再购买安装GTX 系列的GPU
NVIDIA一般每一两年发布一次新版本的GPU,例如,2016 年发布的 GTX 1000系列以及2018 年发布的 RTX 2000系列。每个系列中会有数个不同的型号,分别对应不同的性能。
GPU的性能主要由以下3个参数构成。
- 计算能力。通常我们关心的是32位浮点计算能力。16位浮点训练也开始流行,如果只做预测的话也可以用8位整数。
- 显存大小。当模型越大或者训练时的批量越大时,所需要的显存就越多。(3)显存带宽。只有当显存带宽足够时才能充分发挥计算能力。
三、GPU—Graphics Processing Unit—俗称显卡
1、 概述
图形处理器,又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。
用途是将计算机系统所需要的显示信息进行转换驱动,并向显示器提供行扫描信号,控制显示器的正确显示,是连接显示器和个人电脑主板的重要元件,也是“人机对话”的重要设备之一。显卡作为电脑主机里的一个重要组成部分,承担输出显示图形的任务,对于从事专业图形设计的人来说显卡非常重要。
2、 优点
GPU适合深度学习的三大理由(按重要程度排序):
●高宽带的内存
●多线程并行下的内存访问隐藏延迟
●数量多且速度快的可调整的寄存器和L1缓存
3、 在GPU上运行代码流程
1)判断GPU是否可用
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") print(device)
2)将模型参数和输入数据转换为cuda支持的类型
model.to(device)
x_true.to(device)
3)在GPU上计算结果也为cuda的数据类型,需要转化为numpy或者torch的cpu的tensor类型
predict = predict.cpu().detach().numpy()
5、 NVIDIA显卡产品线
5.1 NVIDIA常见的三大产品线如下
Quadro类型: Quadro系列显卡一般用于特定行业,比如设计、建筑等,图像处理专业显卡,比如CAD、Maya等软件。
GeForce类型: 这个系列显卡官方定位是消费级,常用来打游戏。但是它在深度学习上的表现也非常不错,很多人用来做推理、训练,单张卡的性能跟深度学习专业卡Tesla系列比起来其实差不太多,但是性价比却高很多。
Tesla类型: Tesla系列显卡定位并行计算,一般用于数据中心,具体点,比如用于深度学习,做训练、推理等。Tesla系列显卡针对GPU集群做了优化,像那种4卡、8卡、甚至16卡服务器,Tesla多块显卡合起来的性能不会受>很大影响,但是Geforce这种游戏卡性能损失严重,这也是Tesla主推并行计算的优势之一
Quadro类型分为如下几个常见系列
NVIDIA RTX Series系列: RTX A2000、RTX A4000、RTX A4500、RTX A5000、RTX A6000
Quadro RTX Series系列: RTX 3000、RTX 4000、RTX 5000、RTX 6000、RTX 8000
GeForce类型分为如下几个常见系列
Geforce 10系列: GTX 1050、GTX 1050Ti、GTX 1060、GTX 1070、GTX 1070Ti、GTX 1080、GTX 1080Ti
Geforce 16系列:GTX 1650、GTX 1650 Super、GTX 1660、GTX 1660 Super、GTX 1660Ti
Geforce 20系列:RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super、RTX 2080、RTX 2080 Super、RTX 2080Ti
Geforce 30系列: RTX 3050、RTX 3060、RTX 3060Ti、RTX 3070、RTX 3070Ti、RTX 3080、RTX 3080Ti、RTX 3090 RTX 3090Ti
Tesla类型分为如下几个常见系列
A-Series系列: A10、A16、A30、A40、A100
T-Series系列: T4
V-Series系列: V100
P-Series系列: P4、P6、P40、P100
K-Series系列: K8、K10、K20c、K20s、K20m、K20Xm、K40t、K40st、K40s、K40m、K40c、K520、K80
5.2 GPU信息
型号 |
显存 |
半精度(TFLOPS) |
单精度(TFLOPS) |
双精度(TFLOPS) |
CUDA核心数量 |
Tensor核心数量 |
架构 |
显存类型 |
NVIDIA RTX A5000 |
24GB |
55.50 |
27.77 |
0.867 |
8192 |
256 |
Ampere |
GDDR6 |
Quadro RTX 5000 |
16GB |
22.30 |
11.15 |
0.348 |
3072 |
384 |
Turing |
GDDR6 |
GeForce 3090Ti |
24GB |
80 |
40.0 |
0.627 |
10752 |
336 |
Ampere |
GDDR6X |
GeForce 3090 |
24GB |
71 |
35.58 |
0.558 |
10496 |
328 |
Ampere |
GDDR6X |
GeForce 3080Ti |
12GB |
68.5 |
34.71 |
0.533 |
10240 |
320 |
Ampere |
GDDR6X |
GeForce 3080 |
12GB |
58.9 |
29.77 |
0.465 |
8704 |
272 |
Ampere |
GDDR6X |
GeForce 3070 |
8GB |
40.6 |
20.31 |
0.318 |
5888 |
184 |
Ampere |
GDDR6X |
GeForce 3060Ti |
8GB |
33.4 |
16.20 |
0.253 |
4864 |
152 |
Ampere |
GDDR6 |
GeForce 3060 |
12GB |
25.5 |
12.74 |
0.199 |
3584 |
112 |
Ampere |
GDDR6 |
GeForce 2080Ti |
11GB |
26.9 |
13.4 |
0.42 |
4352 |
544 |
Turing |
GDDR6 |
Tesla V100 NVLink |
32GB |
31.33 |
15.7 |
7.8 |
5120 |
640 |
Volta |
HBM2 |
Tesla V100 NVLink |
16GB |
31.33 |
15.7 |
7.8 |
5120 |
640 |
Volta |
HBM2 |
Tesla V100S PCIE |
32GB |
32.71 |
16.4 |
8.2 |
5120 |
640 |
Volta |
HBM2 |
Tesla P100 PCIE |
16GB |
21.22 |
10.6 |
5.3 |
3584 |
无 |
Pascal |
HBM2 |
Tesla T4 |
16GB |
16.30 |
8.141 |
0.254 |
2560 |
320 |
Turing |
GDDR6 |
GeForce ITAN X |
12GB |
13.28 |
6.691 |
0.153 |
3072 |
无 |
Maxwell |
GDDR5 |
5.3 显卡性能主要根据如下几个参数来判断:
- 显存: 显存即显卡内存,显存主要用于存放数据模型,决定了我们一次读入显卡进行运算的数据多少(batch size)和我们能够搭建的模型大小(网络层数、单元数),是对深度学习研究人员来说很重要的指标,简述来讲,显存越大越好。
- 架构:在显卡流处理器、核心频率等条件相同的情况下,不同款的GPU可能采用不同设计架构,不同的设计架构间的性能差距还是不小的,显卡架构性能排序为:Ampere > Turing > Volta > Pascal > Maxwell > Kepler > Fermi > Tesla
- CUDA核心数量:CUDA是NVIDIA推出的统一计算架构,NVIDIA几乎每款GPU都有CUDA核心,CUDA核心是每一个GPU始终执行一次值乘法运算,一般来说,同等计算架构下,CUDA核心数越高,计算能力会递增。
- Tensor(张量)核心数量:Tensor 核心是专为执行张量或矩阵运算而设计的专用执行单元,而这些运算正是深度学习所采用的核心计算函数,它能够大幅加速处于深度学习神经网络训练和推理运算核心的矩阵计算。Tensor Core使用的计算能力要比Cuda Core高得多,这就是为什么Tensor Core能加速处于深度学习神经网络训练和推理运算核心的矩阵计算,能够在维持超低精度损失的同时大幅加速推理吞吐效率。
- 半精度:如果对运算的精度要求不高,那么就可以尝试使用半精度浮点数进行运算。这个时候,Tensor核心就派上了用场。Tensor Core专门执行矩阵数学运算,适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法,其中两个4*4 FP16矩阵相乘,然后将结果添加到4*4 FP16或FP32矩阵中,最终输出新的4*4 FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度数学,因为输入矩阵的精度为半精度,但乘积可以达到完全精度。Tensor Core所做的这种运算在深度学习训练和推理中很常见。
- 单精度: Float32 是在深度学习中最常用的数值类型,称为单精度浮点数,每一个单精度浮点数占用4Byte的显存。
- 双精度:双精度适合要求非常高的专业人士,例如医学图像,CAD。
6、 选择指标
卷积网络和Transformer:Tensor核心数>单精度浮点性能>显存带宽>半精度浮点性能
循环神经网络:显存带宽>半精度浮点性能>Tensor核心数>单精度浮点性能
四、 NPU——Network Processing Unit
嵌入式神经网络处理器(NPU)采用“数据驱动并行计算”的架构,特别擅长处理视频、图像类的海量多媒体数据。
NPU处理器最明显的优势就是信息处理能力块。采用数据驱动并行计算架构。颠覆了冯诺依曼计算机架构
NPU的典型代表有国内的寒武纪芯片和IBM的TrueNorth
五、TPU
全称是Tensor Processing Unit,即张量处理器。
TPU与同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。
据称Google提供的服务,都使用了Google的TPU加速计算
由于作者水平有限,请大家批评指正!!!
参考:GPU型号那么多,该如何选择呢? - 知乎
免费GPU汇总及选购相关推荐
- python编程入门与案例详解-quot;Python小屋”免费资源汇总(截至2018年11月28日)...
原标题:"Python小屋"免费资源汇总(截至2018年11月28日) 为方便广大Python爱好者查阅和学习,特整理汇总微信公众号"Python小屋"开通29 ...
- Google Colab 免费GPU服务器使用教程 挂载云端硬盘
一.前言 二.Google Colab特征 三.开始使用 3.1在谷歌云盘上创建文件夹 3.2创建Colaboratory 3.3创建完成 四.设置GPU运行 五.运行.py文件 5.1安装必要库 5 ...
- 小白如何用免费GPU跑天池算法大赛!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:卢玉洁,辽宁大学硕士 张帆,天津大学硕士 之前参加数据竞赛和做算 ...
- 如何用免费GPU学习AI算法?这篇算法资源大集锦别错过
上一次写了篇 1 AI Studio是什么 AI Studio 是百度提供的一个针对 AI 学习者的在线一体化开发实训平台.平台集合了 AI 教程,深度学习样例工程,各领域的经典数据集,云端的运算及存 ...
- 国内免费GPU资源哪里找,让我告诉你最新的薅羊毛“秘籍”
之前我在知乎介绍了两款练习人工智能算法的应用,都是谷歌的,当时就有网友在评论区提到了国内有百度的 AI Studio,于是产生了兴趣,恰好在那评论出现后几个星期,又看到了 AI Studio 推出了算 ...
- Google Colab 免费GPU 教程
Google Colab 免费GPU 教程 近日google的交互式工具Colaboratory推出GPU支持的版本,支持免费的Tesla K80,可以使用Keras.Tensorflow和Pytor ...
- 使用谷歌Colab(Colaboratory)免费GPU训练自己的模型及谷歌网盘无限容量(Google drive)申请教程
使用谷歌Colab(Colaboratory)免费GPU训练自己的模型及谷歌网盘无限容量(Google drive)申请教程 谷歌的colab(Colaboratory)是谷歌为全世界学术研究者免费提 ...
- Goolge Colab免费GPU服务器使用教程
划重点:免费GPU,免费GPU,免费GPU 官方说明: 1.Colab是Google提供的一个研究型项目.可以免费使用CPU,GPU,TPU环境.具体可免费使用多久还不知道. 2.Colab支持No ...
- Tesra超算网络,招募内测用户,可优先体验免费GPU算力!
Tesra超算网络--深度学习模型训练平台,以更低的价格,享受更快的计算速度!支持多框架多语言,无需安装环境,操作便捷! 官网:http://tesra.org/ 内侧对象:1.有AI模型开发能力,且 ...
最新文章
- OSSIM系统的安装教程(超详细)
- FTP 服务搭建及常用的命令脚本及传输协议基础普及
- Yocto基本概念及介绍
- linux桌面效率提高,ElementaryOS:使用这个轻量级 Linux 桌面提高工作效率
- 蓝桥杯大赛青少年创意编程 推荐考生阅读 相关书籍的相关视频(部分)
- 使用tcgetattr函数与tcsetattr函数控制终端-转
- ps6—如何安装笔刷
- 没有电脑却想运行代码?有手机就够了
- scholarscope不显示影响因子_一劳永逸:这两个查看影响因子的插件你安装了吗?...
- 常用分析模型---RFM客户价值模型
- python批量tif文件转化jpg文件格式
- PV、UV、UIP、VV、CPC、CPM、RPM、CTR是什么意思?
- 文件不能粘贴ftp服务器中,ftp服务器复制粘贴文件夹
- 2022年十一届认证杯B题
- linux桌面版安装输入法,Debian KDE桌面安装五笔和拼音输入法
- 码支付系统 无授权—个人免签约支付系统二维码收款即时到账源码 –
- python爬虫精进参考答案_高校邦数据科学创新通识课【Python爬虫】课后习题答案...
- 移动硬盘插到电脑上突然打不开或者没有显示的解决方法【已解决】不删设备不删驱动不改电源选项
- Mysql查询至少有一门课与学号为“s001”的同学所学相同的同学的学号和姓名
- vscode+arm-gcc编译STM32标准外设库工程教程(小白亲历填坑版)
热门文章
- 通过python各种开源库,开发一个适合大部分公司测试项目框架,确定名字AutoTestProjects
- 什么是执行计划? 怎么用?
- Rose出现 “relation from A to B would cause an Invalid circular inheritance解决方法。
- uniaccess安全助手卸载
- SDM人脸对齐算法研究
- SIM7600CE重置功能
- matlab 高精度无理数,如何从MatLab上的无理数产生近似分数?
- 计算机视觉物体识别的过程,(物体识别过程.doc
- IBM Cloud VPC网络与本地办公网络的互通
- pandas数据合并与重塑(pd.concat篇)