tensorflow随笔——深度学习中GPU型号对比

深度学习是机器学习的一个分支。深度学习通过深层神经网络自行寻找特征来解决问题，不同于传统方法需要告诉算法找什么样的特征。为获取数据的本质特征深度神经网络需要处理大量信息，一般有两种处理方式：CPU和GPU

先抛出三个问题：

1. 为什么深度学习需要使用GPU？

2. GPU的哪些性能指标最重要？

3. 如何选购GPU？

CPU or GPU:

CPU是基于延迟优化，更擅长快速获取少量的内存（5×3×7），GPU基于带宽优化，更擅长获取大量的内存（矩阵乘法A×B×C）。所以GPU的处理速度快得益于它可以高效的处理矩阵乘法和卷积，背后的原因是由高带宽的内存、多线程并行下的内存访问隐藏延迟、数量多且速度快的可调整的寄存器和L1缓存三大因素支撑。

下图是处理器内部结构图：

DRAM即动态随机存取存储器，是常见的系统内存。

Cache存储器：电脑中作高速缓冲存储器，是位于CPU和主存储器DRAM之间，规模较小，但速度很高的存储器。

算术逻辑单元ALU是能实现多组算术运算和逻辑运算的组合逻辑电路。

当采用深度学习进行网络训练需要对大数据做同样的事情时，GPU更合适，能够专注于大量并发的浮点数计算。

深度学习相关的GPU性能指标如下：

内存带宽：GPU处理大量数据的能力，是最重要的性能指标，指单位时间内数据的吞吐量。
处理能力：表示GPU处理数据的速度，可以量化为CUDA核数量和每一个核的频率的乘积。
显存大小：一次性加载到显卡上的数据量，运行计算机视觉模型显存越大越好。

Single GPU or Multi GPU：

单GPU
多GPU一般用于并行训练多个模型或者分布式训练单个模型。分布式训练或在多个显卡上训练单个模型的效率较低，但是此方法越来越受欢迎。主流的深度学习框架Tensorflow、Keras、PyTorch等都开放了分布式训练接口，分布式训练几乎可以随着GPU数量成线性的性能提升，比如两个GPU可以获得1.8倍的训练速度。
总而言之，GPU越多需要越快的处理器并需要更快的数据读取能力的硬盘

Nivda or AMD:

英伟达已经关注深度学习有一段时间，并取得了领先优势。他们的 CUDA 工具包具备扎实的技术水平，可用于所有主要的深度学习框架——TensorFlow、PyTorch、Caffe、CNTK 等。但截至目前，这些框架都不能在 OpenCL（运行于 AMD GPU）上工作。由于市面上的 AMD GPU 便宜得多，我希望这些框架对 OpenCL 的支持能尽快实现。而且，一些 AMD 卡还支持半精度计算，从而能将性能和显存大小加倍。AMD 发布的 ROCm 平台提供深度学习支持，它同样适用于主流深度学习库（如 PyTorch、TensorFlow、MxNet 和 CNTK）。但是ROCm 仍然在不断开发中，所以优先选择Nivda的显卡。

主流GPU的性能比较：

下图展示了每个GPU的RAM或内存带宽信息。

价格对比表明GTX1080Ti、GTX1070和GTX1060的性价比较高：

Titan XP 英伟达消费级显卡的旗舰产品，正如性能指标所述，12GB 的内存宣示着它并不是为大多数人准备的，只有当你知道为什么需要它的时候，它才会位列推荐列表。一块 Titan XP 的价格可以让你买到两块 GTX 1080，而那意味着强大的算力和 16GB 的显存。参数：

显存（VRAM）：12GB
内存带宽：547.7GB/s
处理器：3840个CUDA核心@1480MHz
官方价格：9700 RMB

GTX 1080 Ti 英伟达产品线里的高端显卡，拥有大容量显存和高吞吐量，GTX 1080 Ti 可以让你完成计算机视觉任务，并在 Kaggle 竞赛中保持强势。参数：

显存（VRAM）：11GB
内存带宽：484GB/s
处理器：3584个CUDA核心@1582MHz
单精度浮点性能：10.6-11.4TFLOPS
官方价格：4600 RMB

GTX 1080 英伟达产品线里的中高端显卡，8 GB 的内存对于计算机视觉任务来说够用了。大多数 Kaggle 上的人都在使用这款显卡。参数：

显存（VRAM）：8GB
内存带宽：320GB/s
处理器：2560个CUDA核心@1733MHz
单精度浮点性能：8.2-8.9TFLOPS
官方价格：3600 RMB

GTX 1070 Ti 可以为你提供同样大的 8 GB 显存，以及大约 80% 的性能。参数：

显存（VRAM）：8GB
内存带宽：256GB/s
处理器：2432个CUDA核心@1683MHz
单精度浮点性能：7.8-8.2TFLOPS
官方价格：3000 RMB

GTX 1070 主要用于虚拟货币挖矿。它的显存配得上这个价位，就是速度有些慢。参数:

显存（VRAM）：8GB
内存带宽：256GB/s
处理器：1920个CUDA核心@1683MHz
单精度浮点性能：5.8-6.5TFLOPS
官方价格：2700 RMB

GTX 1060 相对来说比较便宜，但是 6 GB 显存对于深度学习任务可能不够用。如果你要做计算机视觉，那么这可能是最低配置。如果做 NLP 和分类数据模型，这款还可以。参数：

显存（VRAM）：6GB
内存带宽：216GB/s
处理器：1280个CUDA核心@1708MHz
官方价格：2000 RMB

GTX 1050 Ti 一款入门级 GPU。如果你不确定是否要做深度学习，那么选择这款不用花费太多钱就可以体验一下。参数:

显存（VRAM）：4GB
内存带宽：112GB/s
处理器：768个CUDA核心@1392MHz
官方价格：1060 RMB

备注：一个TFLOPS（teraFLOPS）等於每秒万亿（=10^12）次的浮点运算。

Nivda面向专业市场的Tesla GPU产品型号包括K40、K80、P100等，经过前人针对 GTX 1080 Ti 和 K40 的一些基准测试。1080Ti 的速度是 K40 的 5 倍，是 K80 的 2.5 倍。K40 有 12 GB 显存，K80 有 24 GB 的显存。P100 和 GTX 1080 Ti 应该性能差不多。但是性价比落后于桌面级 GPU故暂不推荐。

tensorflow随笔——深度学习中GPU型号对比相关推荐

GPU显存 - 深度学习中 GPU 和显存分析
深度学习中 GPU 和显存分析原文作者陈云. 本文原载于知乎专栏--人工智障的深度瞎学之路深度学习最吃机器,耗资源,在本文,我将来科普一下在深度学习中: 何为"资源" 不同操作 ...
深度学习中GPU的作用
英伟达推出的"霸王条款":GeForce产品禁止用于深度学习. 英伟达的禁令众所周知,英伟达是显卡界的老大,2017年英伟达的GPU芯片在全球市场的占有率为70%左右,无论是人工 ...
深度学习中GPU和显存分析
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达转自:机器学习AI算法工程深度学习最吃机器,耗资源,在本文,我将 ...
科普帖：深度学习中GPU和显存分析
深度学习最吃机器,耗资源,在本文,我将来科普一下在深度学习中: 何为"资源" 不同操作都耗费什么资源如何充分的利用有限的资源如何合理选择显卡并纠正几个误区: 显存和GPU等价 ...
深度学习中GPU和显存
GPU状态的监控 nvidia-smi: 是Nvidia显卡命令行管理套件,基于NVML库,旨在管理和监控Nvidia GPU设备.nvidia-smi命令的输出中最重要的两个指标:显存占用和GPU利 ...
关于深度学习中GPU显存使用的介绍
Reference: 1.https://zhuanlan.zhihu.com/p/31558973 # 知乎上一篇文章介绍显存的使用非常全面 2.https://www.cnblogs.com/kk ...
深度学习中的GPU与CUDA
对应视频教程:https://www.bilibili.com/video/BV1S5411X7FY/ 文章目录 1. 显卡(GPU)与驱动 2. 显卡与CUDA 3. 如何查看自己的显卡 1. 显卡 ...
深度学习中，CPU、GPU、NPU、FPGA如何发挥优势？
随着AI的广泛应用,深度学习已成为当前AI研究和运用的主流方式.面对海量数据的并行运算,AI对于算力的要求不断提升,对硬件的运算速度及功耗提出了更高的要求. 目前,除通用CPU外,作为硬件加速的GPU ...
深度学习训练吃显卡_在深度学习中喂饱GPU
原标题:在深度学习中喂饱GPU 新智元推荐来源:知乎专栏作者:风车车 [新智元导读]深度学习模型训练是不是大力出奇迹,显卡越多越好?非也,没有512张显卡,也可以通过一些小技巧优化模型训练.本文作 ...

tensorflow随笔——深度学习中GPU型号对比

tensorflow随笔——深度学习中GPU型号对比相关推荐

最新文章

热门文章