深度学习是机器学习的一个分支。深度学习通过深层神经网络自行寻找特征来解决问题,不同于传统方法需要告诉算法找什么样的特征。为获取数据的本质特征深度神经网络需要处理大量信息,一般有两种处理方式:CPU和GPU

先抛出三个问题:

1. 为什么深度学习需要使用GPU?

2. GPU的哪些性能指标最重要?

3. 如何选购GPU?

CPU or GPU:

CPU是基于延迟优化,更擅长快速获取少量的内存(5×3×7),GPU基于带宽优化,更擅长获取大量的内存(矩阵乘法A×B×C)。所以GPU的处理速度快得益于它可以高效的处理矩阵乘法和卷积,背后的原因是由高带宽的内存、多线程并行下的内存访问隐藏延迟、数量多且速度快的可调整的寄存器和L1缓存三大因素支撑。

下图是处理器内部结构图:

DRAM即动态随机存取存储器,是常见的系统内存。

Cache存储器:电脑中作高速缓冲存储器,是位于CPU和主存储器DRAM之间,规模较小,但速度很高的存储器。

算术逻辑单元ALU是能实现多组算术运算和逻辑运算的组合逻辑电路。

当采用深度学习进行网络训练需要对大数据做同样的事情时,GPU更合适,能够专注于大量并发的浮点数计算。

深度学习相关的GPU性能指标如下:

  • 内存带宽:GPU处理大量数据的能力,是最重要的性能指标,指单位时间内数据的吞吐量。
  • 处理能力:表示GPU处理数据的速度,可以量化为CUDA核数量和每一个核的频率的乘积。
  • 显存大小:一次性加载到显卡上的数据量,运行计算机视觉模型显存越大越好。

Single GPU or Multi GPU:

  • 单GPU
  • 多GPU一般用于并行训练多个模型或者分布式训练单个模型。分布式训练或在多个显卡上训练单个模型的效率较低,但是此方法越来越受欢迎。主流的深度学习框架Tensorflow、Keras、PyTorch等都开放了分布式训练接口,分布式训练几乎可以随着GPU数量成线性的性能提升,比如两个GPU可以获得1.8倍的训练速度。
  • 总而言之,GPU越多需要越快的处理器并需要更快的数据读取能力的硬盘

Nivda or AMD:

英伟达已经关注深度学习有一段时间,并取得了领先优势。他们的 CUDA 工具包具备扎实的技术水平,可用于所有主要的深度学习框架——TensorFlow、PyTorch、Caffe、CNTK 等。但截至目前,这些框架都不能在 OpenCL(运行于 AMD GPU)上工作。由于市面上的 AMD GPU 便宜得多,我希望这些框架对 OpenCL 的支持能尽快实现。而且,一些 AMD 卡还支持半精度计算,从而能将性能和显存大小加倍。AMD 发布的 ROCm 平台提供深度学习支持,它同样适用于主流深度学习库(如 PyTorch、TensorFlow、MxNet 和 CNTK)。但是ROCm 仍然在不断开发中,所以优先选择Nivda的显卡。

主流GPU的性能比较:

下图展示了每个GPU的RAM或内存带宽信息。

价格对比表明GTX1080Ti、GTX1070和GTX1060的性价比较高:

Titan XP 英伟达消费级显卡的旗舰产品,正如性能指标所述,12GB 的内存宣示着它并不是为大多数人准备的,只有当你知道为什么需要它的时候,它才会位列推荐列表。一块 Titan XP 的价格可以让你买到两块 GTX 1080,而那意味着强大的算力和 16GB 的显存。参数:

  • 显存(VRAM):12GB
  • 内存带宽:547.7GB/s
  • 处理器:3840个CUDA核心@1480MHz
  • 官方价格:9700 RMB

GTX 1080 Ti 英伟达产品线里的高端显卡,拥有大容量显存和高吞吐量,GTX 1080 Ti 可以让你完成计算机视觉任务,并在 Kaggle 竞赛中保持强势。参数:

  • 显存(VRAM):11GB
  • 内存带宽:484GB/s
  • 处理器:3584个CUDA核心@1582MHz
  • 单精度浮点性能:10.6-11.4TFLOPS
  • 官方价格:4600 RMB

GTX 1080 英伟达产品线里的中高端显卡,8 GB 的内存对于计算机视觉任务来说够用了。大多数 Kaggle 上的人都在使用这款显卡。 参数:

  • 显存(VRAM):8GB
  • 内存带宽:320GB/s
  • 处理器:2560个CUDA核心@1733MHz
  • 单精度浮点性能:8.2-8.9TFLOPS
  • 官方价格:3600 RMB

GTX 1070 Ti 可以为你提供同样大的 8 GB 显存,以及大约 80% 的性能。参数:

  • 显存(VRAM):8GB
  • 内存带宽:256GB/s
  • 处理器:2432个CUDA核心@1683MHz
  • 单精度浮点性能:7.8-8.2TFLOPS
  • 官方价格:3000 RMB

GTX 1070 主要用于虚拟货币挖矿。它的显存配得上这个价位,就是速度有些慢。参数:

  • 显存(VRAM):8GB
  • 内存带宽:256GB/s
  • 处理器:1920个CUDA核心@1683MHz
  • 单精度浮点性能:5.8-6.5TFLOPS
  • 官方价格:2700 RMB

GTX 1060 相对来说比较便宜,但是 6 GB 显存对于深度学习任务可能不够用。如果你要做计算机视觉,那么这可能是最低配置。如果做 NLP 和分类数据模型,这款还可以。参数:

  • 显存(VRAM):6GB
  • 内存带宽:216GB/s
  • 处理器:1280个CUDA核心@1708MHz
  • 官方价格:2000 RMB

GTX 1050 Ti 一款入门级 GPU。如果你不确定是否要做深度学习,那么选择这款不用花费太多钱就可以体验一下。参数:

  • 显存(VRAM):4GB
  • 内存带宽:112GB/s
  • 处理器:768个CUDA核心@1392MHz
  • 官方价格:1060 RMB

备注:一个TFLOPS(teraFLOPS)等於每秒万亿(=10^12)次的浮点运算。

Nivda面向专业市场的Tesla GPU产品型号包括K40、K80、P100等,经过前人针对 GTX 1080 Ti 和 K40 的一些基准测试。1080Ti 的速度是 K40 的 5 倍,是 K80 的 2.5 倍。K40 有 12 GB 显存,K80 有 24 GB 的显存。P100 和 GTX 1080 Ti 应该性能差不多。但是性价比落后于桌面级 GPU故暂不推荐。

tensorflow随笔——深度学习中GPU型号对比相关推荐

  1. GPU显存 - 深度学习中 GPU 和显存分析

    深度学习中 GPU 和显存分析 原文作者陈云. 本文原载于知乎专栏--人工智障的深度瞎学之路 深度学习最吃机器,耗资源,在本文,我将来科普一下在深度学习中: 何为"资源" 不同操作 ...

  2. 深度学习中GPU的作用

    英伟达推出的"霸王条款":GeForce产品禁止用于深度学习. 英伟达的禁令 众所周知,英伟达是显卡界的老大,2017年英伟达的GPU芯片在全球市场的占有率为70%左右,无论是人工 ...

  3. 深度学习中GPU和显存分析

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自:机器学习AI算法工程 深度学习最吃机器,耗资源,在本文,我将 ...

  4. 科普帖:深度学习中GPU和显存分析

    深度学习最吃机器,耗资源,在本文,我将来科普一下在深度学习中: 何为"资源" 不同操作都耗费什么资源 如何充分的利用有限的资源 如何合理选择显卡 并纠正几个误区: 显存和GPU等价 ...

  5. 深度学习中GPU和显存

    GPU状态的监控 nvidia-smi: 是Nvidia显卡命令行管理套件,基于NVML库,旨在管理和监控Nvidia GPU设备.nvidia-smi命令的输出中最重要的两个指标:显存占用和GPU利 ...

  6. 关于深度学习中GPU显存使用的介绍

    Reference: 1.https://zhuanlan.zhihu.com/p/31558973 # 知乎上一篇文章介绍显存的使用非常全面 2.https://www.cnblogs.com/kk ...

  7. 深度学习中的GPU与CUDA

    对应视频教程:https://www.bilibili.com/video/BV1S5411X7FY/ 文章目录 1. 显卡(GPU)与驱动 2. 显卡与CUDA 3. 如何查看自己的显卡 1. 显卡 ...

  8. 深度学习中,CPU、GPU、NPU、FPGA如何发挥优势?

    随着AI的广泛应用,深度学习已成为当前AI研究和运用的主流方式.面对海量数据的并行运算,AI对于算力的要求不断提升,对硬件的运算速度及功耗提出了更高的要求. 目前,除通用CPU外,作为硬件加速的GPU ...

  9. 深度学习 训练吃显卡_在深度学习中喂饱GPU

    原标题:在深度学习中喂饱GPU 新智元推荐 来源:知乎专栏 作者:风车车 [新智元导读]深度学习模型训练是不是大力出奇迹,显卡越多越好?非也,没有512张显卡,也可以通过一些小技巧优化模型训练.本文作 ...

最新文章

  1. 继往开来!目标检测二十年技术综述
  2. [android] 手机卫士黑名单功能(列表展示)
  3. Android 图片压缩、照片选择、裁剪,上传、一整套图片解决方案
  4. button按钮onclick触发不了_单按钮启停:测试模拟脉冲发生器的动作
  5. laravel安装laravel-ide-helper扩展进行代码提示(二)
  6. linux新系统配置网络,怎样配置新安装的Ubuntu版Linux系统的..._网络编辑_帮考网
  7. C# WinForm调用UnityWebPlayer Control控件 学习笔记1
  8. uniapp实现语音播放功能
  9. Linux 误删除文件恢复
  10. 视频转换格式 qlv 转 mp4 详解
  11. 表情分析计算机,利用深度学习和计算机视觉进行面部表情分析
  12. PHP+MySQL实现留言板功能(一)
  13. IOC在墨者革离中的理解
  14. MySQL 数据操作 DML细节
  15. WiFi 破解连接方式
  16. 使用cmd命令窗口打开对应的应用程序
  17. api有哪些 javasocket_简单hello/hi程序、分析及Java Socket API与Linux Socket API对比
  18. 余弦定理和新闻的分类(TF-IDF+余弦相似度)
  19. 教堂环境风琴-Marcos Ciscar Ethereal Keys Kontakt
  20. 安全L1-网络基础知识-基础篇01

热门文章

  1. bzoj 3495: PA2010 Riddle(2-SAT)
  2. HDU 5974 2016ICPC大连 D: A Simple Math Problem
  3. [python+pip] 使用pip将函数库安装到Python环境或Anaconda环境
  4. 想创业?从学会需求谈判开始
  5. 贺利坚老师汇编课程54笔记:SF符号标志SIGN FLAG
  6. SQL语句复习【专题六】
  7. 《我在谷歌大脑见习机器学习的一年:Node.js创始人的尝试笔记》阅读笔记
  8. nodejs初探(四)实现一个多人聊天室
  9. 面试求职中需要了解的Java多线程知识
  10. sql server 2008 r2安装图解教程