深度学习中 GPU 和显存分析

原文作者陈云.

本文原载于知乎专栏——人工智障的深度瞎学之路


深度学习最吃机器,耗资源,在本文,我将来科普一下在深度学习中:

  • 何为“资源”
  • 不同操作都耗费什么资源
  • 如何充分的利用有限的资源
  • 如何合理选择显卡

并纠正几个误区:

  • 显存和GPU等价,使用GPU主要看显存的使用?
  • Batch Size 越大,程序越快,而且近似成正比?
  • 显存占用越多,程序越快?
  • 显存占用大小和batch size大小成正比?

0 预备知识

nvidia-smi是Nvidia显卡命令行管理套件,基于NVML库,旨在管理和监控Nvidia GPU设备.

nvidia-smi的输出

这是nvidia-smi命令的输出,其中最重要的两个指标:

  • 显存占用
  • GPU利用率

显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。

这里推荐一个好用的小工具:gpustat,直接pip install gpustat即可安装,gpustat基于nvidia-smi,可以提供更美观简洁的展示,结合watch命令,可以**动态实时监控**GPU的使用情况。

watch --color -n1 gpustat -cpu 


gpustat 输出

显存可以看成是空间,类似于内存。

  • 显存用于存放模型,数据
  • 显存越大,所能运行的网络也就越大

GPU计算单元类似于CPU中的核,用来进行数值计算。衡量计算量的单位是flop: the number of floating-point multiplication-adds,浮点数先乘后加算一个flop。计算能力越强大,速度越快。衡量计算能力的单位是flops: 每秒能执行的flop数量

1*2+3                  1 flop
1*2 + 3*4 + 4*5        3 flop 

1. 显存分析

1.1 存储指标

1Byte = 8 bit
1K = 1024 Byte
1M = 1024 K
1G = 1024 M
1T = 1024 G10 K = 10*1024 Byte

除了KMGT等之外,我们常用的还有KBMBGBTB 。二者有细微的差别。

1Byte = 8 bit
1KB = 1000 Byte
1MB = 1000 KB
1GB = 1000 MB
1TB = 1000 GB10 KB = 10000 Byte

KMGT是以1024为底,而KBMBGBTB以1000为底。不过一般来说,在估算显存大小的时候,我们不需要严格的区分这二者。

在深度学习中会用到各种各样的数值类型,数值类型命名规范一般为TypeNum,比如Int64、Float32、Double64。

  • Type:有Int,Float,Double等
  • Num: 一般是 8,16,32,64,128,表示该类型所占据的比特数目

常用的数值类型如下图所示:

常用的数值类型

其中Float32 是在深度学习中最常用的数值类型,称为单精度浮点数,每一个单精度浮点数占用4Byte的显存。

举例来说:有一个1000x1000的 矩阵,float32,那么占用的显存差不多就是

1000x1000x4 Byte = 4MB

32x3x256x256的四维数组(BxCxHxW)占用显存为:24M

1.2 神经网络显存占用

神经网络模型占用的显存包括:

  • 模型自身的参数
  • 模型的输出

举例来说,对于如下图所示的一个全连接网络(不考虑偏置项b)

模型的输入输出和参数

模型的显存占用包括:

  • 参数:二维数组 W
  • 模型的输出: 二维数组 Y

输入X可以看成是上一层的输出,因此把它的显存占用归于上一层。

这么看来显存占用就是W和Y两个数组?

并非如此!!!

下面细细分析。

1.2.1 参数的显存占用

只有有参数的层,才会有显存占用。这部份的显存占用和输入无关,模型加载完成之后就会占用。

有参数的层主要包括:

  • 卷积
  • 全连接
  • BatchNorm
  • Embedding层
  • … …

无参数的层

  • 多数的激活层(Sigmoid/ReLU)
  • 池化层
  • Dropout
  • … …

更具体的来说,模型的参数数目(这里均不考虑偏置项b)为:

  • Linear(M->N): 参数数目:M×N
  • Conv2d(Cin, Cout, K): 参数数目:Cin × Cout × K × K
  • BatchNorm(N): 参数数目: 2N
  • Embedding(N,W): 参数数目: N × W

参数占用显存 = 参数数目×n

n = 4 :float32

n = 2 : float16

n = 8 : double64

在PyTorch中,当你执行完model=MyGreatModel().cuda()之后就会占用相应的显存,占用的显存大小基本与上述分析的显存差不多(会稍大一些,因为其它开销)。

1.2.2 梯度与动量的显存占用

举例来说, 优化器如果是SGD:

Wt+1=WtαF(Wt) W t + 1 = W t − α ∇ F ( W t )

可以看出来,除了保存W之外还要保存对应的梯度 F(W) ∇ F ( W )
,因此显存占用等于参数占用的显存x2,

如果是带Momentum-SGD

vt+1=ρvt+F(Wt) v t + 1 = ρ v t + ∇ F ( W t )

Wt+1=Wtαvt+1 W t + 1 = W t − α v t + 1

这时候还需要保存动量, 因此显存x3

如果是Adam优化器,动量占用的显存更多,显存x4

总结一下,模型中与输入无关的显存占用包括:

  • 参数* W*
  • 梯度 dW(一般与参数一样)
  • 优化器的动量(普通SGD没有动量,momentum-SGD动量与梯度一样,Adam优化器动量的数量是梯度的两倍)

1.2.3 输入输出的显存占用

这部份的显存主要看输出的feature map 的形状。

feature map

比如卷积的输入输出满足以下关系:

据此可以计算出每一层输出的Tensor的形状,然后就能计算出相应的显存占用。

模型输出的显存占用,总结如下:

  • 需要计算每一层的feature map的形状(多维数组的形状)
  • 模型输出的显存占用与 batch size 成正比
  • 需要保存输出对应的梯度用以反向传播(链式法则)
  • 模型输出不需要存储相应的动量信息(因为不需要执行优化)

深度学习中神经网络的显存占用,我们可以得到如下公式:

显存占用=模型显存占用 + batch_size × 每个样本的显存占用

可以看出显存不是和batch-size简单的成正比,尤其是模型自身比较复杂的情况下:比如全连接很大,Embedding层很大

另外需要注意:

  • 输入(数据,图片)一般不需要计算梯度
  • 神经网络的每一层输入输出都需要保存下来,用来反向传播,但是在某些特殊的情况下,我们可以不要保存输入。比如ReLU,在PyTorch中,使用nn.ReLU(inplace = True) 能将激活函数ReLU的输出直接覆盖保存于模型的输入之中,节省不少显存。感兴趣的读者可以思考一下,这时候是如何反向传播的(提示:y=relu(x) -> dx = dy.copy();dx[y<=0]=0

1.3 节省显存的方法

在深度学习中,一般占用显存最多的是卷积等层的输出,模型参数占用的显存相对较少,而且不太好优化。

节省显存一般有如下方法:

  • 降低batch-size
  • 下采样(NCHW -> (1/4)*NCHW)
  • 减少全连接层(一般只留最后一层分类用的全连接层)

2 计算量分析

计算量的定义,之前已经讲过了,计算量越大,操作越费时,运行神经网络花费的时间越多。

2.1 常用操作的计算量

常用的操作计算量如下:

  • 全连接层:BxMxN , B是batch size,M是输入形状,N是输出形状。
  • 卷积的计算量: BHWCoutCinK2 B H W C o u t C i n K 2

  • BatchNorm 计算量我个人估算大概是 BHWC×{4,5,6} B H W C × { 4 , 5 , 6 }
    , 欢迎指正

  • 池化的计算量: BHWCK2 B H W C K 2

  • ReLU的计算量: BHWC B H W C

2.2 AlexNet 分析

AlexNet的分析如下图,左边是每一层的参数数目(不是显存占用),右边是消耗的计算资源

AlexNet分析

可以看出:

  • 全连接层占据了绝大多数的参数
  • 卷积层的计算量最大

2.3 减少卷积层的计算量

今年谷歌提出的MobileNet,利用了一种被称为DepthWise Convolution的技术,将神经网络运行速度提升许多,它的核心思想就是把一个卷积操作拆分成两个相对简单的操作的组合。如图所示, 左边是原始卷积操作,右边是两个特殊而又简单的卷积操作的组合(上面类似于池化的操作,但是有权重,下面类似于全连接操作)。

Depthwise Convolution

这种操作使得:

  • 显存占用变多(每一步的输出都要保存)
  • 计算量变少了许多,变成原来的 1Cout+1k2 1 C o u t + 1 k 2
    (一般为原来的10-15%)

2.4 常用模型 显存/计算复杂度/准确率

去年一篇论文An Analysis of Deep Neural Network Models for Practical Applications总结了当时常用模型的各项指标,横座标是计算复杂度(越往右越慢,越耗时),纵座标是准确率(越高越好),圆的面积是参数数量(不是显存占用)。左上角我画了一个红色小圆,那是最理想的模型的的特点:快,效果好,占用显存小。

常见模型计算量/显存/准确率

3 总结

3.1 建议

  • 时间更宝贵,尽可能使模型变快(减少flop)
  • 显存占用不是和batch size简单成正比,模型自身的参数及其延伸出来的数据也要占据显存
  • batch size越大,速度未必越快。在你充分利用计算资源的时候,加大batch size在速度上的提升很有限

尤其是batch-size,假定GPU处理单元已经充分利用的情况下:

  • 增大batch size能增大速度,但是很有限(主要是并行计算的优化)
  • 增大batch size能减缓梯度震荡,需要更少的迭代优化次数,收敛的更快,但是每次迭代耗时更长。
  • 增大batch size使得一个epoch所能进行的优化次数变少,收敛可能变慢,从而需要更多时间才能收敛(比如batch_size 变成全部样本数目)。

3.2 关于显卡选购

当前市面上常用的显卡指标如下:

常见显卡指标

更多显卡的更多指标请参阅 https://en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units.

显然GTX 1080TI性价比最高,速度超越新Titan X,价格却便宜很多,显存也只少了1个G(据说故意阉割掉一个G,不然全面超越了Titan X怕激起买Titan X人的民愤~)。

  • K80性价比很低(速度慢,而且贼贵)
  • 注意GTX TITAN和Nvidia TITAN的区别,别被骗

另外,针对本文,我做了一个Google 幻灯片:神经网络性能分析,国内用户可以点此下载ppt。Google幻灯片格式更好,后者格式可能不太正常。

本文都是针对单机单卡的分析,分布式的情况会和这个有所区别。在分析计算量的时候,只分析了前向传播,反向传播计算量一般会与前向传播有细微的差别。

限于本人水平,文中有疏漏之处,还请指正。

GPU显存 - 深度学习中 GPU 和显存分析相关推荐

  1. 深度学习中GPU和显存分析

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自:机器学习AI算法工程 深度学习最吃机器,耗资源,在本文,我将 ...

  2. 科普帖:深度学习中GPU和显存分析

    深度学习最吃机器,耗资源,在本文,我将来科普一下在深度学习中: 何为"资源" 不同操作都耗费什么资源 如何充分的利用有限的资源 如何合理选择显卡 并纠正几个误区: 显存和GPU等价 ...

  3. 深度学习中GPU和显存

    GPU状态的监控 nvidia-smi: 是Nvidia显卡命令行管理套件,基于NVML库,旨在管理和监控Nvidia GPU设备.nvidia-smi命令的输出中最重要的两个指标:显存占用和GPU利 ...

  4. 深度学习中GPU的作用

    英伟达推出的"霸王条款":GeForce产品禁止用于深度学习. 英伟达的禁令 众所周知,英伟达是显卡界的老大,2017年英伟达的GPU芯片在全球市场的占有率为70%左右,无论是人工 ...

  5. 【翻译】为深度学习购买哪种GPU: 我在深度学习中使用GPU的经验和建议

    文章目录 概述 GPU是如何工作的? 对深度学习处理速度最重要的GPU规格 张量核心 没有张量核心的矩阵乘法 使用张量核心的矩阵乘法 带有张量核心和异步拷贝的矩阵乘法(RTX 30/RTX 40)和T ...

  6. tensorflow随笔——深度学习中GPU型号对比

    深度学习是机器学习的一个分支.深度学习通过深层神经网络自行寻找特征来解决问题,不同于传统方法需要告诉算法找什么样的特征.为获取数据的本质特征深度神经网络需要处理大量信息,一般有两种处理方式:CPU和G ...

  7. Ubuntu22.04设置独显用于深度学习运算,核显用于屏幕显示

    目录 摘要 主板bios设置 第一步:切换prime-select 第二步:关机重启,并将显示器接口插到主板上 第三步:设置PRIME Profiles为NVIDIA On-Demand模式 注意事项 ...

  8. 关于深度学习中GPU显存使用的介绍

    Reference: 1.https://zhuanlan.zhihu.com/p/31558973 # 知乎上一篇文章介绍显存的使用非常全面 2.https://www.cnblogs.com/kk ...

  9. 3_深度学习中显卡的使用和显存的分配(20181213)

    深度学习中显卡的使用和显存的分配(20181213) 1.查看机器上GPU的使用情况 2.tensorflow 中显卡使用和显存分配 1.显卡的使用,单显卡和多显卡调用 1.通过设置环境变量设置 禁用 ...

最新文章

  1. 微信小程序使用npm 进行下载构建组价
  2. Android 中文api (88)——SharedPreferences
  3. 使用Jedit建立IDE图文教程
  4. boost::coroutine2模块实现分段的stack的测试程序
  5. 连接mysql的机制_安装成功后mysql 8.0不能连接navicat的解决方法
  6. facebook 分享页面_Facebook个人资料,页面和组之间有什么区别?
  7. javafx 打开新窗口_新的JMetro JavaFX 11兼容版本
  8. 渐进式web应用程序_通过渐进式Web应用程序吸引用户并增强他们的体验
  9. Linux服务器 | 服务器模型与三个模块、两种并发模式:半同步/半异步、领导者/追随者
  10. rtklib 天线相位中心_发射天线的作用
  11. ZipKin原理学习(分布式实时数据追踪系统)+window部署zipkin+k8s部署zipkin
  12. 安卓开发硬件开发之-大华条码秤开发1
  13. 页式存储系统的逻辑地址是由页号和页内地址两部分组成的
  14. 分享一款超棒的jQuery Google地图插件:Gmaps
  15. 互联网春招和秋招的区别
  16. Android Studio中如何隐藏顶部状态栏和标题栏
  17. 怎样把电脑默认安装C盘的位置改成D盘?
  18. 用于大规模视觉定位的直接2D-3D匹配(IROS 2021)
  19. 恶意进程(云查杀)-DDOS木马
  20. 《从程序猿到项目经理》读后感-直率

热门文章

  1. Bilateral Filter、Cross/Joint Bilateral Filter
  2. Git使用教程:完全图解!
  3. AI医学影像技术展望
  4. 目前国内的智能门锁,主要可以划分为哪几类?
  5. 在线翻译html网页,HTML网页到维基页面翻译器
  6. 中南大学信息与通信工程专业研究生入学考试计算机网络试题2001答案,中南大学信息与通信工程专业研究生入学考试计算机网络试题.doc...
  7. 程序员接私活经验总结,来自csdn论坛语录
  8. Switch开关按钮js
  9. qq怎么实现用链接跳转聊天记录页面
  10. JavaScript实现堆叠图echarts