如今研究人工智能,跑深度学习算法,显卡/GPU绝对是第一大门槛,所以不管您是1080Ti还是V100,如果不能发挥出GPU的最大能力,那它可能就是不是显卡而是块普通的砖头了吧。

显卡爆炸
显卡爆炸和内存的使用紧密相连,特别是在代码中对某些变量的不当使用,很有可能内存泄露,从而慢慢得导致显卡OOM(out of memory)。一般来说,计算模型时显存主要是模型参数 + 计算产生的中间变量,细分可以占用分四个部分:

  • 模型参数
  • 模型计算中间结果
  • 反向传播中间结果
  • 优化器额外参数

但是如果模型出现显卡内存不足的错误(torch.FatalError: cuda runtime error (2) : out of memory),很难第一时间确定出问题的所在,不过Pycharm的图形化内存分析工具memory profiler可以看到每一部分的时间和函数引用关系,通过这个工具可以确定出问题的某些行代码。说到工具,也有可以通过htop监控下显卡的:

sudo apt-get install htop
htop -d=0.1 #d为更新频率,0.1s更新一次
watch -n 0.1 nvidia-smi #监控内存,0.1s刷新一次

显存比较常见的一些问题有:

  • 全局变量累加导致内存泄漏,如loss变量的处理。这里要注意的是,一定要先和GPU detach了,仅仅使用loss的数值,不然添加的实际上是整个计算图。当然除了loss,其他的变量问题基本上都是出现内存泄露的原因呀。
epoch_loss += loss.detach().item()
  • 内存垃圾回收。python的变量如果不用了一般不会立即被回收,所以我们可以手动的在每一个epoch里面进行回收。
import gc
gc.collect()
  • 多用np.array,而不是list,特别是DataLoader,而且导入时最好先放到cuda中去。
model = model.cuda()
model.to(device1) #使用序号为1的GPU
  • 小心全局变量。
  • checkpoint。如果一个模型需要占用的显存实在太大了,那可以使用它分多步进行计算,每次模型都会从上次保存的地方继续训练。
  • 爆显存也有可能是忘记设置no_grad(torch.no_grad()是新版本pytorch中volatile的替代)
with torch.no_grad():...

显卡利用率不足
经常有程序跑得非常慢,但是一看占用率才3%,10%,这往往是因为CPU和GPU之间的速度不是很匹配。因为模型的计算基本都是在GPU上的,所以一般问题都出在载入数据的速度太慢了,当载入数据花了很久但模型计算飞快的解决,相对于GPU要等待很久才会工作,这样的占用率自然就不高了。当然也有可能不是数据的问题,而是模型本身就太简单了。

  • batch_size变大。这样可以一次性多载入数据到显存中,可以提高它的占用率,并且可以尽量占满GPU的内存。
  • Dataloader中的num_workers。这个参数可以多进程的载入数据提高效率,一般可以选用4,8,16等等。但是,这个数量并不是越多越好,因为worker越多,一些进程间的分配和协作+I/O问题反而会拖慢速度。
torch.utils.data.DataLoader(datasets[x],batch_size=batch_size, shuffle=True,num_workers=8,pin_memory=True)

如果加载一个batch的时间小于模型计算的时间,那么其实不需要多余的worker的,因为GPU不需要额外的等待时间,所以这个时候即便加了worker速度也不会加快。反之如果加载一个batch的时间大于模型计算的时间,那么增加worker之后,可以在前一个worker没就绪前就使用另一个worker的数据来训练。

  • pin_memory=True。锁页内存,数据将不在硬盘中存储,省掉了将数据从CPU传入到缓存RAM里面,再给传输到GPU上,利用GPU时就会更快一些。

其他优化显卡的方法

  • 使用inplace操作, 比如relu 可以使用 inplace=True。当设置为True时,我们在通过relu()计算时的得到的新值不会占用新的空间而是直接覆盖原来的值,这也就是为什么当inplace参数设置为True时可以节省一部分内存的缘故。
def inplace_relu(m):classname = m.__class__.__name__if classname.find('ReLU') != -1:m.inplace=Truemodel.apply(inplace_relu)
  • del的好习惯,确定某变量不用后,就自己手动清除中间变量。
  • 在程序刚开始加这条语句可以提升一点训练速度,没什么额外开销
torch.backends.cudnn.benchmark = True
  • 如果在python内调用pytorch有可能显存和GPU占用不会被自动释放,此时需要加入如下代码来删除一些不需要的变量
 torch.cuda.empty_cache()

GPU Memory Problems in PyTorch(显卡爆炸与利用率不足)相关推荐

  1. python显卡利用率_GPU Memory Problems in PyTorch(显卡爆炸与利用率不足)

    如今研究人工智能,跑深度学习算法,显卡/GPU绝对是第一大门槛,所以不管您是1080Ti还是V100,如果不能发挥出GPU的最大能力,那它可能就是不是显卡而是块普通的砖头了吧. 显卡爆炸 显卡爆炸和内 ...

  2. python吃显卡还是内存不足_Pythorch中的GPU内存问题,GPUMemoryProblemsinPyTorch,显卡,爆炸,与,利用率,不足...

    如今研究人工智能,跑深度学习算法,显卡/GPU绝对是第一大门槛,所以不管您是1080Ti还是V100,如果不能发挥出GPU的最大能力,那它可能就是不是显卡而是块普通的砖头了吧. 显卡爆炸 显卡爆炸和内 ...

  3. PaddleOCR——申请显存不足【Allocate too much memory for the GPU memory pool, assigned 8000 MB】解决方案

    问题描述 E0724 02:41:05.436789 3160 analysis_predictor.cc:515] Allocate too much memory for the GPU memo ...

  4. Win10+CUDA11.0+RTX 3060ti GPU深度学习主机 pytorch 环境

    Win10+CUDA11.0+RTX 3060ti GPU深度学习主机 pytorch 环境 0. 前言 1. 安装Anaconda ***** 新建环境 ***** 2. 安装CUDA和cuDNN ...

  5. GPU 内存的分级综述(gpu memory hierarchy)

    GPU 内存的分级(gpu memory hierarchy) 小普 中科院化学所在读博士研究生 研究课题,计算机模拟并行软件的开发与应用 Email:  yaopu2019@126.com (欢迎和 ...

  6. pytorch显卡内存随训练过程而增加_PyTorch重大更新:将支持自动混合精度训练!...

    AI编辑:我是小将 混合精度训练(mixed precision training)可以让模型训练在尽量不降低性能的情形下提升训练速度,而且也可以降低显卡使用内存.目前主流的深度学习框架都开始支持混合 ...

  7. 云中 GPU的AI训练,显卡分配

    AI 模型的训练   模型并行-> 就是把模型就行分层级  model=model-layer-0+model-layer-1+model-layer-2+model-layer-3  比如 一 ...

  8. Pytorch显卡设置

    参考资料: https://zhuanlan.zhihu.com/p/166161217 本人最常使用到显卡和CUDA的东西莫过于Pytorch了.这篇文章着重说明两个问题:1. 如何import t ...

  9. jittor 和pytorch gpu 使用效率对比(惊人jittor的算力利用率是pytorch 4-5倍)

    之前使用的是cpu对比 pytorch 好像更胜一筹(本人觉得是当时可能环境不对这次配置好了完美环境使用lsgan代码进行对比果然如jittor官网所说比pytorch快,但是本人还是有一个惊奇的发现 ...

最新文章

  1. LinkedBlockingQueue 注记
  2. 案例驱动python编程入门-python实现事件驱动
  3. 杀毒软件已经 OUT 了!未来 CPU 也可以检测病毒
  4. 进一步掌握linux吧
  5. 比尔·盖茨:如果你想了解硅谷,就看《硅谷》吧
  6. NYOJ 44 字串和
  7. 【CyberSecurityLearning 40】网络地址配置(Kali/CentOS)
  8. CRDT——解决最终一致问题的利器
  9. RTSP服务器之————rtsp-server(轻量级RTSP / RTP流媒体服务器)
  10. 二维有限体积 matlab,二维有限体积法计算热传导及源码.pdf
  11. 企业网站6个常见的优化漏洞
  12. php mysql 反斜杠_MySQL中如何插入反斜杠,反斜杠被吃掉,反斜杠转义(转)
  13. 微信小程序搜索排名规则,教你怎么让排名靠前
  14. 企业邮箱账号,如何在foxmail上创建
  15. 一些javaweb开发常用工具类
  16. 转行做程序员,月薪过万需要多久?
  17. AOP术语、SpringAOP
  18. 2019腾讯游戏客户端面试
  19. WDK与DDK的区别
  20. Spring-全面详解(基础知识)

热门文章

  1. 洛谷 P5594 【XR-4】模拟赛 视频讲解(二维数组、模拟)
  2. vue中的与||符号
  3. 程序员的工资这么高,为什么还会有人离职?
  4. 为 TDesignBlazor 添加暗黑模式
  5. Python-高级:多任务-协程 案例:图片下载器
  6. SSLOJ 1165.穹妹的求助
  7. PDF图标异常的解决方法
  8. win7设置防火墙允许Ping与telnet
  9. 未来流行遛机器狗,也许能解决城市宠物背后的矛盾
  10. Android 一个TextView中设置文字不同字体大小和颜色的最完整方法