关于GPU显存占满（即memory usage 很大），但GPU-util很小，导致模型训练很慢

以下两个参数都可以使用nvidia-smi进行查看
GPU内存占用率：
1. GPU内存的占用率往往是由模型大小和batchsize决定的，如果发现GPU占用率很小，比如40%，70%等等。如果此时网络结构已经固定，则只需要改变batch size的大小，就可以尽量利用完整个GPU的内存。
2. 对GPU内存占用率影响最大的还是模型大小，包括网络的宽度，深度，参数量，中间每一层的缓存，都会在内存中开辟空间来进行保存，模型本身会占用很大一部分内存。
3. 其次是batch size的大小，也会占用影响内存占用率。batch size设置为128，与设置为256相比，内存占用率是接近于2倍关系。当你batch size设置为128，占用率为40%的话，设置为256时，此时模型的占用率约等于80%，偏差不大。所以在模型结构固定的情况下，尽量将batch size设置大，充分利用GPU的内存。
4. GPU会很快的算完你给进去的数据，主要瓶颈在CPU的数据吞吐量上面。
GPU 内存利用率（GPU-Util）：
1. 没有设置好CPU的线程数时，这个参数是在反复的跳动的。本质原因：GPU在等待数据从CPU传输过来，当数据从总线传输到GPU之后，GPU逐渐计算起来，利用率会突然升高，但是GPU的算力很强大，0.5秒就基本能处理完数据，所以利用率接下来又会降下去，等待下一个batch的传入。
2. GPU利用率瓶颈在内存带宽和内存介质上以及CPU的性能上面。
3. 提供GPU利用率的方式：
  1. pytorch中的Dataloader类设置num_worker（线程数）以及pin_memory，可以提升速度
    1. 首先要将num_workers（线程数）设置合理，4,8,16是几个常选的几个参数。
      1. 测试发现将num_workers设置的非常大，例如，24，32,等，其效率也不一定会变高，因为模型需要将数据平均分配到几个子线程去进行预处理，分发等数据操作，设高了反而影响效率。
      2. 当然，线程数设置为1，是单个CPU来进行数据的预处理和传输给GPU，效率也会低。
    2. pinned memory 是一种加速数据从cpu到gpu传输速度的方式。
  2. 其次，当服务器或者电脑的内存较大，性能较好的时候，可以打开pin_memory，就省掉了将数据从CPU传入到缓存RAM里，再给传输到GPU上；为True，会直接映射到GPU的相关内存块上，省掉了一点数据传输时间。
调试：
1. 命令：top 实时查看CPU的进程利用率，这个参数对应你的num_workers的设置；
2. 命令： watch -n 0.5 nvidia-smi 每0.5秒刷新并显示显卡设置。实时查看你的GPU的使用情况，这是GPU的设置相关。
3. 这两个配合好。包括batch_size的设置。
4. 自动实时刷新GPU的使用情况：nvidia-smi -l
有时cuda版本太老也会导致运行的很慢（后续可以尝试的就是更新cudnn的版本）
显卡占用和GPU占用是两个不一样的东西，显卡是由GPU和显卡等组成的，显卡和GPU的关系有点类似于内存和CPU的关系，两个指标的占用率不一定是互相对应的。
查看内存使用情况：free -m

关于GPU显存占满（即memory usage 很大），但GPU-util很小，导致模型训练很慢相关推荐

解决Ubuntu系统找不到进程，但是GPU显存占满问题
Ubuntu系统有时候会出现GPU显存显示占满,但是使用top命令和nvidia-smi命令都查找不到进程. fuser -v /dev/nvidia* 通过上条命令查找进程,然后使用 sudo ki ...
GPU显存占满但利用率却很低
来帕多瓦联培已经一个多月了,最近调代码跑实验又发现了这个问题.这里提供另外一个解决思路.一个原因还是 cpu没跟上gpu节奏. 通常我们都会用尽可能大的 batch 来占满显存.但是如果cpu的读取和 ...
GPU显存占满利用率GPU-util奇低
如上图. 但是有显存占用说明模型应该是在跑的.后来既然GPU利用不起来,我干脆同时跑多个模型,想充分利用,但是效果还不是很明显,速度依然都很慢. 查了查资料发现可以在Dataloader里加pin_m ...
GPU显存占满利用率GPU-util为0
文章目录 1.
GPU释放显存-----无进程但显存占满解决方法
记录自己在学习中遇到的问题在训练模型时打断训练进程,之后再想进行其他的训练或者验证步骤时,会提示显存已满 out of memory 使用 nvidia-smi 查看gpu使用情况,无法看见正在进行 ...
【已解决】探究CUDA out of memory背后原因，如何释放GPU显存？
目录 1 问题背景 2 问题探索 2.1 CUDA固有显存 2.2 显存激活与失活 2.3 释放GPU显存 3 问题总结 4 告别Bug 1 问题背景研究过深度学习的同学,一定对类似下面这个CUDA ...
【tensorflow】 GPU 显存分配设置
import osimport tensorflow as tfconfig = tf.ConfigProto()config.gpu_options.per_process_gpu_memory_f ...
阿里 NIPS 2017 Workshop 论文：基于 TensorFlow 的深度模型训练 GPU 显存优化
NIPS 2017 在美国长滩举办,场面非常热烈.阿里巴巴一篇介绍深度模型训练 GPU 显存优化的论文<Training Deeper Models by GPU Memory Optimiza ...
获取指定进程所占用内存、指定GPU显存信息、所有GPU型号和驱动
######################################################### # 获取指定进程所占用内存 ############################ ...

关于GPU显存占满（即memory usage 很大），但GPU-util很小，导致模型训练很慢

关于GPU显存占满（即memory usage 很大），但GPU-util很小，导致模型训练很慢相关推荐

最新文章

热门文章