先上一条命令:watch --color -n1 gpustat -cpu --color

此命令用于Linux动态监测GPU情况,直接在命令行输入即可

1.如果是没有训练就报错

batch_size太大了,输入的input_ids才能真实反映batch_size,别改错了

 input_shape = input_ids.size()batch_size, seq_length = input_shape

2.训练了>=1轮之后报错&&显存持续增长

看一下用于backward()的变量是否有累加,有的话加上item()
比如:

total_loss = total_loss + weight*other_loss
total_loss.backward()

改成

total_loss = total_loss.item() + weight*other_loss
total_loss.backward()

具体原理:显存持续缓慢增长的究极原因 - 小米粥的文章 - 知乎

关于Pytorch训练过程中CUDA out of Memory问题相关推荐

  1. pytorch训练过程中loss出现NaN的原因及可采取的方法

    在pytorch训练过程中出现loss=nan的情况 1.学习率太高. 2.loss函数 3.对于回归问题,可能出现了除0 的计算,加一个很小的余项可能可以解决 4.数据本身,是否存在Nan,可以用n ...

  2. Ubuntu在pytorch训练过程中总是出现死机,重启

    问题解析:一般是gpu或者cpu在和内存io的时候,内存容量不足被强制kill了,举个例子,我训练的模型大小约占用显存16g,但是在存储模型的过程会被32g的内存撑爆 1 在pycharm的设置文件将 ...

  3. Pytorch在训练过程中常见的问题

    1 Input type (CUDAFloatTensor) and weight type (CPUFloatTensor) should be the same 仔细看错误信息,CUDA和CPU, ...

  4. pytorch训练 loss=inf或者训练过程中loss=Nan

    造成 loss=inf的原因之一:data underflow 最近在测试Giou的测试效果,在mobilenetssd上面测试Giou loss相对smoothl1的效果: 改完后训练出现loss= ...

  5. Pytorch运行过程中解决出现内存不足的问题

    1. 前提 利用Transformer模型进行O3浓度的反演 2. 问题 2.1 速度慢 一开始模型是在CPU上面跑的,为了加快速度,我改成了在GPU上跑 方法如下: 1.验证pytorch是否存在G ...

  6. Pytorch使用过程中显存爆炸解决办法

    pytorch中的python对象占用空间很大,模型可以用.cuda()方法放在GPU上,临时的一个batch数据也在训练时放在GPU上进行计算,随着时间推移,显存占用指数倍增长,如果可以的话,把训练 ...

  7. pytorch 训练过程acc_Pytorch之Softmax多分类任务

    在上一篇文章中,笔者介绍了什么是Softmax回归及其原理.因此在接下来的这篇文章中,我们就来开始动手实现一下Softmax回归,并且最后要完成利用Softmax模型对Fashion MINIST进行 ...

  8. 论文阅读|训练过程中动态改变训练方案的Dynamic R-CNN

    目录 论文相关信息 Abstract. 1 Introduction 2 Related Work 3 Dynamic Quality in the Training Procedure 3.1 Pr ...

  9. 理解YOLOv2训练过程中输出参数含义

    转载自https://blog.csdn.net/dcrmg/article/details/78565440 原英文地址: https://timebutt.github.io/static/und ...

最新文章

  1. 如何对待新事物_如何利用这个专栏才能更高效地进步?
  2. python 小说 云_python小说网站
  3. hdu 2037 今年暑假不AC (java)
  4. Internet Explorer 6 中的 CSS 增强功能
  5. 8 仓储单位类型E1对于物料xxxxxx没有维护
  6. selenium之批量执行测试用例
  7. Windows 10 终于干掉了 Windows 7!
  8. jQuery控制checkbox选中状态但是不显示选中
  9. 拓端tecdat|Matlab用深度学习长短期记忆(LSTM)神经网络对文本数据进行分类
  10. 计算机协议-http
  11. Python得到字符的阿斯克码值 chr ord
  12. 黑苹果安装教程,配EFI引导文件+软件!
  13. AB触摸屏2711P-T12W22A9P、2711P-T10C4A9,2711P-T10C22D8S-B、2711P-T10C22D9P-B、2711P-T12C10D2
  14. 哪里看计算机主板,电脑主板型号和参数在哪里查看
  15. 【C语言】1-100求和;1-N求和
  16. 社会经济学中的因果分析思想初探
  17. 12款精品网盘资源搜索网站,只有你想不到没有它搜不到的
  18. k-近邻算法1(kNN)使用kNN算法改进约会网站的配对效果
  19. 大一计算机基础试题答案,计算机基础知识试题及答案-(1).doc
  20. react实现九宫格抽奖 - h5

热门文章

  1. echarts 字体变为斜体 和 单位
  2. 「WGCLOUD」支持监测Android(安卓)终端手机的状态吗
  3. python 五子棋单机个人版-pygame
  4. 芯片测试的几个术语及解释(CP、FT、WAT)
  5. 中值定理中辅助函数的构造方法
  6. CSS伪类,a标签超链接实现点击后变色
  7. Linux系统下java利用命令查询一些系统参数--网络连接数
  8. 如何高效开发海外客户将开发信递送到真正的买家手里
  9. 正点原子imx6ullUBOOT顶层Makefile学习笔记
  10. 百度地图API GL使用总结