https://blog.csdn.net/mch2869253130/article/details/111034068

https://www.zzsblog.top/coding/2021/08/07/pytorch%E5%AE%9A%E4%BD%8DNaN.html

按照下面的流程来判断。
...

loss = model(input)
# 1. 先看loss是不是nan,如果loss是nan,那么说明可能是在forward的过程中出现了第一条列举的除0或者log0的操作
assert torch.isnan(loss).sum() == 0, print(loss)

optim.zero_grad()
loss.backward()
# 2. 如果loss不是nan,那么说明forward过程没问题,可能是梯度爆炸,所以用梯度裁剪试试
nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)

# 3.1 在step之前,判断参数是不是nan, 如果不是判断step之后是不是nan
assert torch.isnan(model.mu).sum() == 0, print(model.mu)
optim.step()
# 3.2 在step之后判断,参数和其梯度是不是nan,如果3.1不是nan,而3.2是nan,
# 特别是梯度出现了Nan,考虑学习速率是否太大,调小学习速率或者换个优化器试试。
assert torch.isnan(model.mu).sum() == 0, print(model.mu)
assert torch.isnan(model.mu.grad).sum() == 0, print(model.mu.grad)
————————————————
版权声明:本文为CSDN博主「风吹草地现牛羊的马」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/mch2869253130/article/details/111034068

三板斧

检查NaN有三板斧, 尽管调试NaN通常需要一定的经验和耐心, 但记住这三个至少不至于手足无措.

#1 正向传播异常侦测

torch.autograd.set_detect_anomaly(True)

如题, forward时出现NaN即时报错. 尽管说得好听, 但有的时候并不能准确地定位问题所在. 属于调试NaN的必要辅助.

#2 反向传播异常侦测

# loss = model(X)
with torch.autograd.detect_anomaly():loss.backward()

如题, backward时出现NaN时即时报错. 相比#1来说更难确切定位问题, 往往用于兜底, 即确保出现NaN时程序会尽快抛出异常.

#3 assert

assert是确保程序行为正确的重要手段. 对于一个算法来说, 出现NaN不管怎么说都意味着不正常. 同时, 对debug来说, 最重要的就是找到事发现场, 而assert正是寻找真正现场的利器.

在pytorch中, 检查NaN的函数为torch.isnan(T). 于是我们可以构造如下断言:

assert not torch.any(torch.isnan(T))

当然, 这么写其实有一点性能浪费, 但写python, 又是debug专用代码, 何必考虑这么多呢¯\_(ツ)_/¯

将这个断言加在你认为有可能出现NaN的步骤之后. 这样一旦出现NaN, 你至少能抓住一个现场. 哪怕这个现场已经漂移, 配合调试器你也能更有逻辑地找到真正的事发现场.

NaN的可能原因

讲完三板斧总得讲讲NaN的成因, 要不然就是光有方法没有理论(x 尤其是#3, 要求调试者非常充分且熟练地掌握NaN的可能成因.

梯度爆炸

梯度爆炸, 或者梯度消失都可能导致NaN. 这个问题往往会被#2 反向传播异常检测捕获, 但真正定位到问题却难上加难. 相对来说, 重新推导一遍自己的理论模型、寻找可能导致梯度爆炸的计算显得更有针对性.

计算不合法

这也是NaN最常见的成因. 毕竟大多数的网络, 尤其是复现、组合别人的网络结构一般不会碰到梯度爆炸的问题, 而NaN大多出现于loss计算的部分, 诞生于某个小小的不合法计算, 然后污染它参与计算的所有结果, 最后在你的loss值上表现出来.

常见套路:

  • $ log(x), x \leq 0 $
  • $ c/0 $

尚有其他的一些情况我自己没遇到过, 网上可能会有补充

这种问题运气好的话会被#1 正向异常检测直接找到, 但通常是找到一个漂移了亿点点的位置. 推荐用#3 assert的办法, 尤其是 自己写了loss时, 在关键位置放几个assert守门, 总归是没错的.

注意, 绝大多数时候, inf也是不合常理的存在. 因此你可能也需要同时寻找inf:

assert not torch.any(torch.isnan(T) + torch.isinf(T))

脏数据

NaN的次常见成因. 顾名思义, 出现NaN仅仅是因为数据里含有NaN. 通常来说直接读图片不会出现NaN, 往往是大意地处理数据后会出现这种情况.

随便举个例子.

mask = mask / mask.max()
# serialize mask

这句话看起来没问题, 把uint8{0, 255}转成float32[0, 1]. 相信很多人都这么写过. 正常来说不会有任何问题, 直到我遇到了一张纯黑的mask :P

毕竟谁也不会想到有一张图没标注还给放数据集里了是吧. 但不管怎么说, 此时我们犯了”除零”的错误. 这个mask会变成携带NaN的脏数据输入模型, 并在计算loss时将loss结果污染. 如果程序没有及时终止, 在仅仅一次反向传播之后, 你的模型参数将变为NaN, 其一切推导将得出NaN ¯\_(ツ)_/¯

检查NaN的一般步骤

  1. 检查数据
  2. 开启正向和反向异常检测
  3. 给模型的直接输出结果和最终loss加assert
  4. 通过经验、猜测、反推等方法逐步把assert加到之前的步骤, 直到触发的assert帮你找到了不合法计算
  5. 若计算loss的过程中没有发现问题, 且总是触发反向传播异常, 那可以考虑从理论上检查梯度爆炸和梯度消失

Pytorch定位NaN相关推荐

  1. pytorch判断NaN

    目录 pytorch判断NaN python判断nan: c++判断nan: pytorch判断NaN You can always leverage the fact that nan != nan ...

  2. 一篇超详细的pytorch基础语法讲解及理论推导(一)

    张量 - 线性回归 - 自动求导 - 逻辑回归 来源:投稿 来源:阿克西 编辑:学姐 1 pytorch简介 PyTorch是2017年1月FAIR(Facebook AI Research)发布的一 ...

  3. 字节AI LAB NLP算法二面凉+被捞后通过

    作者 | 113767074 整理 | NewBeeNLP 面试锦囊之面经分享系列,持续更新中  欢迎后台回复『面试』加入讨论组交流噢  一面 能感觉到面试官是个水平贼高的人 对machine lea ...

  4. 关于入职字节跳动之后加班写到快十二点 拿到offer的快乐

    期盼着,期盼着,期盼着 期盼着能在明年的秋招中收获大厂offer 大厂那么有吸引力,该如何准备? 对校招敏感度及了解程度不高的22届.23届甚至是24届同学是时候了解一下了 相信毕业找工作的同学们都听 ...

  5. pytorch训练时前一次迭代的loss正常后一次迭代却报nan

    问题描述:训练一个有四个阶段模型的网络(可以简单理解每一阶段就是一个卷积层),每阶段输出都会进行loss计算.现将pytorch原始的ce loss改为focal loss后,网络训练了数个迭代后lo ...

  6. Pytorch训练模型损失Loss为Nan或者无穷大(INF)原因

    目录 1. Nan 和 INF 2.出现 Nan 和 INF 常见原因汇总 3.原因分析与解决方法 3.1.输入数据有误 3.2.学习率过高 --> 梯度爆炸进 --> Nan 3.3.损 ...

  7. 解决pytorch半精度amp训练nan问题

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者 | 可可哒@知乎(已授权) 来源 | https://zhua ...

  8. bert pytorch源码_【PyTorch】梯度爆炸、loss在反向传播变为nan

    点击上方"MLNLP",选择"星标"公众号 重磅干货,第一时间送达 作者丨CV路上一名研究僧 知乎专栏丨深度图像与视频增强 地址丨https://zhuanla ...

  9. pytorch crossentropy为nan

    pytorch crossentropy为nan 交叉熵损失函数的具体为: loss = -(x*ln(z)+(1-x)*ln(1-z))  z = softmax(pred_x) 这样当z为0/0时 ...

最新文章

  1. 内存都没了,还能运行程序?
  2. Jersey Restful部署到Tomcat注意事项
  3. Qt TCP 通讯简单案例
  4. Python中的 // 与 / 的区别
  5. unity发布成手机app怎么不能被顶_Unity中Android API 28之后无法HTTP请求
  6. 怎样成为一个好的技术领导者
  7. sklearn 3.随机森林(菜菜课程)
  8. Java读带有BOM的UTF-8文件乱码原因及解决方法(转)
  9. JavaScript Ajax与Comet——“其他跨域技术”的注意要点
  10. 电脑教程从入门到精通_【电路仿真】视频教程资料包,proteus入门到精通+实例教程+软件,免费下载!...
  11. 【人工智能数学基础(五)】信息论
  12. java规则引擎_Drools规则引擎(Java)
  13. linux下安装oracle客户端
  14. Java工程师工作描述写作要点该怎么写?
  15. Java小程序--抓取emai
  16. 京东商品历史价格信息API接口-(item_history_price-获取商品历史价格信息API接口),京东API接口
  17. 微型计算机的指令集,窥视灵魂深处 AMD新一代SIMD指令集剖析
  18. android 5.1 随机IMEI号
  19. 面向产品的新一代端到端唤醒框架 wekws 正式发布
  20. ExpandableListview的简单使用

热门文章

  1. 1.10 Pet技术流导论+完全1.10Pet数据(转)
  2. python数据库sqlite3_Python中内置了数据库?SQLite3 (苔花如米小,也学牡丹开)
  3. 选择阿里云服务器有什么优势,值得大家去选择?
  4. 树的三种遍历原理及实现
  5. Java游戏引擎竟然可以如此简单
  6. 利用Cursor体验ChatGPT4.0
  7. POI实现数据分页读取写入excel
  8. 虚拟化服务--KVM虚拟机的使用与管理
  9. 西北民族大学c语言程序设计复试科目,2016年西北民族大学中国民族信息技术研究院962C语言程序设计复试笔试最后押题五套卷...
  10. 罗马复兴开源代码_社区主导的开源复兴