Pytorch定位NaN
https://blog.csdn.net/mch2869253130/article/details/111034068
https://www.zzsblog.top/coding/2021/08/07/pytorch%E5%AE%9A%E4%BD%8DNaN.html
按照下面的流程来判断。
...
loss = model(input)
# 1. 先看loss是不是nan,如果loss是nan,那么说明可能是在forward的过程中出现了第一条列举的除0或者log0的操作
assert torch.isnan(loss).sum() == 0, print(loss)
optim.zero_grad()
loss.backward()
# 2. 如果loss不是nan,那么说明forward过程没问题,可能是梯度爆炸,所以用梯度裁剪试试
nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)
# 3.1 在step之前,判断参数是不是nan, 如果不是判断step之后是不是nan
assert torch.isnan(model.mu).sum() == 0, print(model.mu)
optim.step()
# 3.2 在step之后判断,参数和其梯度是不是nan,如果3.1不是nan,而3.2是nan,
# 特别是梯度出现了Nan,考虑学习速率是否太大,调小学习速率或者换个优化器试试。
assert torch.isnan(model.mu).sum() == 0, print(model.mu)
assert torch.isnan(model.mu.grad).sum() == 0, print(model.mu.grad)
————————————————
版权声明:本文为CSDN博主「风吹草地现牛羊的马」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/mch2869253130/article/details/111034068
三板斧
检查NaN有三板斧, 尽管调试NaN通常需要一定的经验和耐心, 但记住这三个至少不至于手足无措.
#1 正向传播异常侦测
torch.autograd.set_detect_anomaly(True)
如题, forward时出现NaN即时报错. 尽管说得好听, 但有的时候并不能准确地定位问题所在. 属于调试NaN的必要辅助.
#2 反向传播异常侦测
# loss = model(X)
with torch.autograd.detect_anomaly():loss.backward()
如题, backward时出现NaN时即时报错. 相比#1来说更难确切定位问题, 往往用于兜底, 即确保出现NaN时程序会尽快抛出异常.
#3 assert
assert是确保程序行为正确的重要手段. 对于一个算法来说, 出现NaN不管怎么说都意味着不正常. 同时, 对debug来说, 最重要的就是找到事发现场, 而assert正是寻找真正现场的利器.
在pytorch中, 检查NaN的函数为torch.isnan(T)
. 于是我们可以构造如下断言:
assert not torch.any(torch.isnan(T))
当然, 这么写其实有一点性能浪费, 但写python, 又是debug专用代码, 何必考虑这么多呢¯\_(ツ)_/¯
将这个断言加在你认为有可能出现NaN的步骤之后. 这样一旦出现NaN, 你至少能抓住一个现场. 哪怕这个现场已经漂移, 配合调试器你也能更有逻辑地找到真正的事发现场.
NaN的可能原因
讲完三板斧总得讲讲NaN的成因, 要不然就是光有方法没有理论(x 尤其是#3, 要求调试者非常充分且熟练地掌握NaN的可能成因.
梯度爆炸
梯度爆炸, 或者梯度消失都可能导致NaN. 这个问题往往会被#2 反向传播异常检测捕获, 但真正定位到问题却难上加难. 相对来说, 重新推导一遍自己的理论模型、寻找可能导致梯度爆炸的计算显得更有针对性.
计算不合法
这也是NaN最常见的成因. 毕竟大多数的网络, 尤其是复现、组合别人的网络结构一般不会碰到梯度爆炸的问题, 而NaN大多出现于loss计算的部分, 诞生于某个小小的不合法计算, 然后污染它参与计算的所有结果, 最后在你的loss值上表现出来.
常见套路:
- $ log(x), x \leq 0 $
- $ c/0 $
尚有其他的一些情况我自己没遇到过, 网上可能会有补充
这种问题运气好的话会被#1 正向异常检测直接找到, 但通常是找到一个漂移了亿点点的位置. 推荐用#3 assert的办法, 尤其是 自己写了loss时, 在关键位置放几个assert守门, 总归是没错的.
注意, 绝大多数时候, inf也是不合常理的存在. 因此你可能也需要同时寻找inf:
assert not torch.any(torch.isnan(T) + torch.isinf(T))
脏数据
NaN的次常见成因. 顾名思义, 出现NaN仅仅是因为数据里含有NaN. 通常来说直接读图片不会出现NaN, 往往是大意地处理数据后会出现这种情况.
随便举个例子.
mask = mask / mask.max()
# serialize mask
这句话看起来没问题, 把uint8{0, 255}转成float32[0, 1]. 相信很多人都这么写过. 正常来说不会有任何问题, 直到我遇到了一张纯黑的mask :P
毕竟谁也不会想到有一张图没标注还给放数据集里了是吧. 但不管怎么说, 此时我们犯了”除零”的错误. 这个mask会变成携带NaN的脏数据输入模型, 并在计算loss时将loss结果污染. 如果程序没有及时终止, 在仅仅一次反向传播之后, 你的模型参数将变为NaN, 其一切推导将得出NaN ¯\_(ツ)_/¯
检查NaN的一般步骤
- 检查数据
- 开启正向和反向异常检测
- 给模型的直接输出结果和最终loss加assert
- 通过经验、猜测、反推等方法逐步把assert加到之前的步骤, 直到触发的assert帮你找到了不合法计算
- 若计算loss的过程中没有发现问题, 且总是触发反向传播异常, 那可以考虑从理论上检查梯度爆炸和梯度消失
Pytorch定位NaN相关推荐
- pytorch判断NaN
目录 pytorch判断NaN python判断nan: c++判断nan: pytorch判断NaN You can always leverage the fact that nan != nan ...
- 一篇超详细的pytorch基础语法讲解及理论推导(一)
张量 - 线性回归 - 自动求导 - 逻辑回归 来源:投稿 来源:阿克西 编辑:学姐 1 pytorch简介 PyTorch是2017年1月FAIR(Facebook AI Research)发布的一 ...
- 字节AI LAB NLP算法二面凉+被捞后通过
作者 | 113767074 整理 | NewBeeNLP 面试锦囊之面经分享系列,持续更新中 欢迎后台回复『面试』加入讨论组交流噢 一面 能感觉到面试官是个水平贼高的人 对machine lea ...
- 关于入职字节跳动之后加班写到快十二点 拿到offer的快乐
期盼着,期盼着,期盼着 期盼着能在明年的秋招中收获大厂offer 大厂那么有吸引力,该如何准备? 对校招敏感度及了解程度不高的22届.23届甚至是24届同学是时候了解一下了 相信毕业找工作的同学们都听 ...
- pytorch训练时前一次迭代的loss正常后一次迭代却报nan
问题描述:训练一个有四个阶段模型的网络(可以简单理解每一阶段就是一个卷积层),每阶段输出都会进行loss计算.现将pytorch原始的ce loss改为focal loss后,网络训练了数个迭代后lo ...
- Pytorch训练模型损失Loss为Nan或者无穷大(INF)原因
目录 1. Nan 和 INF 2.出现 Nan 和 INF 常见原因汇总 3.原因分析与解决方法 3.1.输入数据有误 3.2.学习率过高 --> 梯度爆炸进 --> Nan 3.3.损 ...
- 解决pytorch半精度amp训练nan问题
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者 | 可可哒@知乎(已授权) 来源 | https://zhua ...
- bert pytorch源码_【PyTorch】梯度爆炸、loss在反向传播变为nan
点击上方"MLNLP",选择"星标"公众号 重磅干货,第一时间送达 作者丨CV路上一名研究僧 知乎专栏丨深度图像与视频增强 地址丨https://zhuanla ...
- pytorch crossentropy为nan
pytorch crossentropy为nan 交叉熵损失函数的具体为: loss = -(x*ln(z)+(1-x)*ln(1-z)) z = softmax(pred_x) 这样当z为0/0时 ...
最新文章
- 内存都没了,还能运行程序?
- Jersey Restful部署到Tomcat注意事项
- Qt TCP 通讯简单案例
- Python中的 // 与 / 的区别
- unity发布成手机app怎么不能被顶_Unity中Android API 28之后无法HTTP请求
- 怎样成为一个好的技术领导者
- sklearn 3.随机森林(菜菜课程)
- Java读带有BOM的UTF-8文件乱码原因及解决方法(转)
- JavaScript Ajax与Comet——“其他跨域技术”的注意要点
- 电脑教程从入门到精通_【电路仿真】视频教程资料包,proteus入门到精通+实例教程+软件,免费下载!...
- 【人工智能数学基础(五)】信息论
- java规则引擎_Drools规则引擎(Java)
- linux下安装oracle客户端
- Java工程师工作描述写作要点该怎么写?
- Java小程序--抓取emai
- 京东商品历史价格信息API接口-(item_history_price-获取商品历史价格信息API接口),京东API接口
- 微型计算机的指令集,窥视灵魂深处 AMD新一代SIMD指令集剖析
- android 5.1 随机IMEI号
- 面向产品的新一代端到端唤醒框架 wekws 正式发布
- ExpandableListview的简单使用
热门文章
- 1.10 Pet技术流导论+完全1.10Pet数据(转)
- python数据库sqlite3_Python中内置了数据库?SQLite3 (苔花如米小,也学牡丹开)
- 选择阿里云服务器有什么优势,值得大家去选择?
- 树的三种遍历原理及实现
- Java游戏引擎竟然可以如此简单
- 利用Cursor体验ChatGPT4.0
- POI实现数据分页读取写入excel
- 虚拟化服务--KVM虚拟机的使用与管理
- 西北民族大学c语言程序设计复试科目,2016年西北民族大学中国民族信息技术研究院962C语言程序设计复试笔试最后押题五套卷...
- 罗马复兴开源代码_社区主导的开源复兴