最近在训练模型的时候,跑着跑着会莫名其妙的报 CUDA error 并且提示 idx_dim>=0 && idx_dim < index_size && "index out of bounds" ,更甚者第一个 minibatch 就会出错,而且没有指出具体问题所在,这就比较困扰

在网上查找大神们的解决方案的时候,发现给出的建议是 标签溢出 造成的,也有 NLP大神指出在 NLP 领域有可能是因为句柄长度溢出造成的

问题分析 idx_dim>=0 && idx_dim < index_size && "index out of bounds" 是因为维度范围溢出了,从而造成的 CUDA error 错误

对于 CV 领域而言,大概率是 标签溢出,因此可以在标签读取的时候/loss 计算的时候,将 labels/pred 的 min()/max() 输出,查看是否超出了范围

不要怀疑 label/pred 不会超出范围,因为在数据读取的时候可能有一些的处理,造成可能的溢出,

遇到 bug/error 不要苦恼,更不要逃避,有问题解决就是了,相信大家每解决一个难题都有很大的成长

「Bug」问题分析 RuntimeError: CUDA error: device-side assert triggered相关推荐

  1. 【bug记录】RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasSgemm

    问题 在训练到一定迭代次数之后报错: RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling cublasSgemm ...

  2. 已解决RuntimeError: CUDA error: device-side assert triggered异常的正确解决方法,亲测有效!!!

    已解决RuntimeError: CUDA error: device-side assert triggered异常的正确解决方法,亲测有效!!! 文章目录 报错问题 解决方法 福利 报错问题 粉丝 ...

  3. 出现错误(已解决)RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA ker

    出现问题(已解决)RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA ker ...

  4. RuntimeError: CUDA error: device-side assert triggered和Unable to get repr for <class ‘torch.Tensor

    项目场景: 一个深度学习模型,主要包括GCN与CNN两个部分 问题描述 跑代码的时候发现他一直出现RuntimeError: CUDA error: device-side assert trigge ...

  5. Faster rcnn 训练coco2017数据报错 RuntimeError: CUDA error: device-side assert triggered

    Faster rcnn 训练coco2017数据报错 RuntimeError: CUDA error: device-side assert triggered 使用faster rcnn训练自己的 ...

  6. Debug Pytorch: RuntimeError: CUDA error: device-side assert triggered

    报错信息 RuntimeError: CUDA error: device-side assert triggered /pytorch/aten/src/THC/THCTensorScatterGa ...

  7. AssertionError: Invalid device id 和RuntimeError: CUDA error: invalid device ordinal

    我在使用torch多卡并行时出现了这个两个问题. ##问题一:AssertionError: Invalid device id,即无效的设备id 出现的原因:结合代码解释: import ...os ...

  8. [debug] RuntimeError: CUDA error: no kernel image is available for execution on the device

    问题描述 运行程序时出现报错: RuntimeError: CUDA error: no kernel image is available for execution on the device ( ...

  9. RTX 3090运行报错:RuntimeError: CUDA error: no kernel image is available for execution on the device

    RuntimeError: CUDA error: no kernel image is available for execution on the device 安装适用于GeForce RTX ...

最新文章

  1. winstore独立安装包下载_QT使用教程(二)之下载篇
  2. 第10章 指针(五) 使用地址-------指针的引用
  3. 简述网卡的作用和工作原理_凯狄简述抽芯铆钉的作用原理
  4. WPF 用户控件的使用
  5. mxd 对象继承法则
  6. spark从hbase读数据到存入hbase数据两种版本写法
  7. Shell命令-系统信息及显示之uname、hostname
  8. 知识技能归档-SSL协议20210325
  9. 京东抄袭源码;腾讯回应裁员;新 iPad Pro 十月发布 ​| 极客头条
  10. JSTL标签使用说明
  11. 整装待发 QTA UI自动化测试框架迎来大更新
  12. paip.提升用户体验---搜索功能设计
  13. Openstack+Opencontrail安装与部署初级教程
  14. [填坑]ubuntu 18.04+Windows 10双硬盘双系统修改默认启动顺序
  15. ARM CPU Cortex-X3,Cortex-A715,Cortex-A510 | GPU Immortalis-G715
  16. rho是什么 matlab,RHO值是什么?如何理解RHO值?
  17. 通过ODC方法改善软件测试:3个案例研究
  18. Windows 7可以拯救微软Netbook市场
  19. 一首关于桃花与桃花仙的故事
  20. Flak执行端口被占用OSError: [Errno 48] Address already in use

热门文章

  1. VR技术原理分析,【VR原理入门理论篇】
  2. 数字图像处理课程作业0-骨架图像增强
  3. uni-app 在小程序平台支持 vue 3.0 框架
  4. 初学者应该怎么快速的学习Java编程?
  5. 3D游戏建模 电脑配置介绍
  6. 颜色的Pantone编码
  7. 使用接插件需要注意的问题
  8. 超级面试题2019年6月第1次发布
  9. 【玩物立志-scratch少儿编程】骑上小摩托(动态背景+摄像头控制操作)
  10. Java通过正则剔除乱码_正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码...