Faster rcnn 训练coco2017数据报错 RuntimeError: CUDA error: device-side assert triggered

  • 使用faster rcnn训练自己的数据

这篇博客始于老板给我配了新机子希望提升运行速度以及运行效果

使用faster rcnn训练自己的数据

参考了很多博客,这里放上自己参考的博客链接: 利用Pytorch torchvision完成Faster-rcnn目标检测demo及源码详解.
按照上面博客里提到的步骤一步一步地进行
使用命令行进行训练

 # python -m torch.distributed.launch --nproc_per_node=$gpus --use_env train.py --world-size $gpus --b 4# 2个gpu 每张卡跑3张图
python -m torch.distributed.launch --nproc_per_node=2 --use_env train.py --world-size 2 --b 3

然后就出现了下面的错误:

这里我的各个包的版本为:
然后我就开始各种查查查
首先搜

RuntimeError: CUDA error: device-side assert triggered

然后出来了各种完美解决这个问题的博客,我心一喜,然后点了进去,大多提及的都是数组下标越界,也有一些提到可能会是其他问题,然而都没有解决我的问题。
我一开始以为会不会是显卡爆了导致出现了稀奇古怪的问题,然后各种运行查看显存占用情况,结果没有2张12g的卡都还有一半显存没用。

# 终端上 每隔1s查看一次显存
watch -n 1 -d nvidia-smi

然后我又以为会不会是nccl的问题(因为它在后面有报nccl有关的问题,忘截图了>-< !)差点就要卸载掉原来的然后重装nccl,还好我机智地在动手之前问了下师兄师姐,他们表示多卡训练都没有遇到过nccl相关的问题,所以直觉告诉我应该不是这个问题。还好没有重装不然又要出啥么蛾子!
已经过去了三天,我拦住了路过我的位置正要回去的大佬师姐,向她求助,师姐使用图形界面上的debug进行调试(由于我一直不知道咋用这个所以都是用的命令行然后打log的形式进行调试,我还是太菜了,很多工具还不知道咋用>-<,所以我又去学了怎么使用图形界面上的debug调试带有参数的程序,依然放上学习的链接: Pycharm:运行、调试pytorch分布式训练代码.)然后,师姐得出的结论是显存爆了,直呼让我老板给加卡,唉,然后我在周末跟老板进行了沟通,跟老板一起分析,觉得还是代码的问题,跟卡无关,哈哈哈。
然后我又在搜博客的时候看见博主门说gpu训练报错稀奇古怪可以切到cpu上看看,一般是代码的问题的话,报错更加清楚,然后我又去看看这代码如何使用cpu进行训练,嗯,我太菜了,

Faster rcnn 训练coco2017数据报错 RuntimeError: CUDA error: device-side assert triggered相关推荐

  1. 报错RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasGemmEx( handle, opa,

    RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling cublasGemmEx( handle, opa, opb ...

  2. RuntimeError: CUDA error: no kernel image is available for execution on the device

    导致的原因一般都是显卡算力和cuda或者torch版本不匹配 比如在conda中安装的pytorch=1.5.0 cuda=10.2 错误:RuntimeError: CUDA error: no k ...

  3. (ubuntu)YOLOv5报错:RuntimeError: CUDA error: no kernel image is available for execution on the ...

    笔者之前在另一台电脑成功跑通了自己修改的yolov5,但在新系统运行时报了如下错误 RuntimeError: CUDA error: no kernel image is available for ...

  4. Faster RCNN 训练中的一些问题及解决办法

    今天使用Faster RCNN训练自己的数据的时候,出现了一些因为boost或者是numpy版本不兼容导致的问题,经过各种查资料和求助大神,总算是顺利把网络跑起来了.下面内容都是今天亲测出现的问题并与 ...

  5. Faster RCNN 训练自己的检测模型

    Faster RCNN 训练自己的检测模型 一.准备自己的训练数据 根据pascal VOC 2007的训练数据集基本架构,第一步,当然是要准备自己的训练图片集,本文直接将自己的准备的图片集(.jpg ...

  6. 在yolo训练的时候又去测试就会报错:cuda error: out of memory

    在yolo训练的时候又去测试就会报错:cuda error: out of memory, cuda.c  Assertion '0' failed. 不过,如果是用的yolo-tiny.cfg的话是 ...

  7. 报错`RuntimeError: CUDA out of memory. Tried to allocate 256.00 MiB (GPU 0; 9.78 GiB total capaci

    报错RuntimeError: CUDA out of memory. Tried to allocate 256.00 MiB (GPU 0; 9.78 GiB total capacity; 8. ...

  8. PyTorch报错:RuntimeError: CUDA error: device-side assert triggered at /pytorch/aten/src/THC/generic

    训练模型报错 RuntimeError: cuda runtime error (710) : device-side assert triggered at /pytorch/aten/src/TH ...

  9. RTX 3090运行报错:RuntimeError: CUDA error: no kernel image is available for execution on the device

    RuntimeError: CUDA error: no kernel image is available for execution on the device 安装适用于GeForce RTX ...

最新文章

  1. 已知子网掩码如何计算IP地址中的主机位
  2. Check failed: registry.count(type) == 1 (0 vs. 1) Unknown layer type: Python
  3. git学习——四git版本管理
  4. 单层感知器应用实例--坐标点的二分类模式分类
  5. c语言中continue在case中,C語言switch case 語句中能否使用continue 關鍵字?
  6. mysql linux centos7_MySQL在Linux centos7环境下安装教程详解(图)
  7. [html] 如何禁止html页面缓存?
  8. pythoncad二次开发视频_AutoCAD ObjectARX 二次开发(2020版)--4,使用ARX向导创建CAD二次开发项目(编程框架)--...
  9. NO.10章 图(遍历、最短路、生成树、拓扑、关键路径)
  10. Linux网络协议指令:ifconfig/netstat(net-tools)工具 .vs. iproute2
  11. 《C语言及程序设计》实践项目——指针及其运算
  12. BZOJ1367 [Baltic2004]sequence 【左偏树】
  13. linux openfire mysql_Linux系统安装openfire及其如何后台运行openfire
  14. atmega128 单片机 智能 台灯 控制器 PWM ADC 时间 光敏电阻 proteus 仿真
  15. html控制变量范围,加入控制变量后结果悲催了?!
  16. 神鬼传奇客户端解包图片(ui\common)
  17. 俱乐部2006年的首次活动-ASP.NET Webpart 开发交流会暨2005回顾
  18. STM32 学习笔记 expected a type specifier
  19. php 歌词同步,HTML5实践之歌词同步播放器的示例代码分享
  20. vue中使用echarts结合百度地图制作地图(引入百度地图、获取百度地图实例、设置百度地图)

热门文章

  1. 什么是 k8s OAM?
  2. Revit开发 - “附加模块”中添加“外部工具”
  3. linux 实时内核 xenomai 2.6.5 配置方法
  4. 不同样本之间的相似性度量(Similarity Measurement)
  5. UML类图关系的画法
  6. 迈出建站第一步,23元注册一个属于自己的com域名!
  7. android filter
  8. 牛客网编程初学者入门训练讲解(C语言)
  9. selenium的两种sendkeys差异
  10. 施密特触发器的作用-摘录+自解