使用服务器进行单机多卡数据并行训练的时候,出现了一个小问题,本来以为可以直接创建4个process,可以4路数据并行,结果运行时发现报以下错:

RuntimeError: CUDA error: invalid device ordinal

原因:当前设备的GPU数量与cuda数量不匹配,
解决方案:
(1)先使用nvidia-smi命令查看服务器GPU数量

nvidia-smi

比如我这里看了一下,只有两张1080 Ti的卡

(2)根据GPU的数量改以下代码里的进程数量

(3)运行成功

#这里是调用cuda设备(GPU)
device = torch.device("cuda:{}".format(rank))

CUDA error: invalid device ordinal相关推荐

  1. AssertionError: Invalid device id 和RuntimeError: CUDA error: invalid device ordinal

    我在使用torch多卡并行时出现了这个两个问题. ##问题一:AssertionError: Invalid device id,即无效的设备id 出现的原因:结合代码解释: import ...os ...

  2. pytorch测试报错:RuntimeError: cuda runtime error (10) : invalid device ordinal at torch/csrc/cuda/Module

    模型在服务器多gpu上训练,测试在自己台式机上进行,只有一块gpu,测试报错: File "/home/fuxueping/sdb/PycharmProjects/face_recognit ...

  3. Check failed: error == cudaSuccess (10 vs. 0) invalid device ordinal

    ubuntu14.04 caffe 运行别人的程序,报错Check failed: error == cudaSuccess (10 vs. 0)  invalid device ordinal.根据 ...

  4. cuda error invalid argument

    用pytorch训练时报的错 在loss.backward时报错 估计应该是loss出现了异常值. 网上其他答案: 问题: RuntimeError: CUDA error: invalid conf ...

  5. Cuda:invalid device pointer

    cuda编程中调用一个判断cuda是否出错的函数如下: void check_gpu_error (const char *msg) {cudaError_t err = cudaGetLastErr ...

  6. 配置SSD-caffe测试时出现“Check failed: error == cudaSuccess (10 vs. 0) invalid device ordinal”解决

    这是由于GPU数量不匹配造成的,如果训练自己的数据,那么我们只需要将solver.prototxt文件中的device_id项改为自己的GPU块数,一块就是0,两块就是1,以此类推. 但是SSD配置时 ...

  7. CUDA error:invalid argument

    当使用torch.view()时 出现 RuntimeError: invalid argument 1: input is not contiguous at /pytorch/torch/lib/ ...

  8. 【CUDA开发】 Check failed: error == cudaSuccess (8 vs. 0) invalid device function

    最近在复现R-CNN一系列的实验时,配置代码环境真是花费了不少时间.由于对MATLAB不熟悉,实验采用的都是github上rbg大神的Python版本.在配置Faster R-CNN时,编译没有问题, ...

  9. 显卡RTX 3090运行pytorch报错CUDA error: no kernel image is available for execution on the device

    RuntimeError: CUDA error: no kernel image is available for execution on the device 安装适用于GeForce RTX ...

  10. [debug] RuntimeError: CUDA error: no kernel image is available for execution on the device

    问题描述 运行程序时出现报错: RuntimeError: CUDA error: no kernel image is available for execution on the device ( ...

最新文章

  1. H5-Dooring可视化搭建平台的新技能
  2. Ubuntu常用命令与技巧
  3. 用于WWW传输控制的是HTML,控制传输
  4. 长连接/websocket/SSE等主流服务器推送技术比较
  5. npm查看指定包的所有版本
  6. [计算机网络]探索ICMP协议
  7. java C# objective-c AES对称加解密
  8. mybatis-plus中like的使用说明
  9. LuoguP4012 深海机器人问题(费用流)
  10. Db4o for .NET 使用心得(1、2):Trace db4o;慎用struct
  11. 怎么连接win10共享计算机,xp系统下怎么连接win10共享的打印机
  12. 红帽的RHCSA、RHCE、RHCA值得报考吗?
  13. win2003 R2 SP2 x64 可用密钥
  14. VOLTE_SRVCC和ESRVCC
  15. java毕业设计云笔记管理系统Mybatis+系统+数据库+调试部署
  16. winUSB设备的开发方法
  17. 三维重建 PyQt Python VTK 医学图像的可视化 vtkImageView2三视图(横断面,冠状面,矢状面)
  18. 疫情之下谁是机场便利性最高的城市?中国城市机场便利性排名:上海、北京、广州、深圳、成都位居前五 | 美通社头条...
  19. 理工男你要懂爱,女朋友不会从天上掉下来 | 钛空精分小剧场
  20. phpyun listurl标签加驾照参数driverLicense

热门文章

  1. 如何实现chrome谷歌浏览器多开(独立环境 独立cookie)
  2. web文件管理系统_实用开源项目,基于Web的文件管理系统——DocSys
  3. Uphone开发心得
  4. 轻轻的,我来了!希望各大神关注~
  5. Namenode处于安全模式时,对hadoop进行查看操作,edits_inprogress_txid中没有事物事件的增加,txid没有增加?
  6. Spring Securiy +aouth2.0+jwt整合,实现鉴权登录
  7. 打包2阶段-使用reshacker修改打包信息
  8. python中文件分类_利用Python将文件进行分类整理
  9. 用java根据年份判断生肖_怎样根据年份确定生肖
  10. 数据库系统概论(高级篇)