项目场景:

分布式训练中遇到这个问题,


问题描述

大概是没有启动并行运算???(


解决方案:

(1)首先看一下服务器GPU相关信息 进入pytorch终端(Terminal) 输入代码查看

python
torch.cuda.is_available()#查看cuda是否可用;
torch.cuda.device_count()#查看gpu数量;
torch.cuda.get_device_name(0)#查看gpu名字,设备索引默认从0开始;
torch.cuda.current_device()#返回当前设备索引;

Ctrl+Z退出
(2)cd进入要运行文件的上层文件夹

 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6 #启动并行运算

加上要运行的文件以及相关配置

 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6  src_nq/create_examples.py --vocab_file ./bert-base-uncased-vocab.txt \--input_pattern "./natural_questions/v1.0/train/nq-train-*.jsonl.gz" \--output_dir ./natural_questions/nq_0.03/\--do_lower_case \--num_threads 24 --include_unknowns 0.03 --max_seq_length 512 --doc_stride 128

问题解决

RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8相关推荐

  1. unhandled system error, NCCL version 2.7.8

    在 宿主机上运行基于 DDP 的 pytorch 训练程序没问题, 进入 docker 后运行,出现 "unhandled system error, NCCL version 2.7.8& ...

  2. Python3+Selenium3+Pycharm自动化环境搭建(四):运行unittest时报错,unhandled inspector error

    在运行unittest的时候,出现了错误信息,仔细查看是unhandled inspector error,具体内容如下: 刚开始我还以为是浏览器版本和webdriver的版本没有对应上,但我明明一开 ...

  3. linux执行mount命令报错:mount: RPC: Remote system error - Connection refused(NFS:nfs-kernel-server 挂载教程)

    文章目录 什么是NFS挂载目录? 第一次尝试(失败) 第二次尝试(成功) - (ubuntu上安装NFS,Ubuntn上默认没有安装) - (给ubuntu上需要被共享的文件夹赋予权限,保证使用者都能 ...

  4. 获取小程序模板库标题列表 报错: {errcode:-1,errmsg:system error hint: [zttteq44664}

    ①. 问题描述 今天在进行获取 "获取小程序模板库标题列表" 操作时,使用工具 Postman 总是报出如下的错误 {"errcode": -1,"e ...

  5. log.error(“异常:“, e);与log.error(e.getMessage());区别

    log.error("异常:", e);与log.error(e.getMessage());区别 参考文章: (1)log.error("异常:", e);与 ...

  6. mysql error 1_mysql 启动错误(InnoDB: Operating system error number 1

    环境:mysq 5.6.35.centos 7.3 问题描述: 今天下午开发过来说开发库无法连接了,登录服务器后发现mysql进程down了 启动mysql: /bin/sh /usr/local/m ...

  7. mysql 2013 error: -handshake: reading initial communication packet‘, system error:60

    2013 - Lost connection to server at 'handshake: reading initial communication packet', system error: ...

  8. git提交代码时出现错误:error : unpack failed : error Missing commit XXX,

    Git 提交出错 git提交代码时出现错误:error : unpack failed : error Missing commit 384ccb27185a68ec9c0d0ce948e7432d6 ...

  9. The error may involve XXX(包)-Inline The error occurred while setting parameters

    遇到这个问题,常见的有两种情况: 一.在mapper中的SQL语句写错了,这个是在写程序的时候经常会犯的错误,很无奈啊~~~ eg:我在写last_insert_id()得时候,写成了last_isn ...

  10. 2019-07-17_The error may involve XXX(包)-Inline The error occurred while setting parameters

    插入MySQL数据库的时候 出现这个问题,最后才发现是因为 数据库的某个字段 不能插入重复的数据 遇到这个错误的意思是:不能插入重复的数据! 转载于:https://www.cnblogs.com/w ...

最新文章

  1. python函数拟合不规则曲线_python中的多变量(多项式)最佳拟合曲线?
  2. 移植uboot第六步:支持NANDFlash
  3. LeetCode(235)——二叉搜索树的最近公共祖先(JavaScript)
  4. win11正式版iso镜像如何安装 windows11正式版iso镜像安装方法
  5. JavaScript文档对象模型DOM节点操作之父节点和子节点(2)
  6. python库skimage 图像直方图均衡化、自适应均衡化、对比度拉伸实现
  7. Rust : 独一无二的Some
  8. 腾讯X5 内核 的导入
  9. 【元胞自动机】基于matlab元胞自动机模拟SEIR传播模型【含Matlab源码 2156期】
  10. 最简便的Unity详细安装步骤及官网插件
  11. 新点软件怎么导入清单_新点清单造价怎么导入电脑桌面上
  12. caxa齿轮零件图_CAXA软件如何快速地画一个齿轮?
  13. 「Pytorch」CNN实现手写汉字识别(数据集制作,网络搭建,训练验证测试全部代码)
  14. 算法分析与设计——背包问题
  15. Linux内核API之class_create与class_destroy
  16. 如何求出二次贝塞尔曲线上面的各个点呢
  17. 面试题 猜颜色球游戏
  18. 针对初创型企业的高新企业认定知识及建议!
  19. [实变函数]3.3 可测集类
  20. Zigbee系列 学习笔记五(信道选择)

热门文章

  1. repo命令无法从gooole的网站下载问题解决办法
  2. 刷题总结——寻宝游戏(bzoj3991 dfs序)
  3. 第二章 确定性知识系统
  4. 软考高级 真题 2011年下半年 信息系统项目管理师 综合知识
  5. GO语言开源项目TOP 100
  6. 电磁干扰、电磁兼容性和电磁屏蔽区别及联系
  7. 互联网和大数据是什么意思_互联网包括大数据吗 大数据与互联网的关系是什么...
  8. ims应用服务器,IMS应用
  9. Scala中的面向对象
  10. Win10系统IE浏览器设置代理上网的方法