RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8
项目场景:
分布式训练中遇到这个问题,
问题描述
大概是没有启动并行运算???(
解决方案:
(1)首先看一下服务器GPU相关信息 进入pytorch终端(Terminal) 输入代码查看
python
torch.cuda.is_available()#查看cuda是否可用;
torch.cuda.device_count()#查看gpu数量;
torch.cuda.get_device_name(0)#查看gpu名字,设备索引默认从0开始;
torch.cuda.current_device()#返回当前设备索引;
Ctrl+Z退出
(2)cd进入要运行文件的上层文件夹
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6 #启动并行运算
加上要运行的文件以及相关配置
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6 src_nq/create_examples.py --vocab_file ./bert-base-uncased-vocab.txt \--input_pattern "./natural_questions/v1.0/train/nq-train-*.jsonl.gz" \--output_dir ./natural_questions/nq_0.03/\--do_lower_case \--num_threads 24 --include_unknowns 0.03 --max_seq_length 512 --doc_stride 128
问题解决
RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8相关推荐
- unhandled system error, NCCL version 2.7.8
在 宿主机上运行基于 DDP 的 pytorch 训练程序没问题, 进入 docker 后运行,出现 "unhandled system error, NCCL version 2.7.8& ...
- Python3+Selenium3+Pycharm自动化环境搭建(四):运行unittest时报错,unhandled inspector error
在运行unittest的时候,出现了错误信息,仔细查看是unhandled inspector error,具体内容如下: 刚开始我还以为是浏览器版本和webdriver的版本没有对应上,但我明明一开 ...
- linux执行mount命令报错:mount: RPC: Remote system error - Connection refused(NFS:nfs-kernel-server 挂载教程)
文章目录 什么是NFS挂载目录? 第一次尝试(失败) 第二次尝试(成功) - (ubuntu上安装NFS,Ubuntn上默认没有安装) - (给ubuntu上需要被共享的文件夹赋予权限,保证使用者都能 ...
- 获取小程序模板库标题列表 报错: {errcode:-1,errmsg:system error hint: [zttteq44664}
①. 问题描述 今天在进行获取 "获取小程序模板库标题列表" 操作时,使用工具 Postman 总是报出如下的错误 {"errcode": -1,"e ...
- log.error(“异常:“, e);与log.error(e.getMessage());区别
log.error("异常:", e);与log.error(e.getMessage());区别 参考文章: (1)log.error("异常:", e);与 ...
- mysql error 1_mysql 启动错误(InnoDB: Operating system error number 1
环境:mysq 5.6.35.centos 7.3 问题描述: 今天下午开发过来说开发库无法连接了,登录服务器后发现mysql进程down了 启动mysql: /bin/sh /usr/local/m ...
- mysql 2013 error: -handshake: reading initial communication packet‘, system error:60
2013 - Lost connection to server at 'handshake: reading initial communication packet', system error: ...
- git提交代码时出现错误:error : unpack failed : error Missing commit XXX,
Git 提交出错 git提交代码时出现错误:error : unpack failed : error Missing commit 384ccb27185a68ec9c0d0ce948e7432d6 ...
- The error may involve XXX(包)-Inline The error occurred while setting parameters
遇到这个问题,常见的有两种情况: 一.在mapper中的SQL语句写错了,这个是在写程序的时候经常会犯的错误,很无奈啊~~~ eg:我在写last_insert_id()得时候,写成了last_isn ...
- 2019-07-17_The error may involve XXX(包)-Inline The error occurred while setting parameters
插入MySQL数据库的时候 出现这个问题,最后才发现是因为 数据库的某个字段 不能插入重复的数据 遇到这个错误的意思是:不能插入重复的数据! 转载于:https://www.cnblogs.com/w ...
最新文章
- python函数拟合不规则曲线_python中的多变量(多项式)最佳拟合曲线?
- 移植uboot第六步:支持NANDFlash
- LeetCode(235)——二叉搜索树的最近公共祖先(JavaScript)
- win11正式版iso镜像如何安装 windows11正式版iso镜像安装方法
- JavaScript文档对象模型DOM节点操作之父节点和子节点(2)
- python库skimage 图像直方图均衡化、自适应均衡化、对比度拉伸实现
- Rust : 独一无二的Some
- 腾讯X5 内核 的导入
- 【元胞自动机】基于matlab元胞自动机模拟SEIR传播模型【含Matlab源码 2156期】
- 最简便的Unity详细安装步骤及官网插件
- 新点软件怎么导入清单_新点清单造价怎么导入电脑桌面上
- caxa齿轮零件图_CAXA软件如何快速地画一个齿轮?
- 「Pytorch」CNN实现手写汉字识别(数据集制作,网络搭建,训练验证测试全部代码)
- 算法分析与设计——背包问题
- Linux内核API之class_create与class_destroy
- 如何求出二次贝塞尔曲线上面的各个点呢
- 面试题 猜颜色球游戏
- 针对初创型企业的高新企业认定知识及建议!
- [实变函数]3.3 可测集类
- Zigbee系列 学习笔记五(信道选择)