在 宿主机上运行基于 DDP 的 pytorch 训练程序没问题,

进入 docker 后运行,出现 "unhandled system error, NCCL version 2.7.8" 的错误。

解决方法:

在 python -m torch.distributed.launch --nproc_per_node=4 ...前加上 NCCL_DEBUG=INFO

可以看到:

s215:623:649 [3] include/shm.h:48 NCCL WARN Error while creating shared memory segment nccl-shm-send-404da1ec128dc62d-0-3-2 (size 4104)

进入 docker 时,带上 --ipc=host 即可。

unhandled system error, NCCL version 2.7.8相关推荐

  1. [ncclUnhandledCudaError] unhandled cuda error, NCCL version xx.x.x

    [ncclUnhandledCudaError] unhandled cuda error, NCCL version xx.x.x 文章目录 [ncclUnhandledCudaError] unh ...

  2. RuntimeError: NCCL error in:torch/lib/c10d/ProcessGroupNCCL.cpp:514, invalid usage, NCCL version 踩坑

    运行pytorch分布式任务时,可能在执行dist.barrier()这条代码时会触发NCCL错误:RuntimeError: NCCL error in: ../torch/lib/c10d/Pro ...

  3. 错误:”未能加载文件或程序集“System.Web.Mvc, Version=2.0.0.0” 解决方法

    错误: 通过IIS发布网站,登录后弹出如下错误: Parser Error Message: 未能加载文件或程序集"System.Web.Mvc, Version=2.0.0.0, Cult ...

  4. 未能加载文件或程序集“System.Data.OracleClient, Version=4.0.0.0, Culture=neutral, PublicKeyToken=b77a5c561934e0

    运行公司的一个程序时报以下错误,应该怎么解决?ORACLE32 位,系统64位,之前把oracle强制删除了,请问有什么办法解决吗? [2018-08-04 15:54:15] [ERROR] 环境部 ...

  5. Dell安装驱动程序出现的错误(DupAPI::Execute): *** Shell Execute Error. System error text

    在官网下的驱动却怎么也安装不上,一直提示 The update installer operation is unsuccessful 然后打开日志文件查看 ਍਍[04/10/19 10:12:11 ...

  6. OTS parsing error: invalid version tag woff和ttf文件被Filter拦截

    从服务器下载的字体文件放在本地,执行无法展示iconfont,浏览器控制台报出 Failed to decode downloaded font: http://127.0.0.1:8080/mhr/ ...

  7. linux c编译错误 cmake_symlink_library: System Error: Operation not supported

    在编译uchardet时遇到这个错误: cmake_symlink_library: System Error: Operation not supported 创建链接不成功,要确认当前帐户下是否有 ...

  8. docker Cannot start container [8] System error: exec format error

    docker Cannot start container  [8] System error: exec format error 学习了:https://www.aliyun.com/jiaoch ...

  9. Directory lookup for the file xxx.mdf failed with the operating system error 2

    Directory lookup for the file "xxx.mdf" failed with the operating system error 2(系统找不到指定的文 ...

最新文章

  1. 推荐 2个十分好用的 pandas 数据探索分析神器!
  2. 从java到c_怎样快速的从 Java 转到 C ?
  3. Ubuntu系发行版安装deepin wine QQ的步骤
  4. 中石油训练赛 - sciorz画画(区间dp)
  5. 数据库:MySQL大批量SQL插入性能优化
  6. Unity3d常用插件
  7. 快手短视频领域为例的领域数据建设探索
  8. 了解SQL Server数据库恢复模型
  9. X 射线技术揭示芯片的秘密!
  10. 【bzoj3676】
  11. pyspark ml
  12. linux 查看文件开头几行、末尾几行、中间几行
  13. QTP下载地址及破解方法
  14. java 种子填充算法_种子填充算法
  15. Sitemesh小记
  16. html5学习开发指南
  17. PyQt5_pyqtgraph股票蜡烛图与常用均线
  18. 手工折纸作品展示:送别的花束
  19. 腾讯近三年软件测试工程师面试笔试题目精选(包含答案)
  20. dedecms(织梦cms)安装99bill(快钱)支付方式接口

热门文章

  1. macos 安装cms php,苹果cms安装及配置详细教程
  2. Go语言核心之美 1.5-作用域
  3. 软件经验|GDAL空间数据开源库开发介绍
  4. 手把手教你用JAVA实现“声音复刻”功能(复刻你的声音)标贝科技
  5. 月入万元快递哥遭遇AI小鸟怎么办
  6. 基于等级保护梳理服务器安全合规基线
  7. (首页上一页下一页尾页 + 下拉框跳转)分页功能
  8. 【ESP32 开发】ArduinoJson联合PSRAM解决 ESP32内存过小 无限重启的问题
  9. 企业微信自动添加手机好友工具
  10. TODO LIST案例