问题
可以命令行调用,但不能pycharm进行运行。
需要执行命令行是

CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch --nproc_per_node=2 --master_port=4321 basicsr/train.py -opt options/train/SIDD/HINet.yml --launcher pytorch

/data/lifei/HiNet3/basicsr/distributed/launch.py

  • 设置软连接
ln -s /home/lifei/.local/lib/python3.8/site-packages/torch/distributed/ /data/lifei/HINet-main1/basicsr/

注意此处:”/home/lifei/.local/lib/python3.8/site-packages/torch/distributed/“
其中launch.py是个动态变化的

  • 设置参数
  • pycharm中,编辑训练脚本launch.py的Edit Configurations,脚本选择软连接的/data/lifei/HINet-main1/basicsr/distributed/launch.py,参数设置如下:
  • --nproc_per_node=2 --master_port=4325 /data/lifei/HINet-main1/basicsr/train.py -opt /data/lifei/HINet-main1/options/train/SIDD/HINet.yml

    补充:修改文件
    /data/lifei/HINet-main1/basicsr/distributed/launch.py
    添加
parser.add_argument("--local_rank", default=-1, type=int,help="node rank for distributed training")

  • 你会遇到问题,然后网上发现很多解决方法,有时候可能会立马解决,但多数不会,你需要再多看几个,多参考几个,然后思考自己的问题,找到能够解决自己问题的方法和答案。
  • 可之前的虽然没有直接解决问题,但我们的解决方案也是由他们帮助来的,所以要保持感谢的心。
  • 有时候,你误打误撞搞定了,回头又出题了,别慌,有点耐心,继续修改。

关于Pycharm进行pytorch分布式训练代码相关推荐

  1. 新手手册:Pytorch分布式训练

    文 | 花花@机器学习算法与自然语言处理 单位 | SenseTime 算法研究员 目录 0X01 分布式并行训练概述 0X02 Pytorch分布式数据并行 0X03 手把手渐进式实战 A. 单机单 ...

  2. PyTorch 分布式训练DDP 单机多卡快速上手

    PyTorch 分布式训练DDP 单机多卡快速上手 本文旨在帮助新人快速上手最有效的 PyTorch 单机多卡训练,对于 PyTorch 分布式训练的理论介绍.多方案对比,本文不做详细介绍,有兴趣的读 ...

  3. 【Pytorch分布式训练】在MNIST数据集上训练一个简单CNN网络,将其改成分布式训练

    文章目录 普通单卡训练-GPU 普通单卡训练-CPU 分布式训练-GPU 分布式训练-CPU 租GPU服务器相关 以下代码示例基于:在MNIST数据集上训练一个简单CNN网络,将其改成分布式训练. 普 ...

  4. Pytorch - 分布式训练极简体验

    由于工作需要,最近在补充分布式训练方面的知识.经过一番理论学习后仍觉得意犹未尽,很多知识点无法准确get到(例如:分布式原语scatter.all reduce等代码层面应该是什么样的,ring al ...

  5. PyTorch分布式训练

    PyTorch分布式训练 PyTorch 是一个 Python 优先的深度学习框架,能够在强大的 GPU 加速基础上实现张量和动态神经网络.PyTorch的一大优势就是它的动态图计算特性. Licen ...

  6. pytorch分布式训练 DistributedSampler、DistributedDataParallel

    pytorch分布式训练 DistributedSampler.DistributedDataParallel   大家好,我是亓官劼(qí guān jié ),在[亓官劼]公众号.CSDN.Git ...

  7. 【分布式】Pytorch分布式训练原理和实战

    [分布式]基于Horovod的Pytorch分布式训练原理和实战 并行方法: 1. 模型并行 2. 数据并行 3. 两者之间的联系 更新方法: 1. 同步更新 2. 异步更新 分布式算法: 1. Pa ...

  8. Pytorch分布式训练/多卡训练(二) —— Data Parallel并行(DDP)(2.2)(代码示例)(BN同步主卡保存梯度累加多卡测试inference随机种子seed)

    DDP的使用非常简单,因为它不需要修改你网络的配置.其精髓只有一句话 model = DistributedDataPrallel(model, device_ids=[local_rank], ou ...

  9. pytorch分布式训练(一):torch.nn.DataParallel

      本文介绍最简单的pytorch分布式训练方法:使用torch.nn.DataParallel这个API来实现分布式训练.环境为单机多gpu,不妨假设有4个可用的gpu. 一.构建方法 使用这个AP ...

  10. DistributedDataParallel(DDP)Pytorch 分布式训练示例及注意事项

    现在pytorch主流的分布式训练库是DistributedDataParallel,它比Dataparallel库要快,而且前者能实现多机多卡后者只能单机多卡.本文是在单机多卡的环境下执行的分布式训 ...

最新文章

  1. Apriori算法进行关联分析实战
  2. 一些查阅个人隐私信息的网站——国内的基本上都查不到
  3. ABAP OPEN SQL 模糊查询的方法
  4. Asp.Net Core MVC控制器和视图之间传值
  5. springboot+flowable第四节(设置监听事件)
  6. JavaScript学习(八十四)—变量
  7. andorid actionBar
  8. postgresql 9.1 下的 pg_dump 的初步研究
  9. Android中Parcelable与Serializable接口用法
  10. DB2数据库用 With语句分隔字符
  11. 计算机网络简历自我认识,计算机网络专业简历的自我评价
  12. fgo国服登陆显示服务器错误,命运冠位指定安装失败怎么办 FGO国服安装失败解决办法...
  13. 给自定义Dialog加入保留对话框值的功能
  14. C程序内存泄露检测工具——Valgrind
  15. 饿了么即时配送分流的可运营架构演变
  16. UE5打包失败:AutomationTool exiting with ExitCode=-532462766 解决方法
  17. 用Python进行自然语言处理 读书笔记 第一章
  18. 定时刷新 定时刷新 定时刷新 定时刷新
  19. xp系统访问共享服务器提示无网络路径,科技教程:XP系统配置局域网提示无任何网络提供程序接受指定的网络路径的解决方法...
  20. Spring MVC JSP 表单标签教程

热门文章

  1. C语言不使用中间变量交换两个变量值
  2. 图片自适应手机横屏竖屏的宽高
  3. 计算机网络防御的论文,计算机网络防御策略论文.doc
  4. Python 撞库与防御策略
  5. oracle 设置自增序列
  6. 前端工程师是什么?前端工程师工资怎么样?有没有前景
  7. 解决:3Dmax 渲染后任意点击就卡住不能点击,UI界面冻结
  8. 中国股市的发展进程,审核制到注册制利国利民
  9. 完美解决excel科学计数法导入数据库处理方法
  10. layui重置按钮函数,支持文件