关于Pycharm进行pytorch分布式训练代码

问题
可以命令行调用，但不能pycharm进行运行。
需要执行命令行是

CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch --nproc_per_node=2 --master_port=4321 basicsr/train.py -opt options/train/SIDD/HINet.yml --launcher pytorch

/data/lifei/HiNet3/basicsr/distributed/launch.py

设置软连接

ln -s /home/lifei/.local/lib/python3.8/site-packages/torch/distributed/ /data/lifei/HINet-main1/basicsr/

注意此处：”/home/lifei/.local/lib/python3.8/site-packages/torch/distributed/“
其中launch.py是个动态变化的

设置参数
pycharm中，编辑训练脚本launch.py的Edit Configurations，脚本选择软连接的/data/lifei/HINet-main1/basicsr/distributed/launch.py，参数设置如下：
--nproc_per_node=2 --master_port=4325 /data/lifei/HINet-main1/basicsr/train.py -opt /data/lifei/HINet-main1/options/train/SIDD/HINet.yml

补充：修改文件
/data/lifei/HINet-main1/basicsr/distributed/launch.py
添加

parser.add_argument("--local_rank", default=-1, type=int,help="node rank for distributed training")

你会遇到问题，然后网上发现很多解决方法，有时候可能会立马解决，但多数不会，你需要再多看几个，多参考几个，然后思考自己的问题，找到能够解决自己问题的方法和答案。
可之前的虽然没有直接解决问题，但我们的解决方案也是由他们帮助来的，所以要保持感谢的心。
有时候，你误打误撞搞定了，回头又出题了，别慌，有点耐心，继续修改。

关于Pycharm进行pytorch分布式训练代码相关推荐

新手手册：Pytorch分布式训练
文 | 花花@机器学习算法与自然语言处理单位 | SenseTime 算法研究员目录 0X01 分布式并行训练概述 0X02 Pytorch分布式数据并行 0X03 手把手渐进式实战 A. 单机单 ...
PyTorch 分布式训练DDP 单机多卡快速上手
PyTorch 分布式训练DDP 单机多卡快速上手本文旨在帮助新人快速上手最有效的 PyTorch 单机多卡训练,对于 PyTorch 分布式训练的理论介绍.多方案对比,本文不做详细介绍,有兴趣的读 ...
【Pytorch分布式训练】在MNIST数据集上训练一个简单CNN网络，将其改成分布式训练
文章目录普通单卡训练-GPU 普通单卡训练-CPU 分布式训练-GPU 分布式训练-CPU 租GPU服务器相关以下代码示例基于:在MNIST数据集上训练一个简单CNN网络,将其改成分布式训练. 普 ...
Pytorch - 分布式训练极简体验
由于工作需要,最近在补充分布式训练方面的知识.经过一番理论学习后仍觉得意犹未尽,很多知识点无法准确get到(例如:分布式原语scatter.all reduce等代码层面应该是什么样的,ring al ...
PyTorch分布式训练
PyTorch分布式训练 PyTorch 是一个 Python 优先的深度学习框架,能够在强大的 GPU 加速基础上实现张量和动态神经网络.PyTorch的一大优势就是它的动态图计算特性. Licen ...
pytorch分布式训练 DistributedSampler、DistributedDataParallel
pytorch分布式训练 DistributedSampler.DistributedDataParallel 大家好,我是亓官劼(qí guān jié ),在[亓官劼]公众号.CSDN.Git ...
【分布式】Pytorch分布式训练原理和实战
[分布式]基于Horovod的Pytorch分布式训练原理和实战并行方法: 1. 模型并行 2. 数据并行 3. 两者之间的联系更新方法: 1. 同步更新 2. 异步更新分布式算法: 1. Pa ...
Pytorch分布式训练/多卡训练(二) —— Data Parallel并行(DDP)(2.2)(代码示例)(BN同步主卡保存梯度累加多卡测试inference随机种子seed)
DDP的使用非常简单,因为它不需要修改你网络的配置.其精髓只有一句话 model = DistributedDataPrallel(model, device_ids=[local_rank], ou ...
pytorch分布式训练（一）：torch.nn.DataParallel
本文介绍最简单的pytorch分布式训练方法:使用torch.nn.DataParallel这个API来实现分布式训练.环境为单机多gpu,不妨假设有4个可用的gpu. 一.构建方法使用这个AP ...
DistributedDataParallel（DDP）Pytorch 分布式训练示例及注意事项
现在pytorch主流的分布式训练库是DistributedDataParallel,它比Dataparallel库要快,而且前者能实现多机多卡后者只能单机多卡.本文是在单机多卡的环境下执行的分布式训 ...

关于Pycharm进行pytorch分布式训练代码

关于Pycharm进行pytorch分布式训练代码相关推荐

最新文章

热门文章