【分布式训练】单机多卡

目的：

1、加快计算速度
2、缓解大数据压力

使用方式：

详见：【分布式训练】单机多卡的正确打开方式（三）：PyTorch
注意：
1、选择 DistributedDataParallel 要比 DataParallel 好

2、可能需要在parser中添加 parser.add_argument("--local_rank", type=int, help="") 如果你出现下面这种错误的话：

argument for training: error: unrecognized arguments: --local_rank=2
subprocess.CalledProcessError: Command ‘[…]’ returned non-zero exit status 2.

3、如果你的model要加载预训练的参数的话，那么，加载参数的代码需要放在第五步封装之前。比如下面的例子：

# 4) 封装之前要把模型移到对应的gpu
model = model.to(device)
model.load_state_dict(checkpoint["model"]) # 加载预训练参数
if torch.cuda.device_count() > 1:print("Let's use", torch.cuda.device_count(), "GPUs!")# 5) 封装model = torch.nn.parallel.DistributedDataParallel(model,device_ids=[local_rank],output_device=local_rank)

4、里面没提到的细节：
在执行命令的时候，参数nproc_per_node的值是你使用的gpu的数量，例如这里使用了gpu0和1，所以数量是2。

CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch --nproc_per_node=2 torch_ddp.py

【分布式训练】单机多卡—PyTorch相关推荐

[分布式训练] 单机多卡的正确打开方式：PyTorch
[分布式训练] 单机多卡的正确打开方式:PyTorch 转自:https://fyubang.com/2019/07/23/distributed-training3/ PyTorch的数据并行相对于 ...
[分布式训练] 单机多卡的正确打开方式：Horovod
[分布式训练] 单机多卡的正确打开方式:Horovod 转自:https://fyubang.com/2019/07/26/distributed-training4/ 讲完了单机多卡的分布式训练的理 ...
[分布式训练] 单机多卡的正确打开方式：理论基础
[分布式训练] 单机多卡的正确打开方式:理论基础转自:https://fyubang.com/2019/07/08/distributed-training/ 瓦砾由于最近bert-large用的比 ...
pytorch GPU分布式训练单机单卡、单机多卡
可以用"watch -n 0.1 nvidia-smi"来查看gpu状态,我用的是3块12G的GPU进行实验本实验将使用一个简单的瞎写的网络进行,网络训练一个分类任务,当然这个不 ...
PyTorch 分布式训练DDP 单机多卡快速上手
PyTorch 分布式训练DDP 单机多卡快速上手本文旨在帮助新人快速上手最有效的 PyTorch 单机多卡训练,对于 PyTorch 分布式训练的理论介绍.多方案对比,本文不做详细介绍,有兴趣的读 ...
PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨科技猛兽@知乎来源丨https://zhuanlan.zhihu.com/p/15837505 ...
收藏 | PyTorch 单机多卡操作总结
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散仅作学术分享,不代表本公众号立场,侵权联系删除转载于:作者丨科技猛兽@知乎来源丨https://zhuanlan ...
PyTorch单机多卡训练（DDP-DistributedDataParallel的使用）备忘记录
不做具体的原理分析和介绍(因为我也不咋懂),针对我实际修改可用的一个用法介绍,主要是模型训练入口主函数(main_multi_gpu.py)的四处修改. 以上的介绍来源https://zhuanlan ...
PyTorch单机多卡分布式训练教程及代码示例
导师不是很懂PyTorch的分布式训练流程,我就做了个PyTorch单机多卡的分布式训练介绍,但是他觉得我做的没这篇好PyTorch分布式训练简明教程 - 知乎.这篇讲的确实很好,不过我感觉我做的也还 ...

【分布式训练】单机多卡—PyTorch

目的：

使用方式：

【分布式训练】单机多卡—PyTorch相关推荐

最新文章

热门文章