pytorch 命令行运行_Pytorch使用分布式训练，单机多卡

pytorch的并行分为模型并行、数据并行

左侧模型并行：是网络太大，一张卡存不了，那么拆分，然后进行模型并行训练。

右侧数据并行：多个显卡同时采用数据训练网络的副本。

一、模型并行

二、数据并行

数据并行的操作要求我们将数据划5分成多份，然后发送给多个 GPU 进行并行的计算。

注意：多卡训练要考虑通信开销的，是个trade off的过程，不见得四块卡一定比两块卡快多少，可能是训练到四块卡的时候通信开销已经占了大头

下面是一个简单的示例。要实现数据并行，第一个方法是采用 nn.parallel中的几个函数，分别实现的功能如下所示：

复制(Replicate)：将模型拷贝到多个 GPU 上；

分发(Scatter)：将输入数据根据其第一个维度(通常就是 batch 大小)划分多份，并传送到多个 GPU 上；

收集(Gather)：从多个 GPU 上传送回来的数据，再次连接回一起；

并行的应用(parallel_apply)：将第三步得到的分布式的输入数据应用到第一步中拷贝的多个模型上。

实现代码如下

#Replicate module to devices in device_ids

replicas =nn.parallel.replicate(module, device_ids)#Distribute input to devices in device_ids

inputs =nn.parallel.scatter(input, device_ids)#Apply the models to corresponding inputs

outputs =nn.parallel.parallel_apply(replicas, inputs)#Gather result from all devices to output_device

result = nn.parallel.gather(outputs, output_device)

6.事实上PyTorch也提供了简单的函数，只用几行代码可实现简单高效的并行GPU计算。

①nn.parallel.data_parallel(module, inputs, device_ids=None, output_device=None, dim=0, module_kwargs=None)

②class torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)

可见二者的参数十分相似，通过device_ids参数可以指定在哪些GPU上进行优化，output_device指定输出到哪个GPU上。唯一的不同就在于前者直接利用多GPU并行计算得出结果，而后者则返回一个新的module，能够自动在多GPU上进行并行加速。

#method 1

new_net= nn.DataParallel(net, device_ids=[0, 1])

output=new_net(input)#method 2

output= nn.parallel.data_parallel(new_net, input, device_ids=[0, 1])

数据并行torch.nn.DataParallel

PyTorch 中实现数据并行的操作可以通过使用 torch.nn.DataParallel。

一、DataParallel的并行处理机制

DataParallel，是将输入一个 batch 的数据均分成多份，分别送到对应的 GPU 进行计算，各个 GPU 得到的梯度累加。与 Module 相关的所有数据也都会以浅复制的方式复制多份。每个 GPU 将针对各自的输入数据独立进行 forward 计算，在 backward 时，每个卡上的梯度会汇总到原始的 module 上，再用反向传播更新单个 GPU 上的模型参数，再将更新后的模型参数复制到剩余指定的 GPU 中，以此来实现并行。

DataParallel会将定义的网络模型参数默认放在GPU 0上，所以dataparallel实质是可以看做把训练参数从GPU拷贝到其他的GPU同时训练，这样会导致内存和GPU使用率出现很严重的负载不均衡现象，即GPU 0的使用内存和使用率会大大超出其他显卡的使用内存，因为在这里GPU0作为master来进行梯度的汇总和模型的更新，再将计算任务下发给其他GPU，所以他的内存和使用率会比其他的高。

(图

pytorch 命令行运行_Pytorch使用分布式训练，单机多卡相关推荐

pytorch 命令行运行_PyTorch简介与相关安装
PyTorch简介 PyTorch的前身是Torch,Torch是一个有大量机器学习算法支持的科学计算框架,灵活度很高,是一个与NumPy类似的张量(Tensor)操作库.但是Torch采用的是小众的 ...
[分布式训练] 单机多卡的正确打开方式：PyTorch
[分布式训练] 单机多卡的正确打开方式:PyTorch 转自:https://fyubang.com/2019/07/23/distributed-training3/ PyTorch的数据并行相对于 ...
[分布式训练] 单机多卡的正确打开方式：Horovod
[分布式训练] 单机多卡的正确打开方式:Horovod 转自:https://fyubang.com/2019/07/26/distributed-training4/ 讲完了单机多卡的分布式训练的理 ...
[分布式训练] 单机多卡的正确打开方式：理论基础
[分布式训练] 单机多卡的正确打开方式:理论基础转自:https://fyubang.com/2019/07/08/distributed-training/ 瓦砾由于最近bert-large用的比 ...
pytorch GPU分布式训练单机单卡、单机多卡
可以用"watch -n 0.1 nvidia-smi"来查看gpu状态,我用的是3块12G的GPU进行实验本实验将使用一个简单的瞎写的网络进行,网络训练一个分类任务,当然这个不 ...
jmeter命令行运行-分布式测试
秒秒开心 jmeter命令行运行-分布式测试上一篇文章我们说到了jmeter命令行运行但是是单节点下的, jmeter底层用java开发,耗内存.cpu,如果项目要求大并发去压测服务端的话,jmet ...
Selenium IDE使用指南二（命令行运行器）
现在,您可以在任何浏览器上,并行和在Grid上运行所有Selenium IDE测试,而无需编写任何代码. 只需安装Selenium IDE命令行运行程序,获取必要的浏览器驱动程序(如果在本地运行测试) ...
命令行运行JMeter详解
1.为什么要命令行执行脚本? 本文介绍如何从命令行运行JMeter,那么宏哥先来说说,为什么要命令行执行脚本,日常测试过程中发现,在大数量并发时,jmeterGUI界面时长宕机.卡死,在这种情况下我们 ...
Jmeter命令行运行实例讲解
一. 简介 1.1.应用场景 1.无需交互界面或受环境限制(linux text model) 2.远程或分布式执行 3.持续集成,通过shell脚本或批处理命令均可执行,生成的测试结果可被报表生成模 ...

pytorch 命令行运行_Pytorch使用分布式训练，单机多卡

pytorch 命令行运行_Pytorch使用分布式训练，单机多卡相关推荐

最新文章

热门文章