译者:firdameng

作者:Soumith Chintala

在这个简短的教程中,我们将讨论PyTorch的分布式软件包。 我们将看到如何设置分布式设置,使用不同的通信策略,并查看包的内部部分。

开始

PyTorch中包含的分布式软件包(即torch.distributed)使研究人员和从业人员能够轻松地跨进程和计算机集群并行化他们的计算。 为此,它利用消息传递语义,允许每个进程将数据传递给任何其他进程。 与多处理(torch.multiprocessing)包相反,进程可以使用不同的通信后端,并且不限于在同一台机器上执行。

开始我们需要能够同时运行多个进程。 如果您有权访问计算群集,则应使用本地sysadmin进行检查,或使用您喜欢的协调工具。 (例如,pdsh,clustershell或其他)为了本教程的目的,我们将使用单个机器并使用以下模板建立多个进程。

"""run.py:"""
#!/usr/bin/env python
import os
import torch
import torch.distributed as dist
from torch.multiprocessing import Processdef run(rank, size):""" Distributed function to be implemented later. """passdef init_processes(rank, size, fn, backend='tcp'):""" Initialize the distributed environment. """os.environ['MASTER_ADDR'] = '127.0.0.1'os.environ['MASTER_PORT'] = '29500'dist.init_process_group(backend, rank=rank, world_size=size)fn(rank, size)if __name__ == "__main__":size = 2processes = []for rank in range(size):

阅读全文/改进本文

PyTorch 1.0 中文官方教程:使用PyTorch编写分布式应用程序相关推荐

  1. PyTorch 1.0 中文官方教程:PyTorch 介绍

    译者:YAOKE7 Torch张量库介绍 深度学习的所有计算都是在张量上进行的,其中张量是一个可以被超过二维索引的矩阵的一般表示形式.稍后我们将详细讨论这意味着什么.首先,我们先来看一下我们可以用张量 ...

  2. PyTorch 1.0 中文官方教程:使用 Amazon AWS 进行分布式训练

    译者:yportne13 作者: Nathan Inkawhich 编辑: Teng Li 在这篇教程中我们会展示如何使用 Amazon AWS 的两个多路GPU节点来设置,编写和运行 PyTorch ...

  3. PyTorch 1.0 中文官方教程:使用ONNX将模型从PyTorch传输到Caffe2和移动端

    译者:冯宝宝 在本教程中,我们将介绍如何使用ONNX将PyTorch中定义的模型转换为ONNX格式,然后将其加载到Caffe2中.一旦进入Caffe2,我们就可以运行模型来仔细检查它是否正确导出,然后 ...

  4. PyTorch 1.0 中文官方教程:用例子学习 PyTorch

    译者:bat67 最新版会在译者仓库首先同步. 作者:Justin Johnson 这个教程通过自洽的示例介绍了PyTorch的基本概念. PyTorch主要是提供了两个核心的功能特性: 一个类似于n ...

  5. PyTorch 1.0 中文官方教程:torch.nn 到底是什么?

    译者:lhc741 作者:Jeremy Howard,fast.ai.感谢Rachel Thomas和Francisco Ingham的帮助和支持. 我们推荐使用notebook来运行这个教程,而不是 ...

  6. PyTorch 1.0 中文官方教程:在 C++ 中加载 PYTORCH 模型

    译者:talengu PyTorch的主要接口为Python.虽然Python有动态编程和易于迭代的优势,但在很多情况下,正是Python的这些属性会带来不利.我们经常遇到的生产环境,要满足低延迟和严 ...

  7. PyTorch 1.0 中文官方教程:可选:数据并行处理

    译者:bat67 最新版会在译者仓库首先同步. 在这个教程里,我们将学习如何使用数据并行(DataParallel)来使用多GPU. PyTorch非常容易的就可以使用GPU,可以用如下方式把一个模型 ...

  8. PyTorch 1.0 中文官方教程:使用 PyTorch C++ 前端

    译者:solerji PyTorch C++ 前端 是PyTorch机器学习框架的一个纯C++接口.PyTorch的主接口是Python,Python API位于一个基础的C++代码库之上,提供了基本 ...

  9. PyTorch 1.0 中文官方教程:ONNX 现场演示教程

    译者:冯宝宝 本教程将向您展示如何使用ONNX将已从PyTorch导出的神经模型传输模型转换为Apple CoreML格式.这将允许您在Apple设备上轻松运行深度学习模型,在这种情况下,可以从摄像机 ...

最新文章

  1. 第十四届智能车竞赛规则浅聊
  2. java观察者模式在spring中的应用_Spring源码之spring中的观察者模式和监听器的使用...
  3. POJ 1013 Counterfeit Dollar 称硬币
  4. 堆的定义与操作(C语言)
  5. 【python】r+,w+ 全局变量
  6. python脚本式编程_Python编程入门(一)
  7. 今年要如何准备?想去阿里/美团/头条做机器学习工程师
  8. 机器学习基础(二)——词集模型(SOW)和词袋模型(BOW)
  9. 我经常逛的技术网站,个个经典
  10. Linux 流量监控
  11. 期货日内操作靠什么?拐点!
  12. 森林老是显示连接服务器超时,乌鸦森林之谜3:卡赫拉之影无法连接服务器是什么原因...
  13. 安全事件关联分析方法
  14. 建网站如何选择适合自己的云服务器配置?(详细解答)
  15. 一不小心,我爆啦!!!
  16. flexpaper组件中关于隐藏真实的swf 地址下载
  17. Aspose.Words模板创建Word【一】
  18. hackthebox-Tracks-Beginner_Track-Jerry
  19. 友元(友元函数、友元类、类成员函数的友元)
  20. fish or cut bait 当机立断

热门文章

  1. (29)FPGA面试题时序电路延时
  2. FPGA状态机三段式
  3. 关于new 和delete的灾祸
  4. android输入自动补全,Android用户输入自动提示控件AutoCompleteTextView使用方法
  5. 两个数组中对应的下标的值合成一个新的数组_剑指 offer 面试题精选图解 03 . 数组中重复的数字
  6. mysql安装过程遇到的问题_个人在mysql安装过程中遇见的问题
  7. [计算机网络] - 调节参数提高 TCP 性能
  8. 生产者消费者模型、信号量、线程池以及单例模式的实现
  9. 编程函数c语言,C语言编程(练习1:函数 )
  10. linux 将任务挂到后台,linux下使用screen或则nohup将任务放到后台运行