分布式并行计算：概述

顾名思义，分布式并行计算就是在单台机器多个GPU（单机多卡） 上，或者多台机器多个GPU（多机多卡） 上进行并行计算。

分布式计算带来了两个好处：

降低了 GPU 的显存压力。一块普通的 GPU 显存只有16个G，好一点的 3090Ti, 4090Ti 也就24个G。再计算下参数占的内存：如果以32位浮点数存储参数的话，一个参数占 4 Bytes；一百万参数大约占 4 MB。实际运行模型时，不光需要存储参数，还有梯度、中间值、优化器的状态需要存储，一百万参数的模型实际需要占用约 12 MB。现在的神经网络参数动辄上亿。根据以上的计算，一个10亿参数的模型大约需要 12G 显存，这还没有算数据占的空间。
利用多个 GPU 的算力，加速计算。以 CLIP 模型举例，训练包含最大 Vision Transformer 的模型需要在 256 块 V100 GPU 上跑 12 天。如果要在单块 GPU 上跑，就算显存允许，也要跑到地老天荒了。

ps: 为了节约显存，还可以使用 Pytorch AMP：Pytorch AMP——自动混合精度训练

可以把分布式计算分为数据并行和模型并行。模型并行又可以分为张量并行和流水线并行。

数据并行（Data Parallelism）：在不同 GPU 上运行不同的 batch data
张量并行（Tensor Parallelism）：将单个数学运算（如矩阵乘法）拆分到不同的 GPU 上运行
流水线并行（Pipeline Parallelism）：在不同 GPU 上运行模型的不同层

以数据并行为例。以现在庞大的训练数据，单张 GPU 的显存大概率放不下，那么 GPU 要经常与 CPU 进行数据交换（CPU 进一步要与硬盘进行数据交换），数据传输成本很高。
如果把数据切分成 1000 份部署在 1000 张 GPU 上，假设此时的数据量允许在单张 GPU 上训练模型。那么这将大大加速模型训练——不止是 GPU 并行计算带来的加速，还有节省的数据传输所需的时间——很有可能带来一万倍的加速。

Pytorch 中，数据并行可以通过 DataParallel 和 DistributedDataParallel 两种方式实现。前者是单进程、多线程的并行训练方式，多个 GPU 共享同一个 Python 进程，会受到 Python 解释器的 GIL 的限制。后者属于多进程，每一个 GPU 上都运行一个 Python 进程，不受 GIL 的限制。

关于多线程、多进程，可以看看我在知乎的一篇文章：聊聊多线程、多进程与GPU

并且单进程的方式，限制了 DataParallel 在多台机器上的运行，因此它只能在单台机器上运行。但即使在单机情况下，Pytorch 官方依然推荐使用 DistributedDataParallel 进行多 GPU 训练。

It is recommended to use DistributedDataParallel, instead of DataParallel to do multi-GPU training, even if there is only a single node.
The difference between DistributedDataParallel and DataParallel is: DistributedDataParallel uses multiprocessing where a process is created for each GPU, while DataParallel uses multithreading. By using multiprocessing, each GPU has its dedicated process, this avoids the performance overhead caused by GIL of Python interpreter.

在之后的文章里，会进一步详细讲讲 DataParallel 与 DistributedDataParallel，以及它们之间的异同。

分布式并行计算：概述相关推荐

#研发解决方案#分布式并行计算调度和管理系统Summoner
郑昀创建于2015/11/10 最后更新于2015/11/12 关键词:佣金计算.定时任务.数据抽取.数据清洗.数据计算.Java.Redis.MySQL.Zookeeper.azkaban2.oo ...
深度神经网络的分布式训练概述：常用方法和技巧全面总结
论文地址:https://arxiv.org/abs/1810.11787 深度学习已经为人工智能领域带来了巨大的发展进步.但是,必须说明训练深度学习模型需要显著大量的计算.在一台具有一个现代 GPU ...
python并行计算numpy_【Nature文章摘录】NumPy: 从单机到分布式并行计算
原标题:[Nature文章摘录]NumPy: 从单机到分布式并行计算点击上图,查看详情本公众号的推送以互联网大数据技术为主,是<互联网大数据处理技术与应用><Python爬虫大数 ...
Actor 分布式并行计算模型: The Actor Model for Concurrent Computation
分布式计算技术之Actor计算模式 The Actor Model for Concurrent Computation 背景介绍计算机CPU的计算速度提高(频率的提高)是有限度的,我们能做的是放入 ...
分布式事务概述（资料）
2019独角兽企业重金招聘Python工程师标准>>> 什么是分布式系统分布式系统是由一组通过网络进行通信.为了完成共同的任务而协调工作的计算机节点组成的系统.分布式系统的出现是为 ...
python dask_《使用Python和Dask实现分布式并行计算》2. Introducing Dask(介绍Dask)
楔子现在相信你已经对DAG的工作原理有了基本的理解,那么下面来看看Dask如何使用DAG来创建健壮的.可扩展的workload(控制器). 下面我们要完成两件事:使用Dask的DataFrame A ...
分布式并行计算MapReduce
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapReduce ...
史上最全分布式数据库概述
墨墨导读:在集中式数据库系统不能完全符合实际需要的形势下,集中式DB的"集中计算"概念向"分布计算"概念发展.分布计算主要体现在客户机/服务器模式的分布式数据库 ...
hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce详解
我们在前一章已经学习了HDFS: hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详解我们已经知道Hadoop=HDFS(文件系统,数据存储技术相关)+ M ...

分布式并行计算：概述

分布式并行计算：概述相关推荐

最新文章

热门文章