云服务器deeplearning_全面解读DeepLearning11深度学习服务器

【IT168 资讯】今天展示的可能是大家最为推崇的一种对深度学习的构建。DeepLearning11搭载10个NVIDIA GeForce GTX 1080 Ti 11GB GPU，是Mellanox的 Infiniband系列，外形尺寸是4.5U。该系统与DeepLearning10之间有重要的区别，主要是添加了8个GTX 1080 Ti显卡。 DeepLearning11 采用single-root的设计，这种设计已经在深度学习领域中流行起来了。

之前已经有了许多深度学习的构建，很多机器已经投入使用。其中有一些较小的版本，包括之前发布的DeepLearning01和DeepLearning02。它们仅仅是个开端，但DeepLearning11完全不同。现在这个架构已经被世界前十的超大规模深度学习企业所使用。

DeepLearning11：组件

如果我们要求使用NVIDIA可能会被告知需要购买特斯拉(Tesla)或Quadro卡。但NVIDIA特别要求服务器原始设备制造商(OEM)不要在服务器中使用他们的GTX卡。当然，这仅仅意味着经销商在交付客户之前安装这些卡。

该系统采用的是超微的 SYS-4028GR-TR2，它是市场上主流的高GPU密度系统之一。TR2非常重要，因为它是机箱的single root 版本，不同于DeepLearning10的-TR dual root 系统。

▲DeepLearning11 GTX 1080 Ti Same CPU

与DeepLearning10的构建相似，DeepLearning11具有“隆起”，使系统总体积达到4.5U。你可以从服务器“Humping”趋势在数据中心的部分了解到更多。它使我们能够在自己的系统中也使用NVIDIA GeForce GTX卡。

▲超微4028GR-TR/ -TR2

我们正在使用Mellanox ConnectX-3 Pro VPI适配器，它既支持40GbE(主实验室网络)也支持56Gbps的 Infiniband(深度学习网络)。尽管已经在使用它，但是使用FDR Infiniband与RDMA在目前来说还是十分受欢迎的。1GbE或是10GbE的网络根本不能足够快地供给这些机器。于是我们在在实验室中安装了一个Intel Omni-Path交换机，这将是该实验室的首个100Gbps结构。

▲Mellanox ConnectX-3 Pro

在CPU和RAM方面，我们使用了2个Intel Xeon E5-2628L V4 CPU和256GB ECC DDR4 RAM。Intel Xeon E5-2650 V4是这些系统的常见芯片，它们是最低端的主流处理器，支持9.6GT / s QPI的速度。而我们正在使用的是英特尔至强E5-2628L V4 CPU，因为单根设计会赋予另一个重要的优势，将不再只是GPU间的QPI流量。虽然有可能可以使用单个GPU来为系统供电，但是我们仍然使用两种更高的RAM容量——16GB的RDIMM因为比较便宜。这些系统可以承受高达24个DDR4的LRDIMM从而获得大量的内存容量。

对于那些使用NVIDIA nccl库的深度学习者来说，常见的PCIe是非常重要的。这也是许多深入学习的构建不会转换到更高的PCIe数量的原因，它通常是更高的延迟或是更受限制的设计，如AMD EPYC与Infinity Fabric。

系统成本

在成本明细方面，如果使用英特尔E5-2650 V4芯片，这可能是什么样子：

与AWS g2.16大型实例类型相比，总价约16,500美元的投资回收期在90天以内。以下是相关的托管费用。

将DeepLearning11 的10个GPU示例与DeepRearning10的8个GPU进行比较，你可以看到，在整体系统成本方面，大约25%的性能损失较小：

正如人们所想象的那样，添加更多的gpu意味着系统其余部分的开销将有可能超过这些gpu。因此，如果你的应用程序可扩展性比较好，每个系统可能得到10个gpu。

DeepLearning11:环境因素

我们的系统有四个psu，这对于10个 GPU的配置是必要的。为了测试这个，我们让系统运行一个巨大的模型几天，看看有多少功耗被使用。以下是是10个GPU服务器的能耗，看起来就像是PDU运行Tensorflow GAN的工作负载的情况:

从上图可以看到，大约2600W确实是不错。根据模型在训练中的位置，这台机器在3.0 - 3.2kw范围内，持续功率消耗更高，却没有触及到gpu的功率限制。

这个峰值在深度学习领域上，几个星期内使用不同的问题和框架，它的高峰值仍不足4kW。使用4kW作为基础，就可以很容易地计算出这种机器的托管成本。

正如你所看到的，12个月以来，托管成本方面开始缩小硬件成本。但其实，使用的是实际的数据中心实验室的托管费用。将上述与DeepLearning10的8个gpu进行比较，你可以看到添加500W额外计算的影响:

添加额外的gpu与系统成本相比，会增加运营成本，这是与DeepLearning10相比的状况。随后几年，托管成本将会远远超过硬件成本。

DeepLearning11:性能影响

本文最重要的是想要展示从这个新系统中获得了多少性能。1600美元的系统和1.6万美元的系统之间存在很大的差异，因此我们预计其影响也会类似。采集了我们的样本Tensorflow，生成Adversarial Network(GAN)图像训练测试用例，并在单卡上运行，然后进入10个GPU系统，用每天的训练周期来表达结果。这是一个很好的说明如何在系统的购买价格中增加1400美元或更多的例子。

写在最后

正如人们所想象的那样，DeepLearning10和DeepLearning11消耗了大量的功耗。仅仅这两个服务器的平均功率就超过5kW，峰值更高。这对主机有很大的影响，因为在许多机架中增加0.5RU并不重要。大多数的机架其实不能提供25kW +的电源力和冷却能力以满足GPU服务器的需求。

最终，我们希望在实验室中拥有一个重要的Single Root系统，而DeepLearning11及其10个NVIDIA GTX 1080 Ti 11GB GPU则具备这一点。由于我们提倡首先扩大GPU的大小，从每台机器的GPU数量到多台机器，DeepLearning11既是一个伟大的顶级单机，同时也是基于设计可以扩展到多台机器的平台。

云服务器deeplearning_全面解读DeepLearning11深度学习服务器相关推荐

t630服务器修复系统,dell T630深度学习服务器蓝屏，不能满足使用要求
2019.3.12在京东上向卖家北纬恒达服务器工作站专营店购买力一台DELL poweredge T630深度学习服务器(两颗E5-2650 V4 CPU,64G内存.4T硬盘.NVIDIA K80 ...
深度学习服务器，配置推荐来啦？
深度学习的动机在于建立可以模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像.文本和声音等.深度学习通过学习一种深层非线性网络结构,只需简单的网络结构即可实现复杂函数的逼近,并展现了 ...
如何与深度学习服务器优雅的交互？（长期更新）
0. 故事序言如果有人问小夕:"小夕,要是人工智能的就业岗位一夜之间消失了,你会去转行做什么呢?" 答曰:"当然是去做Linux运维啊23333" 小夕有一台 ...
linux重启gpu_远程配置Ubuntu深度学习服务器GPU驱动+Docker+CUDA多个版本
前言首先说一下为什么建议使用docker来使用搭建深度学习服务器.其实网上很多人都写了如何搭建CUDA10.0 + cudnn8.5 , CUDA9.0 + cudnn7.5 等等,并且从Tenso ...
自己动手打造深度学习服务器
摘要: 本文介绍如何自己构建深度学习服务器注意:本文主要关注服务器设置和与多个用户同时工作,部件组装和软件安装过程是Slav Ivanov关于创建自己的DL Box的文章的简化版本. 我刚刚开始阅读 ...
从零到一保姆级Ubuntu深度学习服务器环境配置教程
文章目录前言一.Ubuntu安装教程 1.1 下载Ubuntu镜像 1.2 软碟通刻录U盘 1.3 进入Bios,修改相关选项 1.4 Ubuntu18.04安装流程二.更换软件源三. NVI ...
听Alluxio小姐姐讲述：Alluxio云上K8S部署如何加速深度学习训练
Alluxio云上K8S部署如何加速深度学习训练在2021 Alluxio Day V中,Alluxio核心研发工程师邱璐,为我们带来[Alluxio云上K8S部署如何加速深度学习训练]的分享邱璐 ...
这绝对是你见过的最全深度学习服务器管理配置手册，学不会你打我
这绝对是你见过的最全深度学习服务器管理/配置手册,学不会你打我最近在配置服务器,遇到了不少问题,在此整理记录一下.主要是以下几个方面:多用户管理.服务器环境配置.Anaconda虚拟环境安装Tens ...
Docker部署深度学习服务器，CUDA+cudnn+ssh
通过Docker来创建多个容器(相当于多个linux系统),每个容器中的CUDA版本之间互相不影响.这样的好处是可以在项目需要时,不改动主机环境的前提下运行多个CUDA版本.同时,也可以为不同的使用人 ...

云服务器deeplearning_全面解读DeepLearning11深度学习服务器

云服务器deeplearning_全面解读DeepLearning11深度学习服务器相关推荐

最新文章

热门文章