【IT168 资讯】今天展示的可能是大家最为推崇的一种对深度学习的构建。DeepLearning11搭载10个NVIDIA GeForce GTX 1080 Ti 11GB GPU,是Mellanox的 Infiniband系列,外形尺寸是4.5U。该系统与DeepLearning10之间有重要的区别,主要是添加了8个GTX 1080 Ti显卡。 DeepLearning11 采用single-root的设计 ,这种设计已经在深度学习领域中流行起来了。

之前已经有了许多深度学习的构建,很多机器已经投入使用。其中有一些较小的版本,包括之前发布的DeepLearning01和DeepLearning02。它们仅仅是个开端,但DeepLearning11完全不同。现在这个架构已经被世界前十的超大规模深度学习企业所使用。

DeepLearning11:组件

如果我们要求使用NVIDIA可能会被告知需要购买特斯拉(Tesla)或Quadro卡。但NVIDIA特别要求服务器原始设备制造商(OEM)不要在服务器中使用他们的GTX卡。当然,这仅仅意味着经销商在交付客户之前安装这些卡。

该系统采用的是超微的 SYS-4028GR-TR2,它是市场上主流的高GPU密度系统之一。TR2非常重要,因为它是机箱的single root 版本,不同于DeepLearning10的-TR dual root 系统。

▲DeepLearning11 GTX 1080 Ti Same CPU

与DeepLearning10的构建相似,DeepLearning11具有“隆起”,使系统总体积达到4.5U。你可以从服务器“Humping”趋势在数据中心的部分了解到更多。它使我们能够在自己的系统中也使用NVIDIA GeForce GTX卡。

▲超微4028GR-TR/ -TR2

我们正在使用Mellanox ConnectX-3 Pro VPI适配器,它既支持40GbE(主实验室网络)也支持56Gbps的 Infiniband(深度学习网络)。尽管已经在使用它,但是使用FDR Infiniband与RDMA在目前来说还是十分受欢迎的。1GbE或是10GbE的网络根本不能足够快地供给这些机器。于是我们在在实验室中安装了一个Intel Omni-Path交换机,这将是该实验室的首个100Gbps结构。

▲Mellanox ConnectX-3 Pro

在CPU和RAM方面,我们使用了2个Intel Xeon E5-2628L V4 CPU和256GB ECC DDR4 RAM。Intel Xeon E5-2650 V4是这些系统的常见芯片,它们是最低端的主流处理器,支持9.6GT / s QPI的速度。而我们正在使用的是英特尔至强E5-2628L V4 CPU,因为单根设计会赋予另一个重要的优势,将不再只是GPU间的QPI流量。虽然有可能可以使用单个GPU来为系统供电,但是我们仍然使用两种更高的RAM容量——16GB的RDIMM因为比较便宜。这些系统可以承受高达24个DDR4的LRDIMM从而获得大量的内存容量。

对于那些使用NVIDIA nccl库的深度学习者来说,常见的PCIe是非常重要的。这也是许多深入学习的构建不会转换到更高的PCIe数量的原因,它通常是更高的延迟或是更受限制的设计,如AMD EPYC与Infinity Fabric。

系统成本

在成本明细方面,如果使用英特尔E5-2650 V4芯片,这可能是什么样子:

与AWS g2.16大型实例类型相比,总价约16,500美元的投资回收期在90天以内。以下是相关的托管费用。

将DeepLearning11 的10个GPU示例与DeepRearning10的8个GPU进行比较,你可以看到,在整体系统成本方面,大约25%的性能损失较小:

正如人们所想象的那样,添加更多的gpu意味着系统其余部分的开销将有可能超过这些gpu。因此,如果你的应用程序可扩展性比较好,每个系统可能得到10个gpu。

DeepLearning11:环境因素

我们的系统有四个psu,这对于10个 GPU的配置是必要的。为了测试这个,我们让系统运行一个巨大的模型几天,看看有多少功耗被使用。以下是是10个GPU服务器的能耗,看起来就像是PDU运行Tensorflow GAN的工作负载的情况:

从上图可以看到,大约2600W确实是不错。根据模型在训练中的位置,这台机器在3.0 - 3.2kw范围内,持续功率消耗更高,却没有触及到gpu的功率限制。

这个峰值在深度学习领域上,几个星期内使用不同的问题和框架,它的高峰值仍不足4kW。使用4kW作为基础,就可以很容易地计算出这种机器的托管成本。

正如你所看到的,12个月以来,托管成本方面开始缩小硬件成本。但其实,使用的是实际的数据中心实验室的托管费用。将上述与DeepLearning10的8个gpu进行比较,你可以看到添加500W额外计算的影响:

添加额外的gpu与系统成本相比,会增加运营成本,这是与DeepLearning10相比的状况。随后几年,托管成本将会远远超过硬件成本。

DeepLearning11:性能影响

本文最重要的是想要展示从这个新系统中获得了多少性能。1600美元的系统和1.6万美元的系统之间存在很大的差异,因此我们预计其影响也会类似。采集了我们的样本Tensorflow,生成Adversarial Network(GAN)图像训练测试用例,并在单卡上运行,然后进入10个GPU系统,用每天的训练周期来表达结果。这是一个很好的说明如何在系统的购买价格中增加1400美元或更多的例子。

写在最后

正如人们所想象的那样,DeepLearning10和DeepLearning11消耗了大量的功耗。仅仅这两个服务器的平均功率就超过5kW,峰值更高。这对主机有很大的影响,因为在许多机架中增加0.5RU并不重要。大多数的机架其实不能提供25kW +的电源力和冷却能力以满足GPU服务器的需求。

最终,我们希望在实验室中拥有一个重要的Single Root系统,而DeepLearning11及其10个NVIDIA GTX 1080 Ti 11GB GPU则具备这一点。由于我们提倡首先扩大GPU的大小,从每台机器的GPU数量到多台机器,DeepLearning11既是一个伟大的顶级单机,同时也是基于设计可以扩展到多台机器的平台。

云服务器deeplearning_全面解读DeepLearning11深度学习服务器相关推荐

  1. t630服务器修复系统,dell T630深度学习服务器蓝屏,不能满足使用要求

    2019.3.12在京东上向卖家北纬恒达服务器工作站专营店购买力一台DELL poweredge T630深度学习服务器(两颗E5-2650 V4 CPU,64G内存.4T硬盘.NVIDIA K80 ...

  2. 深度学习服务器,配置推荐来啦?

    深度学习的动机在于建立可以模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像.文本和声音等.深度学习通过学习一种深层非线性网络结构,只需简单的网络结构即可实现复杂函数的逼近,并展现了 ...

  3. 如何与深度学习服务器优雅的交互?(长期更新)

    0. 故事序言 如果有人问小夕:"小夕,要是人工智能的就业岗位一夜之间消失了,你会去转行做什么呢?" 答曰:"当然是去做Linux运维啊23333" 小夕有一台 ...

  4. linux重启gpu_远程配置Ubuntu深度学习服务器GPU驱动+Docker+CUDA多个版本

    前言 首先说一下为什么建议使用docker来使用搭建深度学习服务器.其实网上很多人都写了如何搭建CUDA10.0 + cudnn8.5 , CUDA9.0 + cudnn7.5 等等,并且从Tenso ...

  5. 自己动手打造深度学习服务器

    摘要: 本文介绍如何自己构建深度学习服务器 注意:本文主要关注服务器设置和与多个用户同时工作,部件组装和软件安装过程是Slav Ivanov关于创建自己的DL Box的文章的简化版本. 我刚刚开始阅读 ...

  6. 从零到一保姆级Ubuntu深度学习服务器环境配置教程

    文章目录 前言 一.Ubuntu安装教程 1.1 下载Ubuntu镜像 1.2 软碟通刻录U盘 1.3 进入Bios,修改相关选项 1.4 Ubuntu18.04安装流程 二.更换软件源 三. NVI ...

  7. 听Alluxio小姐姐讲述:Alluxio云上K8S部署如何加速深度学习训练

    Alluxio云上K8S部署如何加速深度学习训练 在2021 Alluxio Day V中,Alluxio核心研发工程师邱璐,为我们带来[Alluxio云上K8S部署如何加速深度学习训练]的分享 邱璐 ...

  8. 这绝对是你见过的最全深度学习服务器管理配置手册,学不会你打我

    这绝对是你见过的最全深度学习服务器管理/配置手册,学不会你打我 最近在配置服务器,遇到了不少问题,在此整理记录一下.主要是以下几个方面:多用户管理.服务器环境配置.Anaconda虚拟环境安装Tens ...

  9. Docker部署深度学习服务器,CUDA+cudnn+ssh

    通过Docker来创建多个容器(相当于多个linux系统),每个容器中的CUDA版本之间互相不影响.这样的好处是可以在项目需要时,不改动主机环境的前提下运行多个CUDA版本.同时,也可以为不同的使用人 ...

最新文章

  1. 图论(六)图的两种表示方法
  2. 排队问题解题思路_1120各数的认识解决问题
  3. 【大话Hibernate】Hibernate的核心接口和类
  4. 超级外链工具_哪些SEO排名工具是有效的呢?
  5. 我的docker随笔20:多平台docker镜像下载
  6. cuSPARSE库:(九)cusparseSetStream()
  7. 孙鑫VC学习笔记:第二十讲 (二) ado数据库编程
  8. 游戏视频怎么录制,游戏录制软件哪个好
  9. C++ priority_queue 用法详解
  10. CWnd与CDialog-DoModal与ShowWindow区别
  11. 【企业安全实战】开源HIDS OSSEC部署与扩展使用
  12. VC运行库安装错误0x80240017解决过程
  13. Python数据处理DataFrame小记
  14. 高中数学相关的专业术语
  15. 如何让BERT拥有视觉感知能力?两种方式将视频信息注入BERT
  16. linux sh解释器
  17. 若依前后端分离版本集成CAS Server5.3
  18. SQL语句--CASE函数写法的简单举例,及应用
  19. dotnet C# 将 Byte 二进制数组使用不安全代码快速转换为 int 或结构体数组
  20. 《设计模式》——里氏替换原则

热门文章

  1. 前端如何实现浏览器适配?
  2. 复制浏览器控制台数据的小技巧
  3. Redis为何那么快-----底层原理浅析
  4. 解锁永久会员!特殊版爱剪辑APP【Android】
  5. 关于UES跨境支付,这几点你一定要清楚
  6. 抓包tcpdump,看这一篇足够了
  7. 微信跳转手机外部浏览器下载APK文件(IOS跳转苹果商店)是怎么实现的
  8. 新需求、新政策陆续提出 亚洲光伏新兴市场走强
  9. 中国信息价产品经理日志(3)- 接手新产品首先要做的是什么?
  10. SparkStream从kafka读取数据编码问题(Java)