深度学习核心技术精讲100篇（六十六）- 基于LXD的GPU算力虚拟化（附解决方案代码）

2024-05-22 08:48:40

搭建需求

由于当前算法和模型对GPU的强烈需求，实验室购置了一台性能强悍的GPU云服务器供大家一起使用。如果所有人对这台服务器拥有控制权是十分危险的，例如误删除他人文件，弄乱他人环境等。最简单的方法是为每位同学配置一台虚拟机，但硬件虚拟化造成大量的资源浪费，同时GPU并不支持常规的虚拟化。

•云计算资源因安全措施考虑会进行如下设置：•设置访问白名单，限制仅实验室环境下访问。外部环境若需要访问计算资源，需先通过VPN接入实验室内网•仅开放用于SSH连接的端口到公网

基于上述背景整理提出以下需求：

•独立：不同用户的环境相互独立，可同时使用。•隔离：用户不能直接操作宿主机，即用户不能逃逸至宿主机。用户访问宿主机的唯一通道是共享文件夹。•自由：用户可以像使用一台自己的Linux机器一样，通过SSH访问，并拥有主机的所有权限。•GPU：核心需求，每位同学可以直接访问GPU和使用宿主机的所有资源，包括CPU、内存、硬盘等。•可控：管理员可以较为方便对每位同学的机器进行管理，如资源争抢严重时，限制每位同学的资源使用上限（GPU, CPU, 内存等）•开销: 为满足这些需求，额外的开销应该尽可能小到可以忽略。•利用率：公用算力的资源应该能得到最大化的利用•复杂度：整套解决方案不能太复杂，便于维护

宿主机硬件配置

•GPU NVIDIA Tesla P40 *2•Memory 64G•Disk 100G SSD 系统盘 + 500G SSD 数据盘•CPU Intel Core (Broadwell, no TSX) @ 16x 2.2GHz•OS Ubuntu 20.04 LTS Server

解决方案

需求中有两个核心点：

深度学习核心技术精讲100篇（六十六）- 基于LXD的GPU算力虚拟化（附解决方案代码）相关推荐

深度学习核心技术精讲100篇（十六）-搜索引擎Indri系列之如何建立索引 (Indexing)检索评价 (Evaluation)
前言在为文档集建立索引时,需要执行IndriBuildIndex path-to-to-index_parameter_file.这里的index_parameter_file是xml格式的参数文件 ...
深度学习核心技术精讲100篇（十九）--GBDT(梯度提升树) 和 Resnet (残差网络)的原理
残差残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确:在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强.这 ...
深度学习核心技术精讲100篇（十四）-一文带你看懂GPflow的前世今生
什么是GPflow GPflow是一个高斯过程的工具包,接口部分由python实现,内部的部分计算则由Tensorflow实现. 主要特点有二个:一是使用变分推理作为近似方法,二是使用自动微分进行求导 ...
深度学习核心技术精讲100篇（十二）-DCGAN(对抗生成网络）算法应用及代码实现
前言一次偶然看到一个换脸的视频,觉得实在是很神奇,于是饶有兴致的去了解一下换脸算法.原来背后有一个极为有意思的算法思想--对抗生成. 随后各种各样的GAN算法以指数级增长的方式涌现出来,比如WGAN ...
深度学习核心技术精讲100篇（十）-机器学习模型融合之Kaggle如何通过Stacking提升模型性能
前言之前的文章中谈到了机器学习项目中,要想使得使得机器学习模型进一步提升,我们必须使用到模型融合的技巧,今天我们就来谈谈模型融合中比较常见的一种方法--stacking.翻译成中文叫做模型堆叠,接下 ...
深度学习核心技术精讲100篇（十五）-搜索引擎Indri系列之安装及使用
前言 Indri是Lemur项目衍生的一个基于语言模型的新的搜索引擎,由University of Massachusetts和Carnegie Mellon University合作开发. 安装下 ...
深度学习核心技术精讲100篇（十八）-巨量数据下美团是如何实现数据治理的？
背景大数据时代的到来,让越来越多的企业看到了数据资产的价值.将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台. 但这里要特别强调一下,如果在大 ...
深度学习核心技术精讲100篇（六）-keras 实战系列之知识蒸馏（Knowledge Distilling）
前言深度学习在这两年的发展可谓是突飞猛进,为了提升模型性能,模型的参数量变得越来越多,模型自身也变得越来越大.在图像领域中基于Resnet的卷积神经网络模型,不断延伸着网络深度.而在自然语言处理领域 ...
深度学习核心技术精讲100篇（二十）-如何通过树模型实现梯度提升树(GBDT)+LR,随机森林(RandomForest) +LR
前言在讲如何通过树模型做特征工程之前,首先让我们回顾一下一个机器学习(除去深度学习项目部分)项目的大致流程: 从业务场景中抽象出问题--分类问题,回归问题,还是聚类问题等, 接下来是数据获取,数据清 ...
深度学习核心技术精讲100篇（五十八）- 如何量化医学图像分割中的置信度？
前言在过去的十年里,深度学习在一系列的应用中取得了巨大的成功.然而,为了验证和可解释性,我们不仅需要模型做出的预测,还需要知道它在做出预测时的置信度.这对于让医学影像学的临床医生接受它是非常重要的. ...

最新文章

热门文章