搭建需求

由于当前算法和模型对GPU的强烈需求,实验室购置了一台性能强悍的GPU云服务器供大家一起使用。如果所有人对这台服务器拥有控制权是十分危险的,例如误删除他人文件,弄乱他人环境等。最简单的方法是为每位同学配置一台虚拟机,但硬件虚拟化造成大量的资源浪费,同时GPU并不支持常规的虚拟化。

•云计算资源因安全措施考虑会进行如下设置:•设置访问白名单,限制仅实验室环境下访问。外部环境若需要访问计算资源,需先通过VPN接入实验室内网•仅开放用于SSH连接的端口到公网

基于上述背景整理提出以下需求:

•独立:不同用户的环境相互独立,可同时使用。•隔离:用户不能直接操作宿主机,即用户不能逃逸至宿主机。用户访问宿主机的唯一通道是共享文件夹。•自由:用户可以像使用一台自己的Linux机器一样,通过SSH访问,并拥有主机的所有权限。•GPU:核心需求,每位同学可以直接访问GPU和使用宿主机的所有资源,包括CPU、内存、硬盘等。•可控:管理员可以较为方便对每位同学的机器进行管理,如资源争抢严重时,限制每位同学的资源使用上限(GPU, CPU, 内存等)•开销: 为满足这些需求,额外的开销应该尽可能小到可以忽略。•利用率:公用算力的资源应该能得到最大化的利用•复杂度:整套解决方案不能太复杂,便于维护

宿主机硬件配置

•GPU NVIDIA Tesla P40 *2•Memory 64G•Disk 100G SSD 系统盘 + 500G SSD 数据盘•CPU Intel Core (Broadwell, no TSX) @ 16x 2.2GHz•OS Ubuntu 20.04 LTS Server

解决方案

需求中有两个核心点:

深度学习核心技术精讲100篇(六十六)- 基于LXD的GPU算力虚拟化(附解决方案代码)相关推荐

  1. 深度学习核心技术精讲100篇(十六)-搜索引擎Indri系列之如何建立索引 (Indexing)检索评价 (Evaluation)

    前言 在为文档集建立索引时,需要执行IndriBuildIndex path-to-to-index_parameter_file.这里的index_parameter_file是xml格式的参数文件 ...

  2. 深度学习核心技术精讲100篇(十九)--GBDT(梯度提升树) 和 Resnet (残差网络)的原理

    残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确:在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强.这 ...

  3. 深度学习核心技术精讲100篇(十四)-一文带你看懂GPflow的前世今生

    什么是GPflow GPflow是一个高斯过程的工具包,接口部分由python实现,内部的部分计算则由Tensorflow实现. 主要特点有二个:一是使用变分推理作为近似方法,二是使用自动微分进行求导 ...

  4. 深度学习核心技术精讲100篇(十二)-DCGAN(对抗生成网络)算法应用及代码实现

    前言 一次偶然看到一个换脸的视频,觉得实在是很神奇,于是饶有兴致的去了解一下换脸算法.原来背后有一个极为有意思的算法思想--对抗生成. 随后各种各样的GAN算法以指数级增长的方式涌现出来,比如WGAN ...

  5. 深度学习核心技术精讲100篇(十)-机器学习模型融合之Kaggle如何通过Stacking提升模型性能

    前言 之前的文章中谈到了机器学习项目中,要想使得使得机器学习模型进一步提升,我们必须使用到模型融合的技巧,今天我们就来谈谈模型融合中比较常见的一种方法--stacking.翻译成中文叫做模型堆叠,接下 ...

  6. 深度学习核心技术精讲100篇(十五)-搜索引擎Indri系列之安装及使用

    前言 Indri是Lemur项目衍生的一个基于语言模型的新的搜索引擎,由University of Massachusetts和Carnegie Mellon University合作开发. 安装 下 ...

  7. 深度学习核心技术精讲100篇(十八)-巨量数据下美团是如何实现数据治理的?

    背景 大数据时代的到来,让越来越多的企业看到了数据资产的价值.将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台. 但这里要特别强调一下,如果在大 ...

  8. 深度学习核心技术精讲100篇(六)-keras 实战系列之知识蒸馏(Knowledge Distilling)

    前言 深度学习在这两年的发展可谓是突飞猛进,为了提升模型性能,模型的参数量变得越来越多,模型自身也变得越来越大.在图像领域中基于Resnet的卷积神经网络模型,不断延伸着网络深度.而在自然语言处理领域 ...

  9. 深度学习核心技术精讲100篇(二十)-如何通过树模型实现梯度提升树(GBDT)+LR,随机森林(RandomForest) +LR

    前言 在讲如何通过树模型做特征工程之前,首先让我们回顾一下一个机器学习(除去深度学习项目部分)项目的大致流程: 从业务场景中抽象出问题--分类问题,回归问题,还是聚类问题等, 接下来是数据获取,数据清 ...

  10. 深度学习核心技术精讲100篇(五十八)- 如何量化医学图像分割中的置信度?

    前言 在过去的十年里,深度学习在一系列的应用中取得了巨大的成功.然而,为了验证和可解释性,我们不仅需要模型做出的预测,还需要知道它在做出预测时的置信度.这对于让医学影像学的临床医生接受它是非常重要的. ...

最新文章

  1. 计算机书籍-机器学习预测分析java神经网络算法与实现
  2. Visual Studio Debug和Release的区别及obj的作用
  3. x shell 配置 和相关注意点(vm相关注意点)
  4. list_for_each()与list_for_each_safe()
  5. Validation of XML with XSD
  6. PMP每日三题(2022年2月15日)
  7. fixed 定位 苹果手机输入框触发时内容全部隐藏
  8. 如何简单形象又有趣地讲解神经网络是什么?
  9. 2015年《大数据》高被引论文 Top10
  10. python简述列表特征_python高级特性简介
  11. C语言字符串类型转换为整型,c语言中将一个字符串转换到整型数据类型的函数是什么?...
  12. 怎么在wps里做计算机,解决方案:如何在wps中制作电子小报
  13. 【ESP32】HardwareSerial库使用
  14. Mac 安装非信任开发者软件
  15. 自娱自乐 中秋快乐 代码
  16. 苹果降价600元,对本就溃败的国产旗舰手机几乎是毁灭性打击
  17. 【支线】基于Aidlux的Arduino小车
  18. 黑苹果10.10.3手动开启SSD的TIRM提高硬盘效率
  19. unity3d安卓打包教程
  20. 英语Kutnahorite金田黄kutnahorite单词

热门文章

  1. 日常总结:自学操作系统基础的一些领悟
  2. fzu 2139 久违的月赛之二
  3. [转载] 七龙珠第一部——第094话 太阳拳
  4. mysql增删查操作
  5. E:Unable to locate package libssl-dev:i386
  6. 802.11协议精读5:隐藏终端和暴露终端
  7. CSP认证201403-4 无线网络[C++题解]:宽搜、bfs最短路、图论
  8. PAT甲级1150 Travelling Salesman Problem:[C++题解]旅行商问题、图论
  9. PAT甲级1003 Emergency:[C++题解]dijkstra求最短路、最短路条数
  10. linux平台 一个简单的helloworld静态库的制作与使用