云栖君导读:除了自动化整合IaaS层硬件资源为用户提供云上HPC集群外,E-HPC还致力于巩固云上HPC服务的高可用性,先后推出了“集谛多维性能监控”、“低成本断点续算”等新特性,帮助用户更好、更省地使用云上HPC服务。本文主要介绍阿里云超算推出的弹性高性能容器方案以及在分子动力学领域和AI领域的实战案例。

弹性高性能计算(E-HPC,https://ehpc.console.aliyun.com/ )基于阿里云基础设施,为用户提供一站式的公有云HPC服务。除了自动化整合IaaS层硬件资源为用户提供云上HPC集群外,E-HPC还致力于巩固云上HPC服务的高可用性,先后推出了“集谛多维性能监控”、“低成本断点续算”等新特性,帮助用户更好、更省地使用云上HPC服务。本文主要介绍阿里云超算推出的弹性高性能容器方案以及在分子动力学领域和AI领域的实战案例。

高性能容器Singularity

Singularity是劳伦斯伯克利国家实验室专门为大规模、跨节点HPC和DL工作负载而开发的容器化技术。具备轻量级、快速部署、方便迁移等诸多优势,且支持从Docker镜像格式转换为Singularity镜像格式。与Docker的不同之处在于:

1.  Singularity同时支持root用户和非root用户启动,且容器启动前后,用户上下文保持不变,这使得用户权限在容器内部和外部都是相同的。
2.  Singularity强调容器服务的便捷性、可移植性和可扩展性,而弱化了容器进程的高度隔离性,因此量级更轻,内核namespace更少,性能损失更小。

下图是在单台神龙裸金属服务器(ecs.ebmg5.24xlarge,Intel Xeon(Skylake) Platinum 8163,2.5GHz,96vCPU,384GB)上使用不同容器测出的HPL性能数据。如图所示,Singularity容器下测得的HPL性能要略优于Docker容器,且与宿主机的实测HPL性能相当。

3.  Singularity高度亲和HPC使用场景,支持对宿主机软硬件资源的充分利用,包括HPC调度器(PBS、Slurm),跨节点通信库(IntelMPI、OpenMPI),网络互连(Ethernet、Infiniband),文件系统以及加速设备(GPU),这使得用户在使用Singularity时无需为HPC做额外的适配。

E-HPC弹性高性能容器方案

阿里云E-HPC集成开源Singularity容器技术,在支持用户软件环境快速部署、灵活迁移的同时还兼顾云上HPC容器服务本身的高可用性以及与现有E-HPC组件的兼容性,为用户打造高效、易用的弹性高性能容器解决方案。

用户只需将本地软件环境打包上传到Docker Hub,就可以在E-HPC控制台上完成“集群创建->镜像拉取->容器应用部署->作业提交->性能监控&运行结果查询”整套工作流程,从而达到降低HPC使用成本,提高自身科研、生产效率的目的。

Singularity容器实战案例

案例一:SCC多节点运行分子动力学NAMD容器作业

NAMD是一款主流的分子动力学模拟软件,扩展性好,并行效率高,常用于处理大规模分子体系。本文基于镜像docker.io/centos:7.2.1511构建包含intelmpi+namd+inputfile的Singularity镜像,并使用pbs调度器将NAMD容器作业和本地作业先后提交到4台SCC(ecs.scch5.16xlarge,Intel Xeon(Skylake) Gold 6149,3.1GHz ,32物理核,192GB)节点上,pbs作业脚本如下所示。

为了展示“容器运行NAMD”与“宿主机直接运行NAMD”两者在CPU利用率、RoCE网络带宽以及软件执行效率等方面的差异,本文使用E-HPC自带的性能监控工具“集谛”对SCC集群资源利用情况进行监控。“集谛”的功能已经在前文https://yq.aliyun.com/articles/661962中详细介绍过。各节点资源利用情况如下图所示。

从图中可以看出,“容器运行NAMD”与“宿主机直接运行NAMD”两者在集群资源利用情况上基本一致:4个节点的CPU持续满载,RoCE网络带宽维持在1.3GB/s左右。作业执行时间分别为1324秒和1308秒。由此可见,Singularity不仅高度适配宿主机调度器、MPI并行库、RoCE网络,还能够保证容器作业的高效运行,相比于宿主机性能损失在2%以内。

案例二:EGS实例运行tensorflow图像分类容器作业

CIFAR-10是图像识别领域的经典数据集。本文基于镜像docker.io/tensorflow/tensorflow: latest-devel-gpu-py3分别构建包含图像分类模型的Singularity容器和Docker容器,并基于这两款容器在单台EGS(ecs.gn5-c8g1.4xlarge,Intel Xeon E5-2682v4,2.5GHz,16vCPU,120GB,P100x2)节点上对tensorflow网络模型进行训练,命令行如下所示。

使用“集谛”对作业进行监控,节点资源利用情况如下图所示。

从图中可以看出,基于Singularity容器和Docker容器的tensorflow图像分类模型训练在资源利用情况没有明显差异:CPU利用率维持在75%,单块GPU利用率在30%~40%之间波动。在训练效率上,10万steps的训练时间分别为1432秒和1506秒。由此可见,Singularity容器不仅高度适配宿主机GPU和CUDA,而且在作业执行效率上比Docker容器略占优势。

总结

阿里云超算集成开源Singularity容器技术,打造高效、易用的云上弹性高性能容器方案,大幅降低用户迁云成本,助力用户高效科研。

end

如何利用自然语言处理构建基于内容的电影推荐系统

学习机器学习和数据科学必看的十个资源

数据科学家应当了解的五个统计基本概念

技术和商业的碰撞,谈阿里云与天猫双11这十年

更多精彩

阿里云超算:高性能容器方案实战之Singularity相关推荐

  1. 前端性能优化方法与实战17 横向对比:百度、阿里云、美团性能方案对比

    前面我介绍了性能优化实践及在 Hybrid下的进阶优化方案,这是我们目前的做法,那么,业界是什么样的情况呢?在这里我就挑选三家互联网公司--百度.阿里云.美团,一起来看看他们是怎么做的? 为什么选它们 ...

  2. 阿里云超算战纪 | 凌云时刻

    凌云时刻 · 故事 撰文| 卢晓明 编辑| 猛哥 图源| 受访者及unsplash 楔子 今人不见古时月,今月曾经照古人. 人生代代无穷,月下始终有一批批匠人.学者.工程师,举头而思,低头而作,奋斗无 ...

  3. 连续两年入选Gartner公共云容器,阿里云在边缘容器方面做了什么?

    最近,Gartner发布了2020年公共云容器报告,阿里云连续两年成为唯一入选的中国企业.报告显示,阿里云容器服务在中国市场表现强劲,产品形态丰富,在 Serverless 容器.服务网格.安全沙箱容 ...

  4. LoRaWAN设备接入阿里云IoT企业物联网平台实战——实践类

    传送门:5个视频讲解,30个场景案例汇总 LoRaWAN设备接入阿里云IoT企业物联网平台实战 随着 IoT 物联网的高速发展,低功耗,远距离,抗干扰的低功耗广域网快速崛起,LoRa与NB-IoT就是 ...

  5. 在阿里云HPC和容器服务上,像梵高一样作画

    本系列将利用Docker技术在阿里云HPC和容器服务上,帮助您上手TensorFlow的机器学习方案 第一篇:打造TensorFlow的实验环境 第二篇:轻松搭建TensorFlow Serving集 ...

  6. 阿里云宣布 Serverless 容器服务 弹性容器实例 ECI 正式商业化

    1月2日,阿里云宣布弹性容器实例 ECI(Elastic Container Instance)正式商业化,ECI 是阿里云践行普惠的云计算理念,将 Serverless 和 Container 技术 ...

  7. 阿里云专有云容器服务弹性伸缩最佳实践

    简介:阿里云专有云容器服务弹性伸缩最佳实践 1.容器服务弹性伸缩简介 本小节将基于使用原理对容器服务弹性伸缩进行简要的描述. 本实践基于K8s的业务集群运行在专有云上,对测试业务进行压力测试,主要基于 ...

  8. 阿里云超算揭秘:虚拟机的心脏,物理机的肌肉

    阿里云超算揭秘:虚拟机的心脏,物理机的肌肉 在汽车行业,过去有一句俗话,一辆车从设计到下线,"至少要11辆真实碰撞试验",今天,在现代化的汽车制造业,通过长期发展的设计和仿真软件, ...

  9. 阿里云硬核安全方案携手天猫“喵住”新标准发布 打造智能锁安全新定义

    9月17日杭州,天猫智能锁行业x国潮来了,携手德施曼.鹿客.果加.凯迪仕等15个国内知名新国货品牌,在杭州亲橙里举行了一场"天猫智能锁安全升级发布会",就消费者最为关注的智能锁安全 ...

最新文章

  1. hypervisor简介
  2. 人工智能德国造 “弱AI“强势登场
  3. 如果企业网站长时间没有排名可以从多个方面进行分析
  4. linux终端获取root,ubuntu18.04获取root权限并用root用户登录的实现
  5. Java并发编程之LinkedBlockingQueue
  6. 软件测试经典面试题(二)给你一个网站如何测试
  7. 部门树_神奇!十堰这个小山村竟然藏着两棵500多年的爱情树!
  8. java jquery easyui_java中用jquery-easyui插件做可编辑datagird列表
  9. 计算机网络实训心得总结,计算机网络实训心得体会_计算机网络学习经验总结...
  10. C++ 使用Intel Media SDK 实现H.264硬编码
  11. 将ajax的值传给控制器,ASP.Net C#MCV - 将值从Ajax Jquery传递给Controller(示例代码)
  12. No fallback instance of type class错误的解决方案
  13. Z-Score如何计算
  14. HashMap夺命连环问,你扛得住吗
  15. H5 视频播放解决方案
  16. Java Excel框架
  17. 基于stm32F103HAL库+cubemx+freertos无感无刷电机BLDC控制程序开发
  18. python处理颜色rgb_使用python获得N个区分度较高的RGB颜色值
  19. 织梦模板有电商功能吗?
  20. 在ROHINI JAVA院所ROHINI JAVA计算机班的Java类

热门文章

  1. 解决修改hosts文件权限不够的问题
  2. 取消苹果Mac电脑开机密码
  3. 达梦查询表空间使用率
  4. vue-orgchart 导出图片功能备注
  5. 浅析Shazam音乐识别算法:基于Matlab的实现与音乐特征提取的探讨
  6. 每日词根——her/heir/herit
  7. [Matlab科学计算] Matlab打开Labview保存的TDMS文件
  8. 计算机维修工职业技能鉴定国家题库答案,计算机维修工职业技能鉴定国家题库2.doc...
  9. SVN客户端安装配置和使用(windows)
  10. 我的python成长之路(1)