简介:由于云计算在资源成本和弹性扩容方面的天然优势,越来越多客户愿意在云上构建 AI 系统,而以容器、Kubernetes 为代表的云原生技术,已经成为释放云价值的最短路径, 在云上基于 Kubernetes 构建 AI 平台已经成为趋势。

作者 | 徐晓舟(萧元)
来源|阿里巴巴云原生公众号

背景

由于云计算在资源成本和弹性扩容方面的天然优势,越来越多客户愿意在云上构建 AI 系统,而以容器、Kubernetes 为代表的云原生技术,已经成为释放云价值的最短路径, 在云上基于 Kubernetes 构建 AI 平台已经成为趋势。

当面临较复杂的模型训练或者数据量大时,单机的计算能力往往无法满足算力要求。通过使用阿里的 AiACC 或者社区的 horovod 等分布式训练框架,仅需修改几行代码,就能将一个单机的训练任务扩展为支持分布式的训练任务。在 Kubernetes 上常见的是 kubeflow 社区的 tf-operator 支持 Tensorflow PS 模式,或者 mpi-operator 支持 horovod 的 mpi allreduce 模式。

现状

Kubernetes 和云计算提供敏捷性和伸缩性,我们可以通过 cluster-AutoScaler 等组件为训练任务设置弹性策略,利用 Kubernetes 的弹性能力,按需创建,减少 GPU 设备空转。

但这种伸缩模式面对训练这种离线任务还是略有不足:

  • 不支持容错,当部分 Worker 由于设备原因失败,整个任务需要停止重来。
  • 训练任务一般时间较长,占用算力大,任务缺少弹性能力。当资源不足时,除非任务终止,无法按需为其他业务腾出资源。
  • 训练任务时间较长,不支持 worker 动态配置, 无法安全地使用抢占实例,发挥云上最大性价比

如何给训练任务赋予弹性能力,是提高性价比的关键路径。近期 horovod 等分布式框架逐渐支持了 Elastic Training,即弹性训练能力。也就是允许一个训练任务在执行的过程中动态的扩容或者缩容训练 worker, 从不会引起训练任务的中断。需要在代码中做少量修改适配,可参考:https://horovod.readthedocs.io/en/stable/elastic_include.html。

对 Elastic training 的实现原理感兴趣可以看这篇 Elastic Horovod 设计文档, 本文不详细介绍。

在 mpi-operator 中,参与训练的 Worker 都是作为静态资源设计和维护,支持弹性训练模式后,给任务增加了灵活性,同时也给运维层带来了挑战,例如:

  • 必须通过 horovod 提供的 horovordrun 作为入口,horovod 中 launcher 通过 ssh 登陆 worker,需要打通 launcher 和 worker 之间的登陆隧道。
  • 负责计算弹性的 Elastic Driver 模块通过指定 discover_host 脚本获取最新 worker 拓扑信息,从而拉起或停止 worker 实例。当 worker 变化时,首先要更新 discover_host 脚本的返回值。
  • 在抢占或价格计算等场景中,有时需要指定 worker 缩容,K8s 原生的编排元语 deployment,statefulset 无法满足指定缩容的场景。

解决方法

针对以上问题,我们设计开发了 et-operator,提供 TrainingJob CRD 描述训练任务, ScaleOut 和 ScaleIn  CRD 描述扩容和缩容操作, 通过它们的组合,使我们的训练任务更具有弹性。将这个方案开源,欢迎大家提需求、交流、吐槽。

开源方案地址:https://github.com/AliyunContainerService/et-operator

设计

TrainingJob Controller 主要有以下功能:

  • 维护 TrainingJob 的创建/删除生命周期,以及子资源管理。
  • 执行扩缩容操作。
  • 容错,当 worker 被驱逐,创建新的 worker 加入到训练中。

1. 资源创建

TrainingJob 子资源创建顺序如下:

  • 创建打通 ssh 所需的密钥对, 创建 secret。
  • 创建 workers,包含 service 和 pod,挂载 secret 公钥。
  • 创建 configmap, 包含 discover_host 脚本 , hostfile 文件。
  • 创建 launcher,挂载 configmap。由于 hostfile 后续会随着拓扑关系修改,所以 hostfile 单独通过 initcontainer 从 configmap 拷贝到单独目录。

TrainingJob 相关资源:

TrainingJob CR 的配置分为 Lanucher 和 Worker。在 Launcher 中指定任务的镜像和启动执行, 默认 et-operator 会根据 worker 分配情况,生成一个 hostfile 文件和 discover_host 脚本,discover_host 脚本挂载到 Launcher 的 /etc/edl/discover_hosts.sh 文件, 在入口脚本的 horovodrun 执行中通过 --host-discovery-script 参数指定。在 Worker 设置中指定 worker 的镜像和 GPU 占用 ,并可以通过 maxReplicas / minReplicas 指定 workers 的副本数允许范围。

apiVersion: kai.alibabacloud.com/v1alpha1
kind: TrainingJob
metadata:name: elastic-trainingnamespace: default
spec:cleanPodPolicy: RunningetReplicaSpecs:launcher:replicas: 1template:spec:containers:- command:- sh- -c- horovodrun -np 2 --min-np 1 --max-np 9 --host-discovery-script/etc/edl/discover_hosts.sh python /examples/elastic/tensorflow2_mnist_elastic.pyimage: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpuimagePullPolicy: Alwaysname: mnist-elasticworker:maxReplicas: 9minReplicas: 1replicas: 2template:spec:containers:- image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpuimagePullPolicy: Alwaysname: mnist-elasticresources:limits:nvidia.com/gpu: "1"requests:nvidia.com/gpu: "1"
status:currentWorkers:- elastic-training-worker-0- elastic-training-worker-1- elastic-training-worker-2- elastic-training-worker-3phase: SucceededreplicaStatuses:Launcher:active: 1succeeded: 1Worker:active: 4

2. Worker 扩容 / 缩容

除了 TrainingJob 外,et-operator 同时支持 ScaleOut 和 ScaleIn 两种 CRD,下发训练任务扩容和缩容操作。

当下发一个 ScaleOut CR,ScaleOutController 触发 Reconcile, 这里工作很简单,根据 ScaleOut CR 中的 Selector 字段,找到 Scaler 对应的 TrainingJob,设置到 CR 的 OwnerReferences 上。

以一个 ScaleOut 操作举例:

- apiVersion: kai.alibabacloud.com/v1alpha1kind: ScaleOutmetadata:creationTimestamp: "2020-11-04T13:54:26Zname: scaleout-ptfnknamespace: defaultownerReferences:- apiVersion: kai.alibabacloud.com/v1alpha1blockOwnerDeletion: truecontroller: truekind: TrainingJobname: elastic-training // 指向扩容对象TrainingJobuid: 075b9c4a-22f9-40ce-83c7-656b329a2b9espec:selector:name: elastic-trainingtoAdd:count: 2

TrainingJobController 中监听到属于 TrainingJob  的 ScaleOut CR 有更新, 触发 TrainingJob 的 Reconcile,遍历过滤 TrainingJob 下 OwnerReference 指向的 ScaleIn 和 ScaleOut, 根据创建时间和状态时间决定执行的扩容或者缩容。

apiVersion: kai.alibabacloud.com/v1alpha1
kind: TrainingJob
metadata:name: elastic-trainingnamespace: default
spec: // ...... Launcher and Worker spec
status:currentScaler: ScaleIn:default/scaleout-ptfnkphase: ScalingcurrentWorkers:- elastic-training-worker-0- elastic-training-worker-1

ScaleOut 任务 CR:

ScaleIn 任务 CR:

详细工作过程:

运行

1. 安装 ET-Operator

mkdir -p $(go env GOPATH)/src/github.com/aliyunContainerService
cd $(go env GOPATH)/src/github.com/aliyunContainerService
git clone https://http://github.com/aliyunContainerService/et-operator
cd et-operator
kubectl create -f deploy/all_in_one.yaml 

检测 crd 的安装:

# kubectl get crd
NAME                                    CREATED AT
scaleins.kai.alibabacloud.com           2020-11-11T11:16:13Z
scaleouts.kai.alibabacloud.com          2020-11-11T11:16:13Z
trainingjobs.kai.alibabacloud.com       2020-11-11T11:16:13Z

检测 controller 的运行状态,默认安装在 kube-ai 中:

# kubectl -n kube-ai get po
NAME                                         READY   STATUS              RESTARTS   AGE
et-operator-controller-manager-7877968489-c5kv4   0/2     ContainerCreating   0          5s

2. 运行 TrainingJob

运行事先已准备好的示例:

kubectl apply -f examples/training_job.yaml

检测运行状态:

# kubectl get trainingjob
NAME                          PHASE     AGE
elastic-training              Running   77s# kubectl get po
NAME                                      READY   STATUS             RESTARTS   AGE
elastic-training-launcher                 1/1     Running            0          7s
elastic-training-worker-0                 1/1     Running            0          10s
elastic-training-worker-1                 1/1     Running            0          9s

3. 缩容训练任务 Worker

执行缩容时,可以通过 ScaleIn CR 中的 spec.toDelete.count  或 spec.toDelete.podNames  字段指定缩容的 worker。

通过 count 配置缩容的数量,则通过 index 计算由高到低缩容 Worker。

apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleIn
metadata:name: scalein-workers
spec:selector:name: elastic-trainingtoDelete:count: 1

如果想要缩容特定的 Worker,可以配置 podNames:

apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleIn
metadata:name: scalein-workers
spec:selector:name: elastic-trainingtoDelete:podNames:- elastic-training-worker-1

运行一个缩容示例,指定数量缩容 1 个 worker:

kubectl create -f examples/scale_in_count.yaml

检测缩容执行状态和训练任务:

# kubectl get scalein
NAME                                     PHASE            AGE
scalein-sample-t8jxd                     ScaleSucceeded   11s# kubectl get po
NAME                                      READY   STATUS             RESTARTS   AGE
elastic-training-launcher                 1/1     Running            0          47s
elastic-training-worker-0                 1/1     Running            0          50s

4. 扩容训练任务

在 ScaleOut CR 中,通过 spec.toAdd.count 字段指定扩容的 worker 数:

apiVersion: kai.alibabacloud.com/v1alpha1kind: ScaleOutmetadata:name: elastic-training-scaleout-9dtmwnamespace: defaultspec:selector:name: elastic-trainingtimeout: 300toAdd:count: 2

运行示例:

kubectl create -f examples/scale_out.yaml

检测缩容执行状态和训练任务:

kubectl get scaleout
NAME                                     PHASE            AGE
elastic-training-scaleout-9dtmw          ScaleSucceeded   30s
kubectl get po
NAME                                      READY   STATUS             RESTARTS   AGE
elastic-training-launcher                 1/1     Running            0          2m5s
elastic-training-worker-0                 1/1     Running            0          2m8s
elastic-training-worker-1                 1/1     Running            0          40s
elastic-training-worker-2                 1/1     Running            0          40s

总结

ET-Operator 提供一组训练和扩缩容 CRD 和 Controller, 让我们在 Kubernetes 上方便地运行弹性分布式训练,支持下发分布式训练任务,并通过和分布式框架的集成联动,在训练任务运行过程中动态地扩容和缩容参与运算的 Workers。使我们的训练任务具有弹性能力,结合抢占实例,能够更好的利用云上的资源弹性和性价比优势。

原文链接:https://developer.aliyun.com/article/781938?

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

在 Kubernetes 上弹性深度学习训练利器 - Elastic Training Operator相关推荐

  1. 在 Kubernetes 上弹性深度学习训练利器 -- Elastic Training Operator

    作者 | 徐晓舟(萧元) 来源|阿里巴巴云原生公众号 背景 由于云计算在资源成本和弹性扩容方面的天然优势,越来越多客户愿意在云上构建 AI 系统,而以容器.Kubernetes 为代表的云原生技术,已 ...

  2. ElasticDL:首个基于 TensorFlow 实现弹性深度学习的开源系统

    9 月 11 日,蚂蚁金服开源了 ElasticDL 项目,据悉这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统. Google Brain 成员 Martin Wicke 此前在公 ...

  3. 听Alluxio小姐姐讲述:Alluxio云上K8S部署如何加速深度学习训练

    Alluxio云上K8S部署如何加速深度学习训练 在2021 Alluxio Day V中,Alluxio核心研发工程师邱璐,为我们带来[Alluxio云上K8S部署如何加速深度学习训练]的分享 邱璐 ...

  4. 北京/上海内推 | 商汤科技SenseParrots团队招聘深度学习训练框架产品经理

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 商汤科技 商汤科技成立于 2014 年,是一家人工智能软件公司.我们以&q ...

  5. 深度干货!如何将深度学习训练性能提升数倍?

    作者 | 车漾,阿里云高级技术专家 顾荣,南京大学副研究员 责编 | 唐小引 头图 | CSDN 下载自东方 IC 出品 | CSDN(ID:CSDNnews) 近些年,以深度学习为代表的人工智能技术 ...

  6. 深入云原生 AI:基于 Alluxio 数据缓存的大规模深度学习训练性能优化

    作者 | 车漾(阿里云高级技术专家).顾荣(南京大学 副研究员) 导读:Alluxio 项目诞生于 UC Berkeley AMP 实验室,自开源以来经过 7 年的不断开发迭代,支撑大数据处理场景的数 ...

  7. 阿里云原生实践:基于 Alluxio 数据缓存的大规模深度学习训练性能优化

    导读:Alluxio 项目诞生于 UC Berkeley AMP 实验室,自开源以来经过 7年的不断开发迭代,支撑大数据处理场景的数据统一管理和高效缓存功能日趋成熟.然而,随着云原生人工智能(Clou ...

  8. 用TVM在硬件平台上部署深度学习工作负载的端到端 IR 堆栈

    用TVM在硬件平台上部署深度学习工作负载的端到端 IR 堆栈 深度学习已变得无处不在,不可或缺.这场革命的一部分是由可扩展的深度学习系统推动的,如滕索弗洛.MXNet.咖啡和皮托奇.大多数现有系统针对 ...

  9. TensorRT深度学习训练和部署图示

    TensorRT深度学习训练和部署 NVIDIA TensorRT是用于生产环境的高性能深度学习推理库.功率效率和响应速度是部署的深度学习应用程序的两个关键指标,因为它们直接影响用户体验和所提供服务的 ...

最新文章

  1. 「技术综述」如何降低遮挡对人脸识别的影响
  2. Android 设备管理API概览(Device Administration API)
  3. 15个月纪念,开心!
  4. HDU OJ 动态规划46题解析
  5. qtwebengineprocess已停止工作_windows资源管理器总是停止工作
  6. 手动为linux系统添加新用户——过程详解
  7. android 使用so库,Android 使用SO库
  8. 基姆拉尔森公式--判断星期几
  9. ext2、ext3、ext4文件系统区别
  10. 数学笔记(四)线性代数知识点总结
  11. html制作网页毕业论文,网页设计与制作 (毕业论文)
  12. 华为2019实习生专业面试经历——通信算法工程师
  13. 怎么实现word自动分级标题
  14. 王彦霖艾佳妮婚纱大片,校园牵手漫步,女方秀心形婚戒
  15. mysql扫盲篇_MySQL小白扫盲(一)
  16. linux mint 划动鼠标快捷截图
  17. 创造与魔法维护服务器奖励,创造与魔法5月最新兑换码大全 创造与魔法礼包码2021及使用方法一览...
  18. 第三届全国中医药院校大学生程序设计竞赛题解
  19. java base是什么文件_JavaBase 面向对象
  20. 手机如何打开开发者选项

热门文章

  1. Github年度人气最高的TOP10 Python项目
  2. ggbiplot设置分组_R语言安装ggbiplot
  3. python3.7如何使用enum_Python3.4 枚举类型的使用
  4. 珠宝管理系统java,基于jsp的珠宝首饰进销存管理系统-JavaEE实现珠宝首饰进销存管理系统 - java项目源码...
  5. 大学c语言课程及答案,某大学《C语言程序设计》课程考试试卷(含答案).doc
  6. 笔算除法 c语言,《两、三位数除以一位数,笔算》
  7. lesson1-python3运算符
  8. bootstrap学习(四)输入框、导航
  9. 网络流(3)——找到最小st-剪切
  10. python学习笔记之迭代器