背景信息

基于业务团队(Cloud BU 应用平台)在开发Serverless引擎框架的过程中完成的K8s Cluster Autoscaler华为云插件。 目前该插件已经贡献给了K8s开源社区,见下图:

本文将会涉及到下述内容:

  1. 对K8s Cluster Autoscaler模块的架构和代码的Deep Dive,尤其是核心功能点的所涉及的算法的介绍。
  2. K8s Cluster Autoscaler 华为云插件模块的介绍。
  3. 作者本人参与K8s开源项目的一点心得。(如:何从开源社区获取信息和求助,在贡献开源过程中需要注意的点)

直入主题,这里不再赘述K8s的基本概念。

什么是K8s Cluster Autoscaler (CA)?

什么是弹性伸缩?

顾名思义是根据用户的业务需求和策略,自动调整其弹性计算资源的管理服务,其优势有:

  1. 从应用开发者的角度:能够让应用程序开发者专注实现业务功能,无需过多考虑系统层资源
  2. 从系统运维者的角度:极大的降低运维负担, 如果系统设计合理可以实现“零运维”
  3. 是实现Serverless架构的基石,也是Serverless的主要特性之一

在具体解释CA概念之前,咋们先从宏观上了解一下K8s所支持的几种弹性伸缩方式(CA只是其中的一种)。

K8s支持的几种弹性伸缩方式:
注: 为了描述精确性,介绍下面几个关键概念时,先引用K8S官方解释镇一下场 :)。"简而言之"部分为作者本人的解读。

VPA (Vertical Pod Autoscaler)

A set of components that automatically adjust the amount of CPU and memory requested by Pods running in the Kubernetes Cluster. Current state - beta.

简而言之: 对于某一个POD,对其进行扩缩容(由于使用场景不多,不做过多介绍)

HPAHorizontal Pod Autoscaler) - Pod级别伸缩

A component that scales the number of pods in a replication controller, deployment, replica set or stateful set based on observed CPU utilization (or, with beta support, on some other, application-provided metrics).

简而言之: 对于某一Node, 根据预先设置的伸缩策略(如CPU, Memory使用率某设定的阀值),增加/删减其中的Pods。

  • HPA伸缩策略:
    HPA依赖metrics-server组件收集Pod上metrics, 然后根据预先设定的伸缩策略(如:CPU使用率大于50%),来决定扩缩容Pods。计算CPU/Memory使用率时,是取所有Pods的平均值。关于具体如何计算的,点击此处有详细算法介绍。
    注:metrics-server默认只支持基于cpu和memory监控指标伸缩策略
  • HPA架构图:

    图中下半部门Prometheus监控系统和K8s Prometheus Adapter组件的引入是为了能够使用自定义的metrics来设置伸缩策略,由于不是本文的重点,这里不做过多介绍, K8s官方文档有个Walkthrough案例一步一步在实操中掌握和理解该模块。如果用户只需要依据cpu/memory的监控指标来设置伸缩策略,只要deploy默认的metrics-server组件(其安装对K8s来说就是一次deployment,非常方便, 上面的链接里有安装步骤)

CA (Cluster Autoscaler)- Node级别伸缩

A component that automatically adjusts the size of a Kubernetes Cluster so that: all pods have a place to run and there are no unneeded nodes.

简而言之: 对于K8S集群,增加/删除其中的Nodes,达到集群扩缩容的目的。

Kubernetes(K8s) Cluster Autoscaler(CA)模块源码解析:

前面做了这么多铺垫,是时候切入本文主题了。下面我将主要从架构代码两个维度来揭开CA模块的神秘面纱,并配合FAQ的形式解答常见的问题。

CA整体架构及所含子模块

如上图所示, CA模块包含以下几个子模块, 详见K8S CA模块在Github的源码

  • autoscaler: 核心模块,包含核心Scale Up和Scale Down功能(对应Github里 core Package)。
  1. 在扩容时候:其ScaleUp函数会调用estimator模块来评估所需节点数
  2. 在缩容时:其ScaleDown函数会调用simulator模块来评估缩容的节点数
  • estimator: 负责计算扩容需要多少Node (对应Github里 estimator Package)
  • simulator: 负责模拟调度,计算缩容节点 (对应Github里 simulator Package)
  • expander: 负责扩容时,选择合适的Node的算法 (对应Github里 expander Package),可以增加或定制化自己的算法
  • cloudprovider: CA模块提供给具体云提供商的接口 (对应Github里cloudprovider Package)。关于这个子模块后面也会着重介绍,也是我们华为云cloudprovider的扩展点。
  1. autoscaler通过该模块与具体云提供商对接(如上图右下角方框所示 AWS, GCE等云提供商),并可以调度每个云提供商提供的Node.
  2. cloudprovider预先设定了一些列接口,供具体的云提供商实现,来完成调度其提供的Node的目的

通过对K8s CA模块的架构和源码的织结构的介绍,我总结有以下几点最佳实践值得学习和借鉴, 可以适用在任何编程语言上:

  1. SOLID设计原则无处不在,具体反映在:

    1. 每个子模块仅负责解决某一特定问题 - 单一职责
    2. 每个子模块都预留有扩展点 - 开闭原则
    3. 每个子模块的接口隔离做的很清晰 - 接口分离原则
  2. 清晰的子模块包的组织结构
  3. 插件式的扩展点设计

关于CA模块的用户常见问题

  1. CA和k8s其他弹性伸缩方式的关系?

    1. VPA更新已经存在的Pod使用的resources
    2. HPA更新已经存在的Pod副本数
    3. 如果没有足够的节点在可伸缩性事件后运行POD,则CA会扩容新的Node到集群中,之前处于Pending状态的Pods将会被调度到被新管理的node上
  2. CA何时调整K8S集群大小?
    1. 何时扩容: 当资源不足,Pod调度失败,即存在一直处于Pending状态的Pod(见下页流程图), 从Cloud Provider处添加NODE到集群中
    2. 何时缩容: Node的资源利用率较低,且Node上存在Pod都能被重新调度到其它Node上去
  3. CA多久检查一次Pods的状态?
    CA每隔10s检查是否有处于pending状态的Pods
  4. 如何控制某些Node不被CA在缩容时删除?
    1. Node上有Pod被PodDisruptionBudget控制器限制。PodDisruptionBudgetSpec
    2. Node上有命名空间是kube-system的Pods。
    3. Node上Pod被Evict之后无处安放,即没有其他合适的Node能调度这个pod
    4. Node有annotation: “cluster-autoscaler.kubernetes.io/scale-down-disabled”: “true”
    5. Node上存有如下annotation的Pod:“cluster-autoscaler.kubernetes.io/safe-to-evict”: “false”.点击见详情

若想更进一步了解和学习,请点击这里查看更完整的常见问题列表及解答。

CA模块源码解析

由于篇幅关系,只对核心子模块深入介绍,通过结合核心子模块与其他子模块之间如何协调和合作的方式顺带介绍一下其他的子模块。

CA模块整体入口处

程序启动入口处:kubernetes/autoscaler/cluster-autoscaler/main.go

CA的autoscaler子模块

如上图所示,autoscaler.go是接口,其默认的实现是static_autoscaler.go, 该实现会分别调用scale_down.go和scale_up.go里的ScaleDown以及ScaleUp函数来完成扩缩容。

那么问题来了,合适ScaleUp和ScaleDown方法会被调用呢,咋们按照顺序一步一步来捋一下, 回到CA整体入口,那里有一个RunOnce(在autoscaler接口的默认实现static_autoscaler.go里)方法,会启动一个Loop 一直运行listen和watch系统里面是否有那些处于pending状态的Pods(i.e. 需要协助找到Node的Pods), 如下面代码片段(static_autoscaler.go里的RunOnce函数)所示, 值得注意的是,在实际调用ScaleUp之前会有几个 if/else 判断是否符合特定的条件:

对于ScaleDown函数的调用,同理,也在RunOnce函数里, ScaleDown主要逻辑是遵循如下几步:

  1. 找出潜在的利用率低的Nodes (即代码里的scaleDownCandidates数组变量)
  2. 然后为Nodes里的Pods找到“下家”(即可以被安放的Nodes,对应代码里的podDestinations数组变量)
  3. 然后就是下面截图所示,几个if/else判断符合ScaleDown条件,就执行TryToScaleDown函数

通过上面的介绍结合代码片段,我们了解到何时ScaleUp/ScaleDown函数会被调用。接下来,我们来看看当这两个核心函数被调用时,里面具体都发生了什么。

先来看一下ScaleUp:

从上图代码片段,以及我里面标注的注释,可以看到,这里发生了下面几件事:

  1. 通过cloudprovider子模块(下面专门介绍这个子模块)从具体云提供商处获取可以进行扩容的的NodeGroups
  2. 把那些Unschedulable Pods按照扩容需求进行分组(对应上面代码里的对buildPodEquivalenceGroups函数的调用)
  3. 把第1步得到的所有可用的NodeGroups和第2步得到的待分配的Pods, 作为输入,送入给estimator子模块的装箱算法(该调用发生对上图中computeExpansionOption函数调用内部) ,得到一些候选的Pods调度/分配方案。由于estimator子模块的核心就是装箱算法,下图就是实现了装箱算法的Estimate函数,这里实现有个小技巧,就是算法开始之前,先调用calculatePodScore把两维问题降为一维问题(即Pod对CPU和Memory的需求),然后就是传统的装箱算法,两个for loop来给 Pods找到合适的Node. 至于具体如何降维的,详见binpacking.estimator.go里的calculatePodScore函数源码
  4. 把第3步得到的一些方案,送入给 expander子模块,得到最优的分配方案(对应代码片段中ExpanderStrategy.BestOption的函数调用)expander提供了下面截图中的集中策略,用户可以通过实现expander接口的BestOption函数,来实现自己的expander策略

CA的cloudprovider子模块

与具体的云提供商(i.e. AWS, GCP, Azure, Huawei Cloud)对接来对对应云平台上的Node Group(有的云平台叫Node Pool)里的Node进行增删操作已达到扩缩容的目的。其代码对应于与之同名的cloudprovider package。详见Github代码。 没个云提供商,都需要按照k8s约定的方式进行扩展,开发自家的cloudprovider插件,如下图:

下文会专门介绍华为云如何扩展该模块的

华为云cloudprovider插件开发及开源贡献心得

华为云cloudprovider插件如何扩展和开发的?

下图是华为cloudprovider插件的大致的代码结构, 绿色框里是SDK实际是对CCE(云容器引擎 CCE) 进行必要操作所需要的 (对Node Pool/Group里的Node 进行增加和删除)。 按理说我们不需要自己写这一部分,不过由于咋们云CCE 团队的SDK实在是不完善,所以我们开发了一些必要的对CCE进行操作的SDK。重点是红色框中的代码:

huaweicloud_cloud_provider.go是入口处,其负责总huaweicloud_cloud_config.go读取配置,并实例化huaweicloud_manager.go对象。huaweicloud_manager.go对象里通过调用蓝色框部门里的CCE SDK来获取CCE整体的信息。 CCE整体的信息被获取到后,可以调用huaweicloud_node_group.go 来完成对该CCE绑定的Node Group/Pool进行Node的扩缩容已达到对整体CCE的Node伸缩。

如何从开源社区获取所需资源及开源过程中需要注意的点?

我刚开始接受该项目的时候,一头雾水,不知道该如何下手。K8s关于这一块的文档写的又不是很清楚。以往的经验以及K8s Github README中提供的信息,我加入他们的Slack组织,找到相应的兴趣组channel( 对应我的情况就是sig-autoscaling channel),提出了我的问题(如下面截图)。 基于K8s代码仓的大小,如果没找到合适的扩展点,几乎无法改动和扩展的。

划重点: 现在几乎所有的开源组中都有Slack群组,加入找到相应的兴趣组,里面大牛很多,提出问题,一般会有人热心解答的。 邮件列表也可以,不过我认为Slack高效实时一点,强烈推荐。对于我本人平常接触到的开源项目,我一般都会加入到其 Slack中,有问题随时提问。 当然,中国贡献的开源项目,好多以微信群的方式沟通 :)譬如咋们华为开源出去的微服务框架项目 ServiceComb,我也有加微信群。总之, 对于开源项目,一定要找到高效的和组织沟通的方式。

另外,对于贡献代码过程中,如果使用到了三方开源代码,由于版权和二次分发的问题,尽量避免直接包含三方源代码, 如果实在需要,可以对其进行扩展,并在新扩展的文件附上华为的版权信息与免责声明。 关于公司的具体要求和政策请参阅文件: 对外开源代码出口自检标准与指导书 以及 对外开源流程指导

点击关注,第一时间了解华为云新鲜技术~

重磅解读:K8s Cluster Autoscaler模块及对应华为云插件Deep Dive相关推荐

  1. Python-Excel 模块哪家强 #华为云·寻找黑马程序员#

    python操作excel 最原始的莫过于两位老牌黄金搭档xlrd xlwt了,针对二者的封装有如下模块: xlutils & xlrd & xlwt 为什么把这三个一起说? 首先,x ...

  2. 华为云K8S创新,Cloud 2.0的正确打开方式

    说起K8S(Kubernetes),恐怕和容器的崛起脱不了干系,这个基于容器技术的分布式架构最早源于Google开源的容器集群管理系统Borg.它可以在结合Docker技术的基础上,为容器化的应用提供 ...

  3. 重磅!K8S 1.18版本将内置支持SideCar容器。

    作者:justmine 头条号:大数据与云原生 微信公众号:大数据与云原生 创作不易,在满足创作共用版权协议的基础上可以转载,但请以超链接形式注明出处. 为了方便阅读,微信公众号已按分类排版,后续的文 ...

  4. centos7部署k8s Cluster

    centos7部署k8s Cluster 我们将部署三个节点的 Kubernetes Cluster k8s-m1 是 Master,k8s-n1 和 k8s-n2 是 Node. 所有节点的操作系统 ...

  5. 香港剑指全球虚拟资产桥头堡 多位资深专家重磅解读!

    10月31日,香港特区政府发表虚拟资产政策宣言,阐明政府为在香港发展具活力的虚拟资产行业和生态系统而订定的政策立场和方针.再加上香港最近频繁释放对 Web3行业的友好信号,行业从业者为之振奋.火讯财经 ...

  6. 重磅解读!ORB-SLAM3,它来了,新增鱼眼模型、多地图等

    作者:薛柯翰 来源:公众号@3D视觉 工坊 链接:重磅解读!ORB-SLAM3,它来了,新增鱼眼模型.多地图等 原论文: ORB-SLAM3: An Accurate Open-Source Libr ...

  7. 解读Autoware.Universe规划模块:Behavior Path Planner

    解读Autoware.Universe规划模块:Behavior Path Planner 前言 文章列表 行为路径规划器(Behavior Path Planner) 目的(Purpose) 场景( ...

  8. 左手自研,右手开源,技术解读华为云如何领跑容器市场

    摘要:云原生浪潮下,容器技术是串联起整个云原生世界的关键一环. 本文分享自华为云社区<左手自研,右手开源,技术揭秘华为云如何领跑容器市场>,作者:华为云社区精选. 近日,IDC 发布的&l ...

  9. 【年度重磅】2020华为云社区年度技术精选合集,700页+免费下载!

    摘要:[免费下载]华为云社区年度技术精选集,700页+PDF送你啦!愿牛年少踩坑. 技术人的年货来了!点我带回家! 年度技术精选合集[上]:https://bbs.huaweicloud.com/bl ...

最新文章

  1. SAP MM 采购申请单据ITEM数据里的Closed标记
  2. tomcat集群 (自带Cluster集群)
  3. ASP.NET Core教程【一】关于Razor Page的知识
  4. 泛型Dictionary的用法详解
  5. 判断滚动条是否到达页面的尾部
  6. java 轮询请求接口_js调用轮询接口
  7. spring boot整合shiro继承redis_spring-boot-plus集成Shiro+JWT权限管理
  8. python实现将文件夹下文件随机移动指定数量到另一个文件夹下
  9. 外星人电脑为什么那么贵_为什么百丽的鞋那么贵
  10. 【技术帖】Mysql The 'InnoDB' feature is disabled; you n
  11. 教师资格证科目一的法律重点总结
  12. Android-NuPlayer音视频同步之安卓Q新功能
  13. Elastix2.4安装、中继、 呼出、呼入、IVR等设置、忘记密码、端口映射
  14. 每日一句api Android,Android 图文数据JSON解析,金山词霸每日一句API的调用
  15. html网页设置音频,HTML教程 - 插入声音和音乐到HTML页面里
  16. 计算机键盘按键失灵,电脑键盘失灵怎么办?4个小技巧解决电脑键盘失灵问题...
  17. error lnk2005解决办法
  18. 大规模语言模型微调技术——Instruction和Question的区别和联系
  19. python_词典练习1 词典
  20. Springboot访问静态文件的问题(WebContent)

热门文章

  1. Bootstrap 警告框
  2. ECMAScript 的部署进度
  3. 结构变量的定义和引用
  4. 十八.多个SLAM框架(A-LOAM、Lego-loam、LIO-SAM、livox-loam)室外测试效果粗略对比分析
  5. matlab 判断两个矩阵有元素相等_如何使用MATLAB对Excel中的多参数进行计算?
  6. 如何设置mysql字符集支持utf-8 和gbk_如何设置Mysql数据库默认的字符集编码为GBK...
  7. android新闻客户端发展趋势,基于Android平台的新闻客户端设计与实现
  8. matlab考试题烟台大学,徐骞-计算机控制与工程学院
  9. python解题教学_PYTHON教学设计:计算机解决问题的过程教案-精.doc
  10. foreach输出mysql方法_mysql – “foreach”循环:使用R中的所有核心(特别是如果我们在foreach循环中发送sql查询)...