作者:元毅、子白

导读

在云原生容器时代,用户需要面对不同的业务场景:周期性的业务,Serverless 按需使用等。在使用自动弹性中, 会发现这样或那样的问题,其中最需要关注的是弹性滞后、冷启动问题。阿里巴巴云原生团队和阿里达摩院决策智能时序团队合作开发 AHPA 弹性预测产品,该产品主要出发点是基于检测到的周期做“定时规划”,通过规划实现提前扩容的目的,在保证业务稳定的情况下,让你真正实现按需使用。

背景

用户对云弹性能力的期望越来越高,这个期望主要来自两方面。一是云原生概念的崛起,从 VM 时代到了容器时代,云的使用模式正在发生变化。二是新型业务模式的崛起,这些崛起的新型业务模式在设计之初就是基于云来建构的,天然就有对弹性的诉求。

有了云,用户不再需要自己从物理机、机房搭建基础设施,云给用户提供了非常弹性的基础设施。云的最大优势就是可以给用户提供弹性的资源供给,特别是到了云原生时代,用户对弹性的诉求也越来越强烈。弹性需求强度在 VM 时代还是人工操作分钟级别的,在容器时代,已经达到秒级的要求,用户面对不同的业务场景,对云的期望和要求也正在发生变化:

  • 周期性的业务场景: 新型业务比如直播、在线教育和游戏,这些业务有一个很大的共同点就是有非常明显的周期性,这种周期性促使客户思考面向弹性的业务架构。再加上云原生的理念很自然的就想到按需弹起一批服务起来,用完就释放。

  • Serverless 的到来: Serverless 的核心理念是按需使用,自动弹性。用户不需要容量规划。但当你真正开始使用 Serverless 的时候,会发现这样或那样的问题,其中最需要关注的是弹性滞后、冷启动问题。对于响应时延敏感的业务,这是不可接受的。

那么面对上面的场景,当前 Kubernetes 中现有的弹性方案是否可以解呢?

传统弹性方案面临的问题

一般在 Kubernetes 中管理应用实例数有三种方式:固定实例数、HPA 和 CronHPA 。使用最多的是固定实例数,固定实例数最大的问题就是在业务波谷时造成很明显的资源浪费。为了解决资源浪费的问题所以有了 HPA,但 HPA 的弹性触发是滞后的,这就导致资源的供给也会滞后,资源不能及时供给可能会导致业务稳定性下降。CronHPA 可以定时伸缩,看起来可以解决弹性滞后的问题,但具体定时粒度有多细、业务量有变化时需要频繁地手动调节定时弹性策略吗?如果这样做,这就会带来非常繁重的运维复杂度,也很容易出错。

AHPA 弹性预测

AHPA(Advanced Horizontal Pod Autoscaler)弹性预测主要出发点是基于检测到的周期做“定时规划”,通过规划实现提前扩容的目的。但既然是规划就会有疏漏,所以需要对规划的实例数有一个实时调整的能力。所以本方案有两个弹性策略:主动预测和被动预测。主动预测基于达摩院 RobustPeriod 算法[1] 识别周期长度然后利用RobustSTL 算法[2] 提起出周期性趋势,主动预测下个周期应用的实例数量;被动预测基于应用实时数据设定实例数量,可以很好的应对突发流量。此外,AHPA 还增加了兜底保护策略,用户可以设置实例数量的上下界。AHPA 算法中最终生效的实例数是主动预测、被动预测及兜底策略中的最大值。

架构

弹性首先是要在业务稳定的情况下进行的,弹性伸缩的核心目的不仅是帮用户节省成本,更是增强业务的整体稳定性、免运维能力和构建核心竞争力。AHPA 架构设计的基本原则:

  • 稳定性: 保证用户服务稳定的情况下进行弹性伸缩

  • 免运维: 不给用户增加额外的运维负担,包括:不在用户侧增加新的 Controller、Autoscaler 配置语义比 HPA 更清晰

  • 面向 Serverless: 以应用为中心,面向应用维度的设计,用户无需关心实例个数的配置,按需使用、自动弹性。

架构如下:

  • 丰富的数据指标: 支持包括 CPU、Memory、QPS、RT 以及外部指标等

  • 稳定性保障: AHPA 的弹性逻辑基于主动预热、被动兜底的策略,并结合降级保护,保证了资源稳定。

    • 主动预测:根据历史预测出未来一段时间的趋势结果,适用于周期性的应用。
    • 被动预测:实时预测。针对突发流量场景,通过被动预测实时准备资源。
    • 降级保护:支持配置多个时间区间范围最大、最小实例。
  • 多种伸缩方式: AHPA 支持伸缩方式包括 Knative、HPA 以及 Deployment:

    • Knative:解决 Serverless 应用场景下,基于并发数/QPS/RT 弹性冷启动的问题
    • HPA:简化 HPA 弹性策略配置,降低用户使用弹性的门槛,解决使用 HPA 面临的冷启动的问题
    • Deployment:直接使用 Deployment,自动扩缩容

适应场景

AHPA 适应场景包括:

  • 有明显周期性场景。如直播、在线教育、游戏服务场景等
  • 固定实例数+弹性兜底。如常态业务下应对突发流量等
  • 推荐实例数配置场景

预测效果

开启 AHPA 弹性后,我们提供可视化页面,用于查看 AHPA 效果。下面是一个基于 CPU 指标进行预测的示例(与使用 HPA 比较):

说明:

  • Predict CPU Oberserver:蓝色表示 HPA 实际的 CPU 使用量,绿色表示预测出来的 CPU 使用量。绿色曲线大于蓝色,表明通过预测给出的容量是足够的。

  • Predict POD Oberserver:蓝色表示使用 HPA 实际的扩所容 Pod 数,绿色表示预测出来的扩所容 Pod 数,绿色曲线小于蓝色,表明通过预测弹性的 Pod 数更低。
  • 周期性:根据历史 7 天的数据,通过预测算法检测到该应用具备周期性。

结论:预测结果表明,弹性预测趋势符合预期。

邀测试用

点击​​此处​​查看阿里云容器服务 AHPA 弹性预测产品文档详情。当前 AHPA 已开启用户邀测,欢迎感兴趣的用户点击文档中“提交工单”位置申请白名单,期待您的试用及反馈。

参考文献

[1] (阿里达摩院决策智能时序团队) Qingsong Wen, Kai He, Liang Sun, Yingying Zhang, Min Ke, and Huan Xu. RobustPeriod: Robust Time-Frequency Mining for Multiple Periodicity Detection, in Proc. of 2021 ACM SIGMOD/PODS International Conference on Management of Data (SIGMOD 2021), Xi’an, China, Jun. 2021.

[2] (阿里达摩院决策智能时序团队) Qingsong Wen, Jingkun Gao, Xiaomin Song, Liang Sun, Huan Xu, Shenghuo Zhu. RobustSTL: A Robust Seasonal-Trend Decomposition Algorithm for Long Time Series, in Proc. of the 33rd AAAI Conference on Artificial Intelligence (AAAI 2019), 2019, pp. 5409-5416, Honolulu, Hawaii, Jan. 2019.

[3] (阿里达摩院决策智能时序团队) Qingsong Wen, Zhe Zhang, Yan Li and Liang Sun. Fast RobustSTL: Efficient and Robust Seasonal-Trend Decomposition for Time Series with Complex Patterns, in Proc. of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD 2020), San Diego, CA, Aug. 2020.

AHPA:开启 Kubernetes 弹性预测之门相关推荐

  1. 阿里云与达摩院合作 AHPA 弹性预测论文被顶会 ICDE 录用

    近日,阿里云容器服务团队与达摩院数据决策团队合作的论文<RobustScaler: QoS-Aware Autoscaling for Complex Workloads>被数据管理与数据 ...

  2. Kubernetes 弹性伸缩全场景解读(二)- HPA 的原理与演进

    前言 在上一篇文章 Kubernetes 弹性伸缩全场景解析 (一):概念延伸与组件布局中,我们介绍了在 Kubernetes 在处理弹性伸缩时的设计理念以及相关组件的布局,在今天这篇文章中,会为大家 ...

  3. Kubernetes 弹性伸缩全场景解读(五) - 定时伸缩组件发布与开源

    作者| 阿里云容器技术专家刘中巍(莫源) 导读:Kubernetes弹性伸缩系列文章为读者一一解析了各个弹性伸缩组件的相关原理和用法.本篇文章中,阿里云容器技术专家莫源将为你带来定时伸缩组件  kub ...

  4. Kubernetes弹性伸缩与监控

    kubernetes的弹性伸缩 kubernetes 监控 cadvisor kubernetes内置监控系统 为了解决docker stats的问题(存储.展示),谷歌开源的cadvisor诞生了, ...

  5. lol手游内测服务器什么时候维护好,LOL手游第二次内测开启?网友预测:正式服春节前可以上线...

    原标题:LOL手游第二次内测开启?网友预测:正式服春节前可以上线 相信有一直关注LOL手游动向的玩家都知道,官方再次放出大招,打破网络哪些没有实质证据的谣言,最近很多人都在说,究竟LOL手游能不能在今 ...

  6. Kubernetes 弹性伸缩全场景解析(三) - HPA 实践手册

    在上一篇文章中,给大家介绍和剖析了 HPA 的实现原理以及演进的思路与历程.本文我们将会为大家讲解如何使用 HPA 以及一些需要注意的细节. autoscaling/v1 实践 v1 的模板可能是大家 ...

  7. Kubernetes 弹性伸缩全场景解析 (一):概念延伸与组件布局

    传统弹性伸缩的困境 弹性伸缩是 Kubernetes 中被大家关注的一大亮点,在讨论相关的组件和实现方案之前.首先想先给大家扩充下弹性伸缩的边界与定义,传统意义上来讲,弹性伸缩主要解决的问题是容量规划 ...

  8. Kubernetes 弹性伸缩全场景解析 (四)- 让核心组件充满弹性

    前言 在本系列的前三篇文章中,我们介绍了弹性伸缩的整体布局以及 HPA 的一些原理,HPA 的部分还遗留了一些内容需要进行详细解析.在准备这部分内容的期间,会穿插几篇弹性伸缩组件的最佳实践.今天我们要 ...

  9. 容器服务kubernetes弹性伸缩高级用法

    前言 近期,阿里云容器服务kubernetes发布了cluster-autoscaler的支持,开发者可以通过页面简单快捷的配置节点的弹性伸缩,支持普通实例.GPU实例以及竞价实例帮助开发者实现架构弹 ...

最新文章

  1. 【转载】解决Windows和Ubuntu时间不一致的问题
  2. 在myeclipse中建立maven项目
  3. 常见的C语言字符串操作
  4. php如何提高程序运行效率,如何提高PHP的运行效率 | 萧小寒
  5. TQ210——核心板和底板
  6. 好的产品经理都是这样绘制原型图的...
  7. 我花了一年时间来学机器学习
  8. 中国农用喷洒机行业市场供需与战略研究报告
  9. mockito模拟依赖注入_Mockito间谍–部分模拟
  10. suse mysql完全卸载_SUSE Linux下通过RPM方式卸载MySQL 5过程笔记
  11. 网络安全:SQL 注入漏洞
  12. python怎么打印路径,python 打印路径的几种结果
  13. WordPress绑定多个域名和禁止搜索引擎收录非主域名的方法
  14. Python制作gif动态图
  15. 大一上学期Python学习心得体会
  16. mac上使用nginx代理
  17. 算法学习——数字旋转方阵
  18. [HTML] HTML常见的元素
  19. 软件流程图及功能节点图
  20. 有关信息学竞赛的常见问题

热门文章

  1. python实现一个字典
  2. Dalvik指令集 (smali汇编)
  3. androidstudio 常用快捷键
  4. Python搭建静态web服务器
  5. 3.2.3 页面置换算法
  6. 多线程,你觉得你安全了?(线程安全问题)
  7. Thymeleaf显示表格
  8. Java有线程安全的set吗?
  9. 干掉 if 语句,一个不留的那种!
  10. 为什么程序员都不喜欢使用switch,而是大量的 if……else if ?