2022年11月10日,在中国信通院、腾讯云、FinOps产业标准工作组联合发起的《原动力x云原生正发声 降本增效大讲堂》系列直播活动第10讲上,腾讯Light云计算平台负责人魏巍分享了Eunomia云原生资源编排优化实践。本文整理自魏巍的分享。

云上资源优化背景

相较传统的IDC部署方式,容器化部署在物理硬件、操作系统之上增加了一层容器运行时。当前云上部署的APP及二进制等均运行在容器运行时之上,Eunomia编排器的作用范围也在于此。

我们认为,上云的过程中并没有新技术,更多是一种新部署理念的产生。在上云之后,应实现CPU、内存等资源利用率上升,成本大幅下降,然而当前上云时的资源浪费现象十分常见,造成浪费的原因可分为三种。

  • 应用资源使用设置不合理

云原生的资源管理方式要求应用在部署之前,需提前设置好CPU、内存、磁盘的最小和最大资源使用量,并且之后不能改动(除非重建所有实例),这就要求应用在正式上线前预估其资源需求。

线上的资源需求可以通过压测来模拟,但难免和实际情况有出入。此外,应用上线之后,其资源使用会随着业务、策略的动态更新而发生变化,因此在创建之初设置的资源使用量并不能很好地反映实际资源需求,容易造成资源浪费或资源不足。

  • 同类Pod各项资源有差异

在实际运行过程中,即使是相同的Pod,其CPU、内存、磁盘、网络等监控指标也会有很大的差异,极端情况下相差甚至会高达60%,有时还会有大部分Pod的CPU利用率低、个别Pod的CPU利用率却长期在90%以上的情况产生。对此最稳妥的解决方式是扩容,但这会造成资源的大量浪费。

  • 多维度空闲资源碎片化严重

集群在运行一段时间后,随着节点不断上、下架,Pod不断扩、缩容,会有越来越多的空闲资源分散在整个集群中,此类多维度闲散资源通常难以集中并下架,最终会造成资源的浪费。

资源使用的痛点、难点

  • 突发流量洪峰导致资源不足

游戏安全服务在正常运行时有着明显的周期性,并且周期与周期之间峰值变化不大,一般情况下晚上九、十点流量最高,后半夜流量最低。但是在某些突发情况下(突发性热点、大型节假日等),服务的请求量会在短时间内大幅上涨,造成资源不足,影响服务正常运行产生告警。

  • 资源维度有限

原生的调度策略只基于CPU、内存、磁盘三个维度来判断节点资源是否充足。然而实际情况下,磁盘IO、网络IO、连接数、定时器等资源同样是决定业务是否正常运行的关键,因此资源维度的匮乏会对业务正常的保障造成影响。

为了解决资源浪费与使用时的痛点,业界有诸多不同的解决方案,如HPA、超卖等。

  • HPA:基于业务实际运行的性能指标(一般位CPU)自动变更Pod数量;
  • 超卖:基于节点监控,按一定比例提升CPU或Mem可分配资源上限;
  • 反亲和性:设置Pod反亲和属性,使得相同Pod尽量部署在不同节点,优化均衡性;
  • 在离线混部:在同一集群混合部署在离线业务,离线业务在在线业务的低峰期扩容,提高低峰期利用率;
  • Deschedule:定期扫描节点资源和部署情况,通过驱逐Pod平均节点负载以及均衡Pod部署;
  • Dynamic Scheduler:基于节点实际负载调度Pod,优先调度到低负载节点,优化均衡性;
  • 高低水位线:设置高低水位线,扩容时Pod优先调度到负载处于高低水位线之间的节点,缩容时优先部署在低水位线下节点的Pod。

Eunomia的实践经验

Eunomia主要由预测模型、求解器以及调度器三大模块组成。

  • 预测模型

对于游戏安全的实时计算业务,资源使用往往具备明显的周期性且周期之间变动不大,因此可以基于Pod的历史监控数据预测未来的资源使用情况,以解决资源设置不合理问题。

  • 求解器

如果把预测的Pod模型看做物品、Node看做箱子,那么资源优化问题就可以转化为一个多维度的装箱问题,我们可以从各个角度、根据项目的实际需求来求解最优的装箱方案。

  • 调度器

根据求解器给出的部署方案,再结合业务的可调度性和现有集群的部署现状,可以利用Kuhn-Munkres算法优化调度代价,对集群实施离线、实时等调度策略。

整体工作流程

预测模型

在做预测之前,首先需要找到模型是什么,这就面临“找到模型基准值”的挑战。

对于实时在线集成业务,由于在成本核算时CPU权重较大,所以这里仅以CPU的利用率来分析模型的基准值。如果业务特征不同、维度不同,则应该采用不同的方式来锚定基准值。

为了达到80%的CPU整机利用率,我们首先采集了各Pod 的95日峰值,并对其进行集中部署。虽然各Pod集中部署在了同一节点,但在实际运行中,由于其CPU并不在同一时刻达到峰值,CPU的整机利用率依旧不达预期,相差达30%。

Node实测值CPU的整机利用率 < 51%

曲线对比(绿:Node实测值、其他:各Pod曲线)

于是,我们更新使用带时间序列的高维模型(1H),在模型中引入时间维度,可以有效改善错峰情况。

Node实测值CPU的整机利用率 < 56%

曲线对比(红:Node实测值、橙:Pod 95峰值、绿:Pod总和、蓝:Pod平均数总和)

1H精度下,实际与理论仍有较大差距,所以我们在模型中引入高精度的时间维度,进一步提高精度到10M。

Node实测值CPU的整机利用率 < 63%

曲线对比
(红:Node实测值、橙:Pod平均数总和、绿:Pod总和、蓝:Pod 95峰值)

虽然精度已进一步提升至10M,聚集性更加明显,但可以看到距离CPU利用率80%的目标值仍有差异。

相同业务的不同Pod间的细粒度曲线

如上图所示,在细粒度的时间维度下,同一个业务不同实例间有着天然的巨大差异。此外,不同母机不尽相同的工况也会使Pod的表现存在差异。也就是说,期望精准的控制Pod是不切实际的。

若业务自身拥有巨大的不确定性,应使用能够削峰的曲线模型,采用中位数的带高精度时间序列的高维模型(10M)无疑可以列入考量。

如下图所示,引入中位数后,消除了Pod的个性化差异,Node实测值已达到77%,初步达成目标要求,如果把目标设定为90%,也可以得到接近的实测值。

Node实测值CPU的整机利用率 < 77%

曲线对比
(绿线:pod 95峰值、橙线:node实测值、黄线:pod中位数、蓝线:pod总和)

预测模型的方法及比较

预测模型旨在基于Pod的历史多个周期资源监控数据,预测下个周期的资源使用数据,求解最优部署方案,有多种方式可以实现。

  • 方式一:直接使用历史数据

逻辑简单,可解释性好,但准确率低,相同类型Pod预测结果相同。

  • 方式二:周期因子法

逻辑简单,可解释性好,但无法预测趋势,只适合周期性场景,对节假日、活动等特殊场景无法建模。

  • 方式三:Prophet

预测准确率高,可综合考虑趋势项、周期项、节假日项等,同时可处理异常值和缺失值。但计算速度慢,预测结果存在波动,鲁棒性较差。

基于MAPE(Mean Absolute Percentage Error)评价指标,对未来两周的CPU进行预测,可以清晰地看到预测数值与实际数值具备很强的相似性

求解器

求解器的目标是把Pod用最优的排列方式部署到Node中,其中Node数量越少越好。与此同时,我们可以把业务调度需求转化为约束条件:

  1. CPU/Mem/Disk/Net等资源的均衡;
  2. 对业务进行反相似性和错峰部署;
  3. 业务自定义的Socket/定时器等资源做管理;
  4. 小核心/大核心业务的部署策略;
  5. 亲和性/非亲和性/反亲和性;
  6. 无损/有损业务的部署方案。

求解器组合优化的常见方法

调度器

在得到较好的部署方案后,需要在实践中对现有的集群进行迁移,可以通过三步实现。

  • 计算映射关系:计算当前集群的节点和部署方案的映射关系。
  • 无损驱逐:将节点上不符合部署方案的Pod驱逐。
  • 再调度:新创建的Pod按照调度方案部署到理想的节点。

计算映射关系

计算映射关系的目标是将当前集群节点和部署方案中的节点一一对应,使得对业务影响最小

  • 部署方案中的节点不一定按顺序和部署现状中的节点匹配。
  • 业务影响 = Pod调度代价。
  • 节点转换到不同部署方案所需的调度代价不同
    • 节点调度代价 = 当前多余Pod调度代价总和;
    • 多余Pod = 已部署的超出部署方案范围的Pod。

如下图所示,在计算时我们通常将集群节点和部署方案抽象为二分图,将计算映射关系转换成求解二分图的最佳匹配。

其中顶点集是集群节点和部署方案的节点,顶点集中的顶点两两之间各有一条匹配,匹配权重则是节点调度代价,最后形成当前集群节点和部署方案节点的映射关系。

无损驱逐

无损驱逐的目标是将不符合部署方案的Pod驱逐,并保证对业务服务无影响。在做无损驱逐时,服务可被分为无状态服务、弱状态服务及强状态服务三类。

  • 无状态服务:Pod立即停止对当前业务没有影响。

    • 业务支持灰度;
    • 调度时保证部分Pod正常运行(通过设置合理的就绪探针、存活探针判断运行状态)。

  • 弱状态服务:Pod立即停止对当前业务有一定影响,但不致命。

    • 业务支持灰度;
    • 调度时保证部分Pod正常运行(通过设置合理的就绪探针、存活探针判断运行状态);
    • 可以在低峰期调度。

  • 强状态服务:Pod立即停止对当前业务有影响,并且致命。

    • 业务支持灰度;
    • 调度时保证部分Pod正常运行(通过设置合理的就绪探针、存活探针判断运行状态);
    • 在低峰期调度;
    • 设置Prestop回调、捕获处理TERM信号;
    • 切断转发到Pod的流量。

再调度

再调度的目标是将新创建的Pod按照部署方案调度到理想的节点,一般基于Scheduling Framework,添加过滤和评分插件实现。

  • 过滤:基于资源及部署方案,分别过滤资源不足与不符合方案的节点。
  • 评分:优先部署方案内的节点,其次方案外的冗余节点。

成果展示

通过对某一集群做资源编排优化,可以在成本及稳定性等多个方面实现较大提升,如平均CPU利用率峰值可从28%增长至75%,告警可由88个/周降低至3个/周。此外,节点CPU利用率的周峰值均可达到80%以上。

优化前Vs.优化后

节点部署负载多样

不同负载节点间部署均衡

【原动力×云原生正发声降本增效大讲堂】第一期聚焦在优秀实践方法论、资源与弹性、架构设计;第二期聚焦全场景在离线混部、K8s GPU资源效率提升、K8s资源拓扑感知调度主题;第三期邀请4家业界知名企业分享各企业云原生降本增效技术实践,为开发者带来更多样化场景业务下的技术干货。点击『此处』进入活动专题页,带你体验云原生降本增效实践案例、了解如何解决企业用云痛点、掌握降本增效关键技能……

腾讯魏巍:Eunomia云原生资源编排优化相关推荐

  1. 腾讯TencentOS 十年云原生的迭代演进之路

    蒋彪,腾讯云高级工程师,10+年专注于操作系统相关技术,Linux内核资深发烧友.目前负责腾讯云原生OS的研发,以及OS/虚拟化的性能优化工作. 导语 TencentOS Server (又名 Ten ...

  2. 混部之殇-论云原生资源隔离技术之CPU隔离

    导语 混部,通常指在离线混部(也有离在线混部之说),意指通过将在线业务(通常为延迟敏感型高优先级任务)和离线任务(通常为 CPU 消耗型低优先级任务)同时混合部署在同一个节点上,以期提升节点的资源利用 ...

  3. 云原生数据编排厂商Alluxio获5000万美元C轮融资

    全球首创的开源云原生数据编排软件开发商Alluxio宣布完成5000万美元C轮融资,该轮融资由新投资方高瓴创投领投,战略投资方和原股东a16z.Seven Seas Partners.火山石投资跟投. ...

  4. 快速上手 Rook,入门云原生存储编排

    Rook 是一个开源 cloud-native storage orchestrator(云原生存储编排器),为各种存储解决方案提供平台.框架和支持,以与云原生环境进行原生集成. Rook 将存储软件 ...

  5. 腾讯牵头成立CSA云原生安全工作组,助力标准制定和产业落地

    2021年12月21日,CSA召开线上会议,正式宣布成立云原生安全工作组,腾讯和绿盟担任联合组长单位,中国工商银行.中国电信.浪潮云等安全技术使用方,深圳国家金融科技测评中心.广州赛宝认证中心等检测机 ...

  6. Fluid + GooseFS 助力云原生数据编排与加速快速落地

    前言 Fluid 作为基于 Kubernetes 开发的面向云原生存算分离场景下的数据调度和编排加速框架,已于近期完成了 v0.6.0 版本的正式发布.腾讯云容器 TKE 团队一直致力于参与 Flui ...

  7. 云上资源编排的思与悟

    简介: 在传统软件架构下,撇开业务层代码,都需要部署计算节点.存储资源.网络资源,然后安装.配置操作系统等.而云服务本质上是实现 IT 架构软件化和 IT 平台智能化,通过软件的形式定义这些硬件资源, ...

  8. 云上资源编排自动化管理

    资源编排是一种简单易用的云计算资源管理和自动化运维服务.用户通过模板描述多个云计算资源的依赖关系.配置等,并自动完成所有资源的创建和配置,以达到自动化部署.运维等目的.编排模板同时也是一种标准化的资源 ...

  9. 开源大数据:Alluxio 云原生数据编排

    Alluxio 官网 1.Alluxio概述 Alluxio的前身为Tachyon, Alluxio是一个基于内存的分布式文件系统,它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件,主 ...

  10. 硬核分析|腾讯云原生OS内存回收导致关键业务抖动问题

    实战系列: 精选各种常见的代表性实际问题,分享一步一步思考和解决方法,梳理整个问题脉络,可以学习到解决问题各种技巧和通用技能,锻炼解决问题思维能力,让大家成为解决问题的高手: 往期文章推荐: 一个刁钻 ...

最新文章

  1. jQuery中读取json文件示例代码
  2. 构建基于AgileEAS.NET应用开发平台的简单应用程序
  3. Sublime Text 2 和 Verilog HDL
  4. vu项目中按F5刷新element菜单没有根据路由匹配菜单解决办法
  5. MaterialDesign动画
  6. 双系统用wmware挂载linux,安装Windows 和 Linux双系统(vmware) Centos7
  7. 移动互联网开始降温:“人才热”退烧
  8. SpringBoot | 第十四章:基于Docker的简单部署
  9. SSH远程链接:SCP远程拷贝文件与文件夹
  10. 两款新iPhoneX终于要开始生产了,网友的反应却出人意料
  11. 计算机联锁车务仿真培训系统 casco模式,计算机联锁车务仿真培训系统简介(15页)-原创力文档...
  12. day25-python之继承组合
  13. html动感相册怎么转成视频,ps把相片或图片制作成一个动感的相册视频效果
  14. 鸿蒙系统基于java,鸿蒙系统基于Linux打造,其本质还是安卓系统?
  15. echarts柱状图图例设置
  16. 玲珑杯计算机大赛得奖作品,信阳师范学院学子在第14届中国大学生计算机设计大赛“玲珑杯”省级赛中获奖...
  17. 智能驾驶+多元化长尾应用场景,什么样的公司最终胜出?
  18. 【101】Convertio-百种存储格式在线转换工具
  19. 基于STM32的单词记忆测试器
  20. Spring Cloud之微服务概述

热门文章

  1. 网站服务器 网络速度测试,服务器访问速度怎么测试?
  2. Mac下使用虚拟专用网络
  3. chloe.mysql 源码_AceFx-基于Nfine的Chloe官网及后台源码
  4. 【Vue知识点】路由router详解
  5. react-router-dom v6 使用
  6. 操作系统复习:12.缺页中断以及内存页面置换算法
  7. Python-Pandas-Excel/CSV 数据处理大全整理 (二)
  8. oem是代工还是贴牌_oem与ODM有什么区别?
  9. BBS中用SSH方式登录添加附件
  10. 2018.6清北学堂day3下午笔记