简介: 今年双 11 首次规模化亮相的统一调度,通过一套调度协议、一套系统架构,统一管理底层的计算、存储、网络资源,超大规模、高效率、自动化的资源弹性,实现了业界新的突破。在离线混部、离在线混部、新的快上快下技术,减少数万台服务器采购,带来数亿计的资源成本优化和大促效率提升。

01 背景

统一调度项目 1.0 成功支持 2021 年双 11 大促,统一调度方案实现了从容器调度到快上快下全流程的全面升级和优化。项目组 100 多位核心成员,成功走过了立项、POC、方案评审设计、封闭开发测试、大促冲刺各个阶段,历经考验成功上线。

作为阿里巴巴的核心项目,阿里云(容器团队和大数据团队)联合阿里巴巴资源效能团队、蚂蚁容器编排团队,历时一年多研发和技术攻坚,实现了从“混部技术”到今天“统一调度技术”的全面升级。

今天,统一调度已实现阿里巴巴电商、搜推广、MaxCompute 大数据和蚂蚁业务的调度全面统一,实现了 pod 调度和 task 高性能调度的统一,实现了完整的资源视图统一和调度协同,实现了多种复杂业务形态的混部和利用率提升,全面支撑了全球数十个数据中心、数百万容器、数千万核的大规模资源调度。

云原生产品家族

02 统一调度技术全面升级

云计算的本质,就是把小的计算碎片变成更大的资源池,充分削峰填谷,提供极致的能效比。对数据中心低碳节能、绿色环保、科技发展、更高效运转的追求下,阿里巴巴对技术的探索永无止境。阿里的技术人有一个理想,让数据中心的算力成为水、电、气一样的基础设施,开箱即用。

为了让业务间峰谷互补的优势发挥到最大,过去我们构建了混部技术,打破多资源池的割裂,不同计算领域的多调度大脑协同共用资源;老一代的混部技术带来了资源的统一和利用率的巨大提升,但多调度器的本质让我们的追求受限。

阿里巴巴持续追求构建可支撑更多复杂任务无差别混部、极致弹性互补、领先的新一代调度技术,实现极致的全局最优调度,提供更高质量的算力。今年我们在技术上到达一个新的临界点,容器服务 ACK 牵头并协同众多团队,启动了基于 ACK 的新一代统一调度项目。

容器产品家族

今年双 11 首次规模化亮相的统一调度,通过一套调度协议、一套系统架构,统一管理底层的计算、存储、网络资源,超大规模、高效率、自动化的资源弹性,实现了业界新的突破。在离线混部、离在线混部、新的快上快下技术,减少数万台服务器采购,带来数亿计的资源成本优化和大促效率提升。

今年首次引入大规模数据智能来进一步丰富调度能力,提供了包括实时的负载感知,自动规格推荐(VPA),差异化 SLO 工作负载编排,CPU 归一化,支持周期性预测的 HPA,分时复用等,提供了更多维度的成本优化技术和高可靠的容器运行时保障。

围绕着新一代的统一调度,阿里巴巴电商、搜索、大数据等众多平台、不同类型的复杂计算资源都以一致的方式申请资源,统筹的额度管理和资源规划,数十万核资源借用秒级即可完成。基于统一调度,阿里云与蚂蚁也实现了调度技术融合,蚂蚁生态全面升级为统一调度。调度平台为未来带来更多想象空间,例如,我们可以通过众多手段,例如价格杠杆等经济因素,驱动阿里内部的业务更合理使用各个数据中心的资源,确保数据中心全局资源水位尽可能平衡,以改进数据中心的能效比。

阿里云容器服务 ACK 对标准 Kubernetes 进一步增强,更高性能吞吐和更低的响应延迟构建稳定可靠的超大规模单集群能力,平稳支撑了 1.2 万节点超 100 万核的超大规模集群、为统一调度大资源池化的生产运行提供了坚实的基座。阿里巴巴众多类型的复杂资源也实现了基于容器服务底座 ACK 的全面融合升级。

除电商、搜索、大数据等阿里经典场景外,统一调度也极大的赋能了新型的技术创新。以直播电商场景为例,决策对实时计算的需求很高,比如薇娅双 11 直播间 9 千多万在线观看人数的产生的浏览、交易等实时数据的秒级数据分析。今年阿里将实时计算引擎 Blink 升级为基于统一调度的新一代引擎,在成本、性能、稳定性以及用户体验上获得大幅提高,大规模作业拉起性能相比 Yarn 提速 40%,错误恢复效率提升 100%,通过统一调度技术在双 11 大促备战接节省数十万 CPU,在集群 CPU 水位超过 65% 时,实现全局零热点,保障了各直播推流的时效性。

在 Serverless 方面,函数服务首次在集团内得到大规模落地,并应用于双 11 支撑了淘宝搜索推荐、数据处理、前端 SSR 等 10 多个业务场景。借助统一调度技术,函数计算可以和阿里资源池内实现大规模混跑,充分利用集群的碎片资源,彻底解决了 Serverless 场景在流量低峰期的资源闲置成本问题。基于 ACK 镜像按需加载和网络栈优化,函数实例的冷启动时间小于 150ms,并结合池化技术保证了函数计算容器的冷启动率小于 5%,这是保证双 11 大促成功的关键。

03 未来展望

未来,容器服务 ACK 将阿里巴巴统一调度的经验输出到整个行业,支撑更多新型计算负载生态、新型技术形态的架构演进,实现云计算无处不在,全面赋能更多的企业,释放更大的低碳价值红利。

原文链接
本文为阿里云原创内容,未经允许不得转载。

首次 统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务相关推荐

  1. 统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务

    简介:今年双 11 首次规模化亮相的统一调度,通过一套调度协议.一套系统架构,统一管理底层的计算.存储.网络资源,超大规模.高效率.自动化的资源弹性,实现了业界新的突破.在离线混部.离在线混部.新的快 ...

  2. 重磅下载 | 核心系统100%上云,揭秘双11背后的云原生实践

    2019 双11,订单创新峰值达到 54.4 万笔/秒,单日数据处理量达到 970PB,面对世界级的流量洪峰,今年的阿里交出了一份亮眼的云原生技术成绩单,并实现了100% 核心应用以云原生的方式上云: ...

  3. 重磅下载 | 核心系统 100% 上云,揭秘双11背后的云原生实践

    点击文末"阅读原文:,下载<不一样的 双11 技术:阿里巴巴经济体云原生实践> 2019 双11,订单创新峰值达到 54.4 万笔/秒,单日数据处理量达到 970PB,面对世界级 ...

  4. 免费下载来自阿里巴巴 双11 的《云原生大规模应用落地指南》

    来源|阿里巴巴云原生公众号 复制链接到浏览器完成下载或分享:https://developer.aliyun.com/topic/download?id=1055 11 月 11 日零点零分 26 秒 ...

  5. 阿里云大规模即时云渲染支撑天猫双11“直播未来城”

    在今年的天猫双11购物狂欢节,一个名为淘宝"直播未来城"的3D空间,首次出现在了淘宝App中. 据悉,"直播未来城"是线上大规模沉浸式3D互动应用在电商营销场景 ...

  6. 支撑支付宝双11的核心架构

    现在还依稀记得去年双11在支付宝作战室,接近0点的时候,所有人都盯着值班室的秒级监控大盘,当交易峰值曲线慢慢爬升,最后变得无比陡峭,值班室的同学都很激动,欢呼声伴随着爬升的曲线达到了顶峰,58.3万笔 ...

  7. 《阿里云大规模即时云渲染支撑天猫双11“直播未来城”》

    在今年的天猫双11购物狂欢节,一个名为淘宝"直播未来城"的3D空间,首次出现在了淘宝App中. 据悉,"直播未来城"是线上大规模沉浸式3D互动应用在电商营销场景 ...

  8. 技术抉择:阿里云13年后重构全部核心调度系统

    编辑 | Tina 在阿里云十三年的发展历史上,重新设计调度系统算得上是一个重要的技术抉择. 云计算是一个庞大的技术工程.2009 年,阿里云从 0 到 1 自建国产云计算系统"飞天&quo ...

  9. 重塑技术引擎 阿里落地全球最大规模云原生实践支撑双11

    4982亿,2020年天猫双11再创消费新纪录.58.3万笔/秒,双11交易峰值再创新高,阿里云又一次扛住全球最大规模流量洪峰.这一切背后支撑的"技术引擎"又是如何为近十亿全球购物 ...

最新文章

  1. yarn资源调度(网络搜集)
  2. docker 部署nginx
  3. Cortex-M3基础
  4. maven Web项目添加数据源支持,包括Oracle、Mysql
  5. BZOJ 1086: [SCOI2005]王室联邦( )
  6. java c 面向对象比较教程_c语言初学指针,对于java面向对象的初理解
  7. 阿里云专家带你揭秘云计算数据底座——对象存储
  8. python 全栈开发,Day109(客户管理之动态二级菜单)
  9. 计算机组成原理——课程设计
  10. 使用Subline Text对比查找两个文档的不同
  11. 命令提示符(文件操作基础)
  12. Qua Vadis Eclipse? 第二部分
  13. AD软件系统属性配置
  14. 【安全算法之概述】一文带你简要了解常见常用的安全算法(RT-Thread技术论坛优秀文章)
  15. 词向量经典模型:从word2vec、glove、ELMo到BERT
  16. 【个人网站】个人网站搭建全过程
  17. laravel 构建后台package Voyager 使用笔记
  18. jsp中EL表达式显示时中文乱码
  19. iOS 时间比较大小
  20. 实习总结之如何做好产品经理?

热门文章

  1. 为什么编程语言要从c语言学起,在那么多编程语言中,为什么推荐初学者学 C 语言?...
  2. java工具栏的工具提示,动态菜单项、状态条提示、工具条提示问题
  3. dell主板40针开机针脚_技术活!戴尔主板的前置面板接口针脚的问题。
  4. 手动卸载_一种手动液压一体式卸载扳手
  5. 编程时程序无错却崩溃_人间真实:程序员的 60 个崩溃瞬间!
  6. python十点半游戏代码_Python实现Pig Latin小游戏实例代码
  7. c语言中把各位上为奇数的数取出,下列给定程序中函数fun()的功能是:将长整型数中每一位上为奇数的数依次取出,构成一个新数放在冲。 - 赏学吧...
  8. python基础文档_python基本文件操作
  9. java支持多线程吗_Java多线程之一
  10. android 代码设置居右_Android 开发实现EditText 光标居右显示