在企业数字化转型的浪潮中,核心业务的上云和迁云无疑是转型过程的重中之重,企业对于数字安全性及等保合规层面的需求也日益强烈,混合云成为诸多大型政府企业客户上云迁云的首选方案。随着企业云上业务的复杂化,云上云下技术栈的多样化,以及云上运维组织规模的扩大化,云上业务的稳定性和连续性面临着巨大的挑战。为了保障混合云场景下客户云上业务的稳定性,阿里云混合云应用观测平台团队旗下的Sunfire全景智能化观测平台(以下简称Sunfire平台)产品,不断转型升级、推陈出新,走出了一条跌宕起伏的道路。在这条道路上,我们究竟经历了哪些挑战和困难,具体是如何思考和应对的?在历经挑战之后,我们又取得了哪些产品技术成果和客户价值?要回答这些问题,要先从观测本身谈起。

我们需要什么样的观测?

观测是什么?

如果你是一个互联网技术人员,提到观测,你的脑海里也许马上会闪过许多优秀的开源观测工具,从Nagios,Cacti到Zabbix,以及大名鼎鼎的Prometheus。但观测究竟是什么?怎样的观测才是好的观测?我们或许需要认真思考一番。

从本质上看,观测是对于现实世界实体或对象的测量和检测,测量的结果通过观测数据的方式(可视化地)传递和展示出来,而检测的结果则会以报警(或消息)的形式通告观测的关注者。

观测工作作为运维工作的重要组成部分,需要同时关注质量、成本、效率,以期在实践中起到符合预期的效果。伴随这三大挑战的磨砺,业界的各种观测系统不断演进,各有千秋。针对混合云客户侧复杂异构的运维环境,从2015年开始,Sunfire平台就在集团100多个事业部(横跨电商、金融、物流、文娱、云计算等多个业态)的日常观测和双11大促的磨练下不断前行,持续完善和刷新着我们对观测业务和技术的理解。

在多种多样的观测工具中,客户之所以选择Sunfire平台,一方面是因为Sunfire平台具备针对全景观测对象进行指标、链路、日志全栈的观测能力;另一方面是因为Sunfire平台突出体现了“通过业务观测能力来发现故障,通过全景观测能力定界故障,通过事件处理能力来辅助恢复故障”的产品思路。

而这种理念,特别是以业务观测为故障发现入口的理念,来源于历年来Sunfire平台支持阿里巴巴集团观测的产品技术积累。

阿里巴巴集团业务的观测实践

在每年双11零点来临之前的夜晚,上万阿里工程师聚集在阿里巴巴的各个园区。而阿里巴巴总部杭州西溪园区的核心作战室里,更是聚集着负责阿里核心技术链路的上百位工程师。他们屏息凝神,注视着核心作战大屏和自己个人电脑上的观测大盘。作战大屏上,双11核心的实时交易数字正在秒级刷新,像不断跳动的脉搏一样。在屏幕背后的就是Sunfire平台。为了应对海量业务流量、数万技术人员给技术风险带来的挑战,Sunfire平台在观测体系和观测技术架构设计上,走出了一条和业界不同的道路。

从业务观测出发:双11战火洗礼下的观测道路选择

作为一个互联网行业的技术人员,提到观测,我们往往会想起各种针对系统资源和水位的观测,以及对于应用程序性能的观测等,而在Sunfire平台中,上面这些内容却并非平台功能的主角。Sunfire平台是一个以业务观测为主、以应用和资源观测为辅的观测平台。这种观测思路和实践,与业界通用的做法大相径庭。Sunfire平台之所以走出一条和业界不同的道路,追本溯源,也许还是发端于阿里集团技术风险的机制。

在双11之外的日常工作中,阿里巴巴集团有一套非常体系化的故障发现、应急、处理机制,而这一机制的总体入口和起点也是业务观测。首先通过关注业务发现问题,再通过关注应用和系统以定界和恢复问题,是阿里观测体系的基本思想。

重视业务,进而重视业务观测,和阿里集团最初的电商属性和重视业务运营的文化相关,我们一直希望通过技术保障尽可能减少对消费者和商家的伤害。在技术人员和资源有限的情况下,需要首先关注影响业务的技术问题,业务影响面越大的技术问题应该被给予更多的关注和资源投入去解决。

因此,Sunfire平台坚定地走向了以业务观测为主,以应用、系统观测为辅的观测道路,并在过去持续支持了不断扩大的观测体量和规模,也经受住了历年双11流量洪峰和全局应急指挥的双重考验。当然,因为选择了这条观测道路,Sunfire平台在技术侧也探索和成长出了和业界(特别是开源界)观测系统不一样的技术架构。

海量观测指标实时计算场景下的观测架构演进

观测系统的功能版块往往可以拆解为数据采集、指标计算、指标存储、报警、数据展示(包括API)等几大部分,每个部分都有相应的模块提供支撑。在这套架构的支持下,Sunfire承载了阿里巴巴集团来自100多个事业部的60W+以上的业务指标观测及千万级别的系统、应用观测指标。同时,得益于Sunfire强大的实时计算能力和方便的用户配置体验,也有很多用户利用Sunfire平台进行实时的业务运营指标计算和统计,来进行业务层面的运营分析和决策。

在阿里集团巨大的技术体量和用户规模之下,Sunfire平台也在质量、成本、效率方面取得了非常好的平衡。Sunfire平台能够在各种全局故障时刻(甚至是阿里技术体系的全局机房级故障演练时刻)保障自身的稳定性,让数万技术人员能够明确地观测自己的业务、应用和系统的状态;而当观测指标下跌时,Sunfire平台能够明确地判别下跌的原因是业务用量本身的变化,还是系统运维层面的问题。

Sunfire平台自身的容器规模过万,我们通过不断地技术优化和运营优化,让观测自身的成本可明确度量并逐步降低。在过去一年的不断优化下,相同计算规模的资源开销相比之前降低了10%以上。通过自研的任务调度引擎,能够做到在百万级容器规模下计算业务指标(如淘宝秒级的交易笔数等)的时间迟延做到4.7秒;辅之以我们经历了多年线上战火洗礼的智能基线算法策略,Sunfire平台可以在几十秒的时间内全自动智能化地发现线上故障并发出通告,且不依赖任何的人工规则配置。一路走来,Sunfire平台已经成为阿里集团技术风险体系的基石,持续支持着集团庞大的技术体系的稳定高效运行。

从支持阿里集团走向服务云上企业客户

从2019年开始,Sunfire平台开始探索观测产品的商业化输出。我们从物流行业入手,尝试将支持阿里集团的观测平台改造为面向企业客户的商业化观测产品。虽然Sunfire平台在阿里集团海量业务规模下取得成功,但我们转型商业化输出之路却走得很不平坦。

战场从阿里内部转到外部企业,客户从集团技术体系下成长起来的技术人员变成了外部企业的运维、研发团队,Sunfire平台在阿里集团战场上积累下的一些产品、技术优势突然变得“无用武之地”。

  • 首先,在观测理念层面,业界的企业往往将观测理解为系统、应用、中间件等对象的观测,Sunfire平台更加擅长的业务观测理念在客户那里尚未落地生根。
  • 其次,Sunfire平台长于海量集群的规模化观测,而客户本身的体量很难和阿里集团相比,同时企业上云的规模也很难一下子扩展到较大的体量,可能我们能够接触到最大的客户集群规模也只相当于阿里集团规模的几十分之一。
  • 最后,Sunfire平台秒级观测能力在外部企业的运维管理需求层面找不到场景:在企业化观测的战场上,Sunfire平台引以为傲的优势无从发挥,却又面临着诸多新的挑战。

观测功能版块建设的挑战

来自Gartner的行业分析报告《2021 Strategic Roadmap for IT Operations Monitoring》指出,不同观测工具分层采集数据造成的割裂和壁垒正在消亡,以open telemetry为代表的开放协议进一步将各类观测数据透出和采集的标准推向统一。在云原生可观测性的大旗下,各类应用层的观测工具和产品不断演进。如果不能迅速补齐相应的功能版块,则会在竞标或PK的场合无法同竞品平起平坐、参与角逐。

观测集成的挑战

和大型互联网企业不同,各个行业的政企客户往往采用传统IT架构,即IT系统也可能是由不同的组织或供应商开发,研发和运维权责的归属往往情况各异。这就决定了客户现场往往会存在不止一类的观测工具,这些观测工具或为开源工具,或为应用开发商自带的观测工具,或为企业客户自研的观测工具。

这也进一步加剧了观测数据之间的割裂,增加了企业运维的成本。传统政企客户也希望能够统一技术框架和软件选型,但碍于各种原因,推动现有系统进行改造往往十分困难。作为企业级观测产品,如果无法有效地(无侵入式地)和企业客户侧的观测系统进行集成,则可能很难在企业客户侧发挥更大的作用。

面对诸多挑战,Sunfire平台在保持自身优势的基础上,进行了较大规模的功能和技术架构转型,将从阿里集团观测平台演进成面向混合云场景下的一站式全景智能观测平台。在功能层面,Sunfire平台做到了符合业界观测平台化产品的主流趋势并具备完整的功能广度深度及开放能力。同时,在观测智能化、时效性以及混合云场景下的安全生产方案支撑层面,具备了自己差异化的竞争优势。

面向混合云的一站式全景智能化观测平台

作为企业级观测平台,Sunfire平台为客户创造的核心价值是提升客户发现、定界、处理问题的效率,提升客户云上业务的稳定性和连续性。从这个价值出发,我们不仅仅需要通过以业务为入口的观测发现问题,更需要通过分层观测能力来帮助客户定界问题,还需要通过高效的(报警)事件处理、定级和通知协同机制来帮助客户进行应急响应和快恢预案的执行。Sunfire平台的功能演进,也围绕着这个思路展开。

全景智能化观测能力

商业化版本的Sunfire平台,在转型之初就将集团版本“以业务观测为主,以应用观测为辅”的设计理念升级为“全景智能化观测”,并在业务、应用及云资源观测及智能化观测层面进行了大量的功能演进和补齐。


业务观测是集团版Sunfire平台的拳头功能,我们在原有能力的基础上,在业务链路编排、业务全景大屏以及API管理等功能方面进行了优化和增强。

在应用观测层面,我们全面兼容了prometheus生态,利用社区的力量,极大提升了应用和开源组件观测的标准化程度。同时,我们也基于探针的方式支持了对于应用状态、应用远程调用的观测能力,更好地支持了细粒度的问题定界和排查。最后,我们通过和开源工具skywalking集成的方式,提供了应用链路分析的能力,补全了云原生可观测性中关于链路分析的功能版块,动态地展现和观测应用及接口级的链路。

在商业化版本里,我们将之前“智能基线”的时效性提升到秒级,同时将单指标智能基线升级为场景化的“黄金指标”智能检测能力,可以自动地发现诸如“流量下跌”“性能下降”等发生在多个观测项的组合故障场景。

在和开源架构有机融合的基础上,分层全景的智能化观测能力不再是各层功能的罗列和堆砌,而是被全景框架有机的联系在一起。当问题发生时,Sunfire平台具备三层横向、纵向的穿透定位能力,帮助客户发现云上应用的问题并辅助定界。在全景智能化观测的框架和观测集成能力的加持下,Sunfire平台已经具备了故障发现、定界、处理的全生命周期能力,能够更好地作为安全生产解决方案的核心产品在客户侧落地。

面向安全生产解决方案的服务化能力

在政企客户数字化转型的过程中,往往会面临规模不断增大、技术栈越来越复杂以及组织和人员日渐膨胀的局面。这些都给云上数据化业务的稳定性和连续性带来不小的风险。

为了系统性应对和管控这些风险,阿里云混合云平台和中国信通院一起,推出了业内首个数字化安全生产标准《基于云计算的数字化业务安全工程要求》。基于此标准,我们也推出了面向企业客户的安全生产解决方案,全面解决混合云客户云上业务稳定性管理领域的问题。作为安全生产解决方案的核心产品,Sunfire平台除了全景化智能观测能力和事件处理能力之外,还将支持安全生产范围内的故障定级、定界、快恢能力。

基于阿里集团业务故障定级规范的经验,结合混合云平台的特点及客户的需求,我们创新性地提出了云平台和客户侧应用业务一体化定级的理念。通过全景观测框架和云平台观测产品的集成,我们将针对云底座、云实例、云产品、云上应用、云上业务五类观测对象的观测报警作为输入,基于云产品的高可用架构、云产品之间的依赖关系以及应用级别等结构化基础数据,产出平台、应用、业务三个序列的统一定级结果,方便客户基于故障级别确定影响面和决定应急协同的人员规模。一旦出现问题,平台的第一选择并不是查找问题原因,而是尽可能地执行快速恢复的预案。Sunfire平台将从应用(微服务)级的快速恢复能力入手,提供一系列自愈的自动化能力,供应急人员决策执行。

未来,也将结合专有云应用架构,提供业务级和子系统级的快恢能力,包括和客户侧预案进行集成的能力,方便运维人员在一站式平台上观测系统并作出决策。

和客户共同成长

从支持第一个外部客户以来,Sunfire平台产品已经输出给了数十家企业客户,落地在超过50个客户混合云现场,观测着超过2万个客户侧云上应用的运行容器(节点)。这些客户遍布能源、公安、政务、证券、金融等多个行业。我们欣喜地看到,Sunfire平台正在帮助客户建立起完整的观测体系,改变之前观测体验残缺或割裂的现状,并让客户更放心地将核心业务和应用放在云平台上运行。

例如,在能源行业的头部企业客户侧,经过半年多的共建,Sunfire平台共接入200+应用服务的观测与管理;实现400+观测指标的部署,涉及100个业务场景,3000+观测对象节点,告警次数5000+。基于Sunfire的事件收敛能力,将日均700+的报警收敛为200左右,降低了客户的运维成本。客户侧的领导每天会基于Sunfire平台的观测告警进行业务&系统情况的梳理及优化方案的制定。

2021年的一个早晨,Sunfire平台的观测准确发现客户业务故障,并通过报警通知客户观测中心人员启动应急,并通过回滚客户应用版本后恢复业务。在这样的表现下,客户也给我们发来了表扬信,肯定了我们产品和服务的价值。

当前,我们已经和深度使用的客户一起,在观测领域一起探索智能观测、根因定界等领域的技术能力。我们可以期待,在不久的将来,这些能力会伴随着我们的产品功能在客户侧落地,取得更好的效果。

放眼当下,Sunfire平台作为阿里云混合云平台的标准化产品能力,将会落地到越来越多的政企客户的观测实践当中,助力客户保障云上业务稳定性,让客户更加放心地用好云。展望未来,Sunfire平台作为连接IT系统和企业业务的重要枢纽,扮演着平衡业务质量和IT成本的重要角色。在数字化转型的洪流中,Sunfire品平台将和客户一起成长,为企业的数字化治理发挥更大的作用。(正文完)

云计算时代,观测产品Sunfire的成长史

云计算时代,观测产品Sunfire的成长史相关推荐

  1. 云计算时代的数据库运行

    云计算时代的高可用数据库是可扩展.容错且与任何私有云或公共云兼容的数据库实例.它们旨在提供业务连续性,而不会因任何类型的硬件或网络故障而导致用户体验的影响.其核心设计原则是消除任何单点故障,并提供平稳 ...

  2. 【ACE Meetup天津站】云计算时代的运维管理

    2018年12月23日,由阿里云ACE天津同城会主办"技术之美Meetup"圆满结束.视频回放:https://yq.aliyun.com/live/781 主讲嘉宾:于梦洋(于老 ...

  3. 大数据和云计算时代的机遇

    本文讲的是大数据和云计算时代的机遇,随着云时代的来临,大数据(Big data)也吸引了越来越多的关注.著云台的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构 ...

  4. 干货 | 云计算时代携程的网络架构变迁

    作者简介 赵亚楠,携程云平台资深架构师.2016 年加入携程云计算部门,先后从事 OpenStack.SDN.容器网络(Mesos.K8S).容器镜像存储.分布式存储等产品的开发,目前带领 Ctrip ...

  5. 腾讯研发专家:TXSQL如何成为云计算时代数据库核弹头?

    背景:5月23-24日,以"焕启"为主题的腾讯"云+未来"峰会在广州召开,广东省各级政府机构领导.海内外业内学术专家.行业大咖及技术大牛等在现场共议云计算与数字 ...

  6. 腾讯技术峰会:从模型部署到算法应用,云计算时代下的人工智能

    在飞速变化的时代,新的技术和产品层出不穷,云会议.云教学的出现敲开了新世界的大门,更改变了我们的工作和生活方式.沉淀新技术.开发最好的产品.助力开发者成长一直是腾讯持续关注的方向. 12月19日至20 ...

  7. TXSQL:云计算时代数据库核弹头——云+未来峰会开发者专场回顾

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 5月23-24日,以"焕启"为主题的腾讯"云+未来"峰会在广州召开,广东省各级政府机构领导.海内外业 ...

  8. Server SAN:弄潮儿云计算时代

    最初发表于<程序猿>2014年7每月一次. 4月30日本.Redhat公布1.71十亿收购Ceph开发商Inktank公司,加上之前2011年10月1.36十亿收购Gluster,Redh ...

  9. 看云计算时代的web1800远程服务支持系统

    云计算算是当下最热门词汇之一了,有关于云计算的话题越来越热,引来IT设备厂商.互联网企业.软件企业乃至电信运营商的高度关注.近期,主要有代表性的企业都在陆续的推出与云计算有关的市场活动,亚马逊早在去年 ...

  10. 网心科技CEO、迅雷联席CEO陈磊:开启共享经济云计算时代

    [CSDN现场报道]5月13日-15日,由全球最大中文IT社区CSDN主办的"2016中国云计算技术大会"(Cloud Computing Technology Conferenc ...

最新文章

  1. android 中国通信乱码问题
  2. 用WINRAR巧妙分割大压缩包
  3. 服务器里的文件怎么实时更新,简单几步,利用Serverless,让COS中文件变更自动刷新CDN...
  4. OpenCV中像素逻辑运算:逻辑或运算
  5. 桥接模式源码解析(jdk)
  6. kotlin学习目录
  7. 计算机关机后自行启动,电脑关机后自动开机
  8. HDU 5528 Count a * b
  9. 华为畅享max有没有人脸识别_看到Meeting视频会议一体机融合华为分布式能力,共建智能会议新体验...
  10. 绝不要在构造函数和析构过程中调用virtual函数
  11. Maven打包时报Failed to execute goal org.apache.maven.plugins:maven-war-plugin:2.2:war解决方案
  12. sql 的 where 和 having 的区别和用法
  13. IDL简单读写nc文件
  14. ZEMAX | 探究 OpticStudio 偏振分析功能
  15. flutter 动画json_使用lottie加载json动画
  16. Class.forName 报错 java.lang.RuntimeException: java.lang.ClassNotFoundException: Persion
  17. iOS开发之自定义的framework添加第三方framework,lipo和ar命令看.o文件
  18. 计算机领域国家自然科学基金,计算机学院获批国家自然科学基金委人工智能代码(F06)首个重大项目...
  19. 服务器ghost系统蓝屏,完美解决ghost WIN7安装后启动蓝屏问题
  20. 1、OpenCV——图片的读、改、显、存操作函数

热门文章

  1. Linux与Windows编译器的区别
  2. 从网上搜集的几种数据分页的总结
  3. Windows 2003网络负载均衡的实现
  4. cisco路由器配置DHCP实例
  5. spring-第十三篇之零配置支持
  6. 调用k8s api遇到CERTIFICATE_VERIFY_FAILED的问题解决方法
  7. Windows server 2003 伪静态配置方法
  8. Textarea自动换行如何设置
  9. 大型网站的架构设计问题--大型高并发高负载网站的系统架构
  10. MySQL数据库接口的VC具体实现与应用