简介:阿里巴巴云原生大数据运维平台 SREWorks,沉淀了团队近10年经过内部业务锤炼的 SRE 工程实践,今天正式对外开源,秉承“数据化、智能化”运维思想,帮助运维行业更多的从业者采用“数智”思想做好高效运维。

作者 | 晟白
来源 | 阿里技术公众号

随着行业不断发展,大数据&AI也逐渐呈现云原生化的趋势。复杂的业务场景及其背后涉及到的不同技术方向的开源和自研,使得产品运维面临技术复杂度高、规模大、场景多等挑战。

阿里巴巴云原生大数据运维平台 SREWorks,沉淀了团队近10年经过内部业务锤炼的 SRE 工程实践,今天正式对外开源,秉承“数据化、智能化”运维思想,帮助运维行业更多的从业者采用“数智”思想做好高效运维。

一 SREWorks 是什么?

谷歌在2003年提出了一种岗位叫做 SRE (Site Reliability Engineer,站点可靠性工程师),它是软件工程师和系统管理员的结合,重视运维人员的开发能力,要求运维日常琐事在50%以内,另外50%精力开发自动化工具减少人力需求。

SREWorks 作为阿里云大数据SRE团队对SRE理念的工程实践,专注于以应用为中心的一站式“云原生”、“数智化”运维 SaaS 管理套件,提供企业应用&资源管理及运维开发两大核心能力,帮助企业实现云原生应用&资源的交付运维。

阿里云大数据 SRE 团队天然靠近大数据和AI,对大数据&AI技术非常熟悉,且具有随取随用的大数据&AI算力资源,一直努力践行“数据化”、“智能化”的运维理念,行业里的 DataOps(数据化运维)最早由该团队提出。SREWorks 中有一套端到端的 DataOps 闭环工程化实践,包括标准的运维数仓、数据运维平台、运营中心等。

随着云原生时代大趋势的到来,阿里云大数据 SRE 团队将SREWorks运维平台开源,希望为运维工程师们提供开箱即用的运维平台。

二 SREWorks 有什么优势?

回归到运维领域的需求,无论上层产品和业务形态怎么变化,运维本质上解决的还是“质量、成本、效率、安全”相关需求。SREWorks 用一个运维 SaaS 应用界面来支撑上述需求,同时以“数智”思想为内核驱动 SaaS 能力,具体包括交付、监测、管理、控制、运营、服务六部分。

1 体系化运维平台分层架构

从“质量、成本、效率、安全”四个维度出发看运维本质相关工作,运维除了要搭平台、建规范、做标准,还要用自动理念提升效率,用数据驱动测试/开发/运维,用智能手段提前发现/预测风险问题等。这些可以看成是方法论。如何能从理论快速获得一套体系化、工程化、产品化的能力实践,去支撑满足上述四个维度的需求,就是 SREWorks 所考虑的问题。

阿里云大数据 SRE 团队利用分层思想构筑了 SREWorks 平台产品体系,借鉴经典 SPI(SaaS/PaaS/IaaS)三层划分思路,SREWorks 由“运维 SaaS 应用场景层、运维 PaaS 中台服务层、运维 IaaS 接入层”三部分构成。

SREWorks 中还融入了运维规范、标准化思想,利用产品承载自动化流程、数据驱动、智能内核的方法论。从代码到线上业务服务的整个过程,运维或多或少地参与了其中一些工作,因此,围绕应用的生命周期,在SaaS场景层划分了“交付、监测、管理、控制、运营、服务”六大区。如下图所示,每块内容里都有代表性的核心功能。

SREWorks 中统一以应用抽象来描述业务系统,在开发人员将研发完成的应用制品交付上线后,就会对线上应用实例生命周期进行监测、管理、控制。SREWorks所拥有的运维数据能力会提供增值化的运营、服务,为有需要的人员提供便捷的视图、管理能力等。

“交付、监测、管理、控制、运营、服务”六大场景在SREWorks产品手册中有详细的定义及边界说明。

2 完整的数据化运维体系实践

一套数据化运维体系,会把所有系统的运维数据全部采集起来、真正打通,并深度挖掘这些数据的价值,为运维提供数据决策;同时构建数据化运维业务模型,基于该模型建立标准化运维数仓,建设数据运维平台,在平台中规范运维数据的采集、存储、计算及分析,并提供一系列数据化服务,供上层运维场景使用。

有了运维相关的量化数据,对运维工作的描述和衡量将更加立体化,可以建立长期可持续优化的运维工作模式,实现真正的运维价值。

3 服务化的 AIOps 智能运维平台

在阿里云大数据 SRE 团队看来, AIOps 的出现并没有改变运维的表现形式,依旧还是“交付、监测、管理、控制、运营、服务”的界面,只是在大量运维数据化工作的基础之上,利用AI能力探索、挖掘智能化运维场景。因此,在一开始构筑 AIOps 工程实践时,就坚持打造“感知、决策、执行”的闭环,类似自动驾驶的理念。

SREWorks将量身定制的算法与运维场景化结合,能够提前预测、关联分析,增强风险预防、故障定界定位能力,实现传统手段无法获得的运维价值。具体而言,将每一个智能化的运维服务包装成感知的“监测器”、决策的“分析器”、执行的“策略器”,供健康管理、变更管理等系列服务调用,即可增强已有运维场景,解决一些普通手段无法解决的问题。

4 运维中台化、低代码化及云原生化运维开发体验

SREWorks 套件自身也是云原生化的应用,并且采用运维中台思想构建,在中台里构建大量的PaaS 化运维服务能力,在前台围绕“交、监、管、控、营、服”六大场景提供SaaS 化运维场景应用。

大部分页面为企业后端控制台类系统,不太需要很酷炫的交互设计,故而,运维开发领域的前端开发始终难于追赶前端流行趋势。针对这些特点,SREWorks 创新性地设计了一套 Serverless 体验的前端开发模式。

三 为什么要开源?

阿里云大数据 SRE 团队之前在多次技术分享时重点介绍过“DataOps、AIOps”的能力,但都是纯理论层面的介绍。具体在 SRE 领域,到底在工程实践上实现这一套理论?对运维的需求、界面、内核这三层的理解如何落地?

为了把数据化、智能化这套数智内核故事讲明白,阿里云大数据 SRE 团队将具有低门槛、高效率特点的云原生运维平台SREWorks开源出来。

他们坚定地认为,运维团队更需要拥抱云原生,只有这样,运维才能在云原生浪潮下找到一席之地。

该团队也希望, SREWorks 的开源,能让更多从业者使用“大数据和AI”的能力做好运维,实现“数据+智能”的运维平台内核。

据介绍,SREWorks背靠阿里云计算平台系列“大数据&AI”产品,如 MaxCompute、Flink、DataWorks、Hologres、Elasticsearch 等,开源版中同样选取了这些产品对应的开源版本,比如开源版 Flink、Elasticsearch 等。

四 后续规划

SREWorks平台目前每个月会进行一次迭代开发任务,后续将由版本管理员统一维护合入相关功能及问题修复等内容,以保证最新的云原生化运维能力持续进入后期版本中。

当前, SREWorks 中有一套 OAM(Open Application Model)规范的工程化实践,可以把该实践看成是 SREWorks 的核心引擎。围绕该引擎,SREWorks团队建设了系列运维中台服务,包含自动化、数据化、智能化能力,之后也将跟随社区 OAM 规范的发展,持续迭代。

五 写在最后

今天 SREWorks 的开源只是迈出的一小步,非常期待得到开发者的反馈。SREWorks中也设计了插件化扩展能力,欢迎使用 SREWorks 来打造属于自己的运维平台。

最后,如果您对 SRE、DataOps、AIOps 或云原生等领域有兴趣,都可以参与到我们的建设中来,这将是我们莫大的荣幸,一起交流,一起打造最具特色的 SRE 云原生运维平台!

原文链接

本文为阿里云原创内容,未经允许不得转载。

阿里巴巴云原生大数据运维平台 SREWorks 正式开源相关推荐

  1. KubeNode:阿里巴巴云原生 容器基础设施运维实践

    作者 | 周涛  阿里云技术专家 来源 | 阿里巴巴云原生公众号 阿里巴巴节点运维的挑战 在阿里巴巴的场景下,做节点运维面临的挑战主要来自于这几个方面:规模.复杂性.稳定性. 首先是规模大.从 18 ...

  2. 大数据运维 | 集群_监控_CDH_Docker_K8S_两项目_云服务器

    说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会.如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课程,主要是实战强.含金量高.专注度高,有6个专题+2个大型项目+腾 ...

  3. CloudEon云原生大数据平台

    文章目录 @[toc] 1. CloudEon是什么? 2. gitHub地址和官网地址 3. 官网教程 4. 特性 5. 架构 6. 支持组件版本 7. 安装部署 7.1 部署前提 7.1.1 Ku ...

  4. 离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

    简介:阿里云智能研究员 林伟 :阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考,使得湖的灵活性.数据种类丰富与仓的可成长性和企业级管理得到有机融合,这是阿里巴巴最佳实践的宝贵资产,是大数据的新一代架 ...

  5. 云原生大数据架构中实时计算维表和结果表的选型实践

    简介: 随着互联网技术的日渐发展.数据规模的扩大与复杂的需求场景的产生,传统的大数据架构无法承载. 作者 | 志羽 来源 | 阿里技术公众号 一 前言 传统的大数据技术起源于 Google 三架马车 ...

  6. 大数据运维:大数据平台+海量数据

    大数据开发独揽大权 大数据技术很早就在BAT这些公司生根发芽,但直到14.15年大数据技术才广泛应用在各大互联网公司,大数据技术由此深入各行各业. 此时大数据开发人才非常紧缺,很多公司大数据从立项,到 ...

  7. 阿里云日志服务SLS,打造云原生时代智能运维

    2021年10月21日,阿里云针对企业运维难题,在云栖大会为大家带来了一场<智能运维论坛>的主题演讲.在会上,阿里云资深技术专家.日志服务技术负责人简志提出"云原生时代,企业业务 ...

  8. 博云与智领云达成战略合作,携手共研云原生大数据领域

    近日,博云与LinkTimeCloud智领云达成战略合作伙伴关系,基于此前坚实合作基础,全面拓宽合作广度与深度,共同推出基于Kubernetes的企业级容器云+云原生大数据技术融合的新型数字化IT底座 ...

  9. 【博云+智领云】携手云原生大数据领域,开展深度合作

    近日,博云与LinkTimeCloud智领云达成战略合作伙伴关系,基于此前坚实合作基础,全面拓宽合作广度与深度,共同推出基于Kubernetes的企业级容器云+云原生大数据技术融合的新型数字化IT底座 ...

最新文章

  1. 好渴望 wacom Intuos3
  2. 高动态范围(HDR)
  3. mysql count if语句_COUNT分组条件去重的sql统计语句示例(mysql)
  4. API接口让呼叫中心渠道,变更加全面丰富
  5. python通讯录管理程序的用户可行性_通讯录管理系统项目可行性分析
  6. 如何联网获取北京时间
  7. DIY人脸跟踪电风扇送女朋友(2)
  8. 想使用Docker容器?先看看这些注意事项
  9. js处理富文本编辑器转义、去除转义、去除HTML标签
  10. 【poj题集整理】【存下来并不会看】
  11. c++系统给baijq分配了空间
  12. JAVA面向对象 从0.5到1
  13. thinkcmf图片上传七牛云不显示的问题(七牛图片后缀!watermark)
  14. ZigBee网络数据传递流程_蓝牙、WIFI、Zigbee谁更适合物联网,各有哪些优缺点?...
  15. 5、收集资料与绘制原理图库和pcb库
  16. 【Linux服务器配置】服务器的配置
  17. Facebook广告投放需要多少费用?如何设置Facebook广告预算?(干货教程)
  18. 超级IP名片:技术是当下互联网环境下竞争的基础
  19. tomcat 配置集群
  20. modernizr 支持html5,Html5系列(二十) 学习之 Html5功能判断插件 Modernizr

热门文章

  1. 380免费云存储_三款功能强大的云盘软件,完全替代百度云与腾讯云
  2. 如何在jieba分词中加自定义词典_Pyspark Word2Vec + jieba 训练词向量流程
  3. 计算机技术如何设计酶,百人学者Nature Chemical Biology发文,发现一种设计酶的新方法...
  4. python线程池操作_Python mutiprocessing多线程池pool操作示例
  5. mysql 主键倒序查询速度慢_一亿条数据order by主键降序速度很慢
  6. 2019年GitHub上最热门的Java开源项目
  7. 增量式pid调节方式有何优点_增量式pid和位置式pid相比各有什么优缺点
  8. python输出jpg_利用python实现.dcm格式图像转为.jpg格式
  9. xml建模包括以下_为什么要进行建模仿真?
  10. json 反射java 实体_java反射实现javabean转json