什么是数智服务?

SREWorks 是一款基于“数据化、智能化”理念构筑的云原生运维平台:以“数智”思想为内核,围绕应用的交付、监测、管理、控制、运营、服务六部分,解决运维的“质量、成本、效率、安全”相关需求。

在 SREWorks 的开源社群以及各类咨询中,很多用户对其中的数智能力表现出浓厚的兴趣。但在目前的开源版本中,SREWorks 是围绕企业应用,提供端到端的完整数智能力,用户需要将业务应用迁入 SREWorks 云原生体系内,才能进一步体验数智化能力。

因此,为了能让用户快速体验 SREWorks 的数智能力,领略数智化运维的魅力,SREWorks 团队探索出了一个轻量化的数智服务方案,希望能为用户解决比如像热点机器等一些常见的运维痛点问题。

什么是热点机器

通常在一个集群中,小部分机器的 CPU 或者内存等指标过高,偏离了合理范围,表现为当前集群在资源层面出现机器负载不均的现象,我们可以认为集群中存在热点机器。在分布式系统里,尤其对于有状态的业务集群,热点机器的存在不仅会影响集群的稳定性,而且还会成为集群性能提升的瓶颈。也就是说,热点机器是集群稳定性和集群水位提升的短板。

以实时计算 Flink 集群的 CPU 资源来看,如下图所示。在集群调度层面所有机器的 CPU 资源分配水位是非常平均的,近乎持平。但在实际的运行过程中,由于调度层面不感知资源的物理使用,使得机器的 CPU 资源使用水位参差不齐,导致部分机器在某一维度的资源快速达到性能瓶颈,进而形成热点机器。

为了提高业务集群的稳定性,需要找到集群中的这些热点机器,进行热点分析并解决。但是,寻找热点机器也不仅仅依赖 CPU 指标这一项,内存、吞吐、磁盘等指标也都是判定标准,这么多指标让集群中的机器“横看成岭侧成峰,远近高低各不同”,使得热点机器的定位和分析也变的棘手。于是 SREWorks 数智服务来了,我们以阿里云日志服务(SLS)智能运维微应用的形式对外开放,这次首先推出的【机器画像】功能就是要帮助用户更好的解决热点机器的发现和分析问题。

目前 SREWorks 数智服务已完成阿里云核心大数据产品的指标数据接入,用户也可以创建自己的服务实例,按照应用的使用规范,接入指标数据。

机器画像

聚类分析是机器画像场景的核心功能,基于算法团队的支持,将 SREWorks 尚未开源的算法:多维度聚类,提前开放出来。同时根据指标数据进行算法的自适应优化,用户可以不需要感知复杂的算法参数,得到准确的聚类分析结果。聚类分析可以支持超大规模集群(万级别)的机器分析,主要包括单指标维度的机器热点分析和多指标维度的机器聚类分析。

单指标维度的机器热点分析,通过直方图的形式,可以帮助用户快速感知集群的机器分布概况,对集群的机器水位分布有一个整体认识。如下图左侧直方图所示,集群的用户 CPU 使用率整体维持在一个中低区间(<50%)水平,只有 1% 左右的机器 CPU 使用率超过 80%。

多指标维度的机器聚类分析,不仅内置了十多个典型的指标场景,用户可以快速进行对比分析;同时也支持自定义指标选择,用户可以按需选择合适的指标,进行聚类分析。

我们将多指标维度的聚类结果进行降维,把所有机器放到二维平面,即下图左侧的机器聚类分布散点图,通过该散点图,用户可以直观看到集群机器的聚类分组以及离群机器。

中间的雷达图则可以帮助用户进行各个分组(以及离群机器)之间的聚类指标值的对比,用户可以很容易看出各分组间不同指标的差异,从另一层面来讲,这也很好的解释了分组结果的依据。

离群机器指标统计表和聚类机器指标统计表则按照单机将具体的指标值进行汇总统计(包括像机器指标当前值、机器所属分组同类平均值、机器所属分组同类最大和最小值、机器所属分组同类中位值等),展示给用户,为用户进一步进行热点机器分析提供数据支持。

此外,机器画像场景还包含集群和单机维度的指标汇总和趋势看板,包括 CPU 核数、内存总量、存储总量、CPU 负载、存储使用率、内存使用率以及流量等。


数据接入

最后,我们来看下如何进行数智服务的数据接入以及如何基于数据规范进行数据存储。

用户需要拥有阿里云账号,并开通了日志服务(SLS) ,在日志应用模块的智能运维下找到 SREWorks 微应用,创建服务实例。

服务实例创建完成后,可以在实例的数据规范页查看数据规范定义。数据指标主要分成四大类:CPU、MEM、DISK 和 NET,每个分类都定义了一些常用指标,用户可以按需接入相对应的指标数据。有关具体的数据接入方案可以查阅 SLS 用户手册时序存储数据接入说明或者实时计算 Flink 作业开发(SLS 结果表)相关内容。

数智服务的后端存储依赖 SLS 的时序存储(Metricstore,兼容 Prometheus 数据),用户在创建数智服务实例后,系统会在关联的 SLS Project 项目下自动创建默认名称为 sw_node_metrics 时序库,后续的指标数据都需要同步到该时序库。

数据接入完成后,用户就可以借助机器画像场景的能力,进行机器的热点分析和聚类分析等。

指标格式示例:

__labels__:cluster#$#xyz|hostname#$#sreworks-host-a__time_nano__:1668646740000000__value__:96__name__:cpu_count

数据链路示例:

总结

以上就是 SREWorks 数智服务的机器画像场景的主要功能,相较于 SREWorks 提供的端到端的数智能力解决方案,基于 SLS 的 SREWorks 数智服务微应用以一种轻量化、全托管的方式,将 SREWorks 的数智能力进行对外输出,为用户提供更低的接入使用门槛。当前仅开放机器画像场景,后续会提供更多的运维场景的数智分析能力,包括像根因分析、智能 QA 生成等场景。


SREWorks 开源地址:

https://github.com/alibaba/sreworks

SREWorks 数智服务(日志服务 SLS 微应用) 地址:

https://sls.console.aliyun.com/lognext/app/sre

SREWorks 数智服务尝鲜,你的数据准备好了吗?相关推荐

  1. 阿里云联合浙江大学举办首届数智服务创新挑战赛!

    举办方:阿里云,浙江大学,阿里巴巴达摩院 9月17日,阿里巴巴集团副总裁,阿里云智能全球技术服务部总经理李津在2020云栖大会技术服务分论坛上,宣布启动首届阿里云数智服务创新挑战赛.此次大赛由阿里云. ...

  2. 2021中国企业数智服务十大趋势

    明天,2020年11月19日.国内企业服务领域趋势洞察的年度专业高端峰会--"洞见2021 中国企业服务年会"将在北京香格里拉饭店隆重举行.本次大议以"双循环时代的数智新 ...

  3. 产融对接 数智服务 | 用友云服务亮相2020中国5G+工业互联网大会

    11月19日,"2020中国5G+工业互联网大会"在湖北武汉盛大举行,大会汇集政产学研用等各方面的智慧和力量,共同探讨5G+工业互联网融合发展的思路举措,推动制造业转型升级和经济高 ...

  4. “平”地而起,2022中国企业数智服务市场趋势洞察报告即将发布

    <中智观察>第1537篇推送 记者:邓清文 编辑:小天 数智化大潮风云际会,平台层产品尤为亮眼. 在即将举行的洞见2022中国企业服务市场年会上,海比研究院对外发布<2022中国企业 ...

  5. “数智创新 芯存未来”西部数据持续创新,全面应对数字化挑战

    数据的爆炸式增长趋势仍在持续.未来五年内我们创建的数据,将超过自数字存储面世以来产生的总数据量的 2 倍.来自人工智能(AI)/ 机器学习(ML).区块链.传感器.5G 网络.联网汽车等新兴数据源驱动 ...

  6. 驰骋“数字+服务“杭州为什么能?跨境数智服贸发展论坛为你破题

    开放的浙江,创新的杭州,蓬勃发展的数字贸易,汇聚了一大批像阿里巴巴.网易.海康威视.连连等高科技数字服务企业以及数字赋能产业集群,也创造了大量投资和贸易机会,那么,杭州为什么能引领数字领域的新发展?1 ...

  7. 神州信息“六合上甲”一体化数据开发平台全面数智升级!

    4月25日,由TECH数字中国技术年会焕新升级而来的"数云原力大会暨2023TECH第五届数字中国技术年会"盛大开启,神州信息升级发布"六合上甲"一体化数据智能 ...

  8. php骑手轨迹_轨迹分析,如何解决车辆定位与道路的偏差?|斑马数智技术内参...

    试想一下,一辆汽车行驶在道路上,1.2.3这三个点是汽车的GPS定位结果,我们可以看到三个点的定位.形成的轨迹和实际道路有非常明显的偏差. 这就是常见的,定位轨迹与地图道路的匹配问题.相信大家都有通过 ...

  9. 科技云报道:重塑增长新动能,“数智融合”捷径该如何走?

    科技云报道原创. 如果说,过去是数字化转型的试验阶段,实施的是开荒动土.选种育苗,那么当前要进行的是精耕细作.植树造林. 数字化转型已进入了由个别行业.个别场景的"点状应用"向各行 ...

最新文章

  1. 借助Unity AR Foundation构建跨平台AR应用
  2. 盘点 | 近期活动信息都在这里啦~
  3. python 同时给多个变量赋值
  4. 【C++】复制构造函数
  5. 怎么在安卓布局里设置滚动字体_Get新技能|如何在手机上设置文字版拼音?
  6. Python笔记(6) 数字
  7. eclipse调试java web_eclipse调试web项目
  8. linux安装mvn及nexus远程仓库
  9. 2019第十二届“认证杯”数学建模(第一阶段)
  10. 关于XDC工具的文章
  11. RabbitMQ — RabbitMQ使用以及原理解析
  12. 全网最详细桥接老式无线路由器教程
  13. oracle查询谁修改了数据ip,查询oracle特定表修改的用户及IP信息
  14. pscs6怎么做html模板,怎么在Adobe Photoshop CS6里制作表格模板(PS)怎么画表格
  15. Marvell88Q5192 switch调试记录(BSTA1000B平台)
  16. 【杂谈】我的书籍推荐
  17. jupyter 更改默认的文件保存路径
  18. dotnet夜话 第六、七集笔记
  19. lsof 查看端口占用
  20. MFC面向对象程序设计

热门文章

  1. 怎样在公众号文章中添加**报名表
  2. 数据挖掘十大算法(九):朴素贝叶斯 python和sklearn实现
  3. iOS关闭打开界面交互
  4. 在手机上安装linux系统
  5. painter X Artists’ Oils(艺术家油彩)画笔
  6. selenium是什么
  7. 如何测试sql服务器的性能测试,SQL执行效率和性能测试方法
  8. 变步长复化梯形法求积
  9. origin2016绘制气泡图颜色映射图
  10. linux后台运行nohup | 进程查看、终止 | linux命令记录