前言:

随着容器、微服务、中台的迅速流行,系统间的访问越来越复杂,在云内、云间可能会运行数千个进程和服务,服务的调用从传统的点对点和点对多点演变成网状。在此背景下,传统的监控技术和手段很难跟踪到这些分布式架构中的数据流、调用链和相互依赖关系,系统内部的可观测性就变得非常重要。

“可观测性”如此重要,那它究竟是什么意思?跟告警又是什么关系?我们往下看。

一、什么是可观测性

可观测性(Observability)最初源自于自动控制领域的一个术语,在控制论中,可观测性是指系统可以由其外部输出,来推断其内部状态的程度,系统的可观测性越强,我们对系统的可控制性就越强。2018年CNCF(云原生计算基金会)把这个概念引入了IT运维领域,称其是云原生时代最重要的系统能力。它的核心是度量,度量你的基础设施、平台、应用、数据和业务,了解它们是如何运行的。

正如管理学大师彼得·德鲁克曾说过:“如果你不能测量它,你就无法管理它。”用在智能运维管理决策中,就是想要做好数据管理,就需要先对它进行度量。

所以说可观测性其实就是能够实时且清楚地输出可衡量系统内部状态和过程从而帮助运维人员解决根因精准定位、得出结论、挖掘场景化等问题,实现协作分享、灵活整合,真正打破数据孤岛。

二、可观测性与告警的关系

作为可观测性的度量指标之一,告警往往影响着运维人员的判断。但有时由于系统原因,告警并不能立刻反映出系统真正的问题,从而导致运维成本增加。比如在以下三个场景中,告警的作用就很一目了然了。

  • 场景1:KPI驱动下的开单风暴

在告警体系中,确保分派是一个非常重要的事情,如何准确有效地开单是核心问题之一,很多银行要求应开即开,但这样会造成开单风暴的出现,这个结果是运维人员不想看到的。这就需要由底层逻辑出发,不仅仅从告警本身进行开单,而是需要对一些有意义、有价值的信息进行开单。

  • 场景2:末端优势下的链式洞见

有些告警的引发并不是单一的,可能是告警A引发了告警B,而告警B又引发了告警C。告警C是我们看到的问题,但源端问题却出现在告警A中。这种链式的问题从末端C溯源到A,能够给到一种确定性的价值,只有确定性才能在进行处置时让决策更准确。

  • 场景3:智能挖掘下的参考提示

智能实际上是把未知变成已知的状态,是把问题从大变小,层层剥离的过程,最终可以把这种未知问题收窄到可以分析并固化,沉淀至知识库,为以后可能出现的问题提供参考价值。

三、告警的重要性

早期运维中的告警是挂在监控系统中的,随着运维数据体量跨越式的增长,告警的作用愈发明显,逐渐演变为单独的体系,成为智能运维体系中的一个重要支柱。具体表现如下:

1,协助运维人员推断有关联的信息。通过解析告警信息,运维人员能够从表层问题推断和了解深层内因,从而获取具有意义、有价值的信息;

2,把数据转化为可供执行的见解。通过链式洞见找到确定性根因,让运维人员能够快速准确地做出决策,从而解决问题;

3,提供排障经验。能复用的经验,可以不用花费大量时间去思考,在问题出现的时候,根据知识库沉淀的经验能够快速解决问题。

当下很多人对告警的期望往往是:当告警发生时,能否立刻定位根因?什么时间发生的?等等。但我们认为,当下智能化告警并不能一击即中,能够做到上述三点,就已经能够帮助运维实现非常大的提升了。

四、既然告警如此重要,那如何才能做好告警呢?

做好一个告警平台,我们认为需要六个字,即:聚焦,理解,合纵。

  • 聚焦:在告警出现的时候,不出现漏报,并能够做到主次分明,可以依据个性化需求关注相关问题,也能在之后起到一定的预警作用。

  • 理解:能够把沉淀下来的经验固化成可追溯、可循迹的路径,在告警到来的时候充分理解其中的信息,以自动化或关联的形式快速解决问题。

  • 合纵:融合信息,面对一个告警的来临,横向补充信息确认告警的价值,纵向挖掘这一告警的出现规律,辅助进一步地推断或执行。

擎创告警产品——“Uni-AlertNex 告警辨析中心”,历经数个版本,从智能回归传统再到实际落地,期间不断加入新角度以提升告警各项能力。将过往的知识与经验沉淀,形成固化路径,能周而复始地使用,帮助运维老兵节省时间出来去做更多重要的事情。

更多新告警平台打造思路后续我们将持续更新,敬请期待~

随手关注,更新不迷路~

老杨说运维 | 智能化告警在全面可观测性中的重要性相关推荐

  1. #老杨说运维# 装了不少监控工具,比如Zabbix,告警信息和监控指标集中管理了吗?

    老杨说, 现在很多的企业,对于IT运维工作,都安装了不少监控工具.比如普罗米修斯啦.Zabbix啦.甚至也有不少IOE的产品.但大多数企业首先会把告警的数据进行集中管理,这样便于及时发现IT系统可能存 ...

  2. #老杨说运维# 夏洛克AIOps的架构图(2020.11)

    从2016年Gartner提出AIOps概念后,经过几年的发展,慢慢有了相对清晰的架构.实践证明,分这样三层,可以有效处理数据并在数据中台上随时叠加多个应用场景. 最底层是统管全部数据的数据处理层,包 ...

  3. 老杨说运维 | AIOps如何助力实现全面可观测性(下)

    上期我们讲到可观测性是什么,以及它能给企业带来的价值, 戳→「老杨说运维 | AIOps如何助力实现全面可观测性(上)」一键回看上期精彩内容. 说完了什么是可观测性,这期我们来看看可观测性是如何落地实 ...

  4. 老杨说运维 | 2023,浅谈智能运维趋势(二)

    (文末附视频,一键观看精彩内容) 前言: 上文提到了智能运维现状中的变化趋势以及 上文提到了智能运维现状中的变化趋势以及过往误区,老杨认为智能运维的体系化建设还需从抓牢数据治理为起点,以终为始做好规划 ...

  5. 老杨说运维 | 2023,浅谈智能运维趋势(三)

    文末附有视频回顾 前言: 在回顾(一)中,老杨提到的智能运维发展趋势中,面对国际化形势不确定的情况,信创部分的比例要求正在递增.作为国家经济发展的新动能,信创发展已步入深水区,智能运维信创化已成为必行 ...

  6. 老杨说运维 | 2021GOPS全球运维大会 上海站擎创CEO杨辰演讲精选(二)

    最近由于上海疫情,很多国际大会都无法举办. 上周小编整理了去年年底在上海举办的2021 GOPS全球运维大会的实录(一),https://eoitek.blog.csdn.net/article/de ...

  7. 老杨说运维 | 2021 GOPS全球运维大会 上海站擎创CEO杨辰演讲精选(一)

    最近由于上海疫情,很多国际大会都无法举办. 趁着居家办公的时机,小编整理了去年年底在上海举办的2021 GOPS全球运维大会的实录,带来一些运维行业的最新洞见,给各位关注运维的小伙伴们做个分享. 去年 ...

  8. 老杨说运维 | 证券行业运维数字化和智能化转型实践探索

    本文源自中国计算机协会云应用分会 2022年度大会中老杨的演讲回顾 随着金融技术的创新发展,证券行业的生态竞争加剧.据了解,28家上市券商在科技投入的规模正以大于15%的增速持续增长,仅2020年总投 ...

  9. 老杨说运维 | 农信行业运维数字化和智能化转型实践分享

    前言: 为推动农村中小银行更好地满足人民银行<金融科技发展规划(2022-2025年)>及银保监会<关于银行业保险业数字化转型的指导意见>对银行数字化转型的相关要求,加快推进农 ...

最新文章

  1. C++中构造函数和析构函数
  2. Spring配置问题——元素 quot;context:component-scanquot; 的前缀 quot;contextquot; 未绑定...
  3. Python--简单的目录扫描脚本
  4. 关注BLUEBEE的浏览器发展
  5. enum java 比较_Kotlin与Java比较:枚举类
  6. RDMBorderedButton
  7. jsf标签_JSF Facelet标签示例教程
  8. 查看Apache并发请求数及其TCP连接状态 --张宴
  9. 基于android的电影院订票影院售票系统app
  10. 烧写器--SPI NAND FLASH烧录定制说明
  11. Linux系统tar、rar、7z、zip压缩解压缩命令使用
  12. 离散傅里叶变换----解释的最透彻的|包括定义物理意义
  13. 备战sp23春招 day8 | 344.反转字符串 541. 反转字符串II 剑指 05.替换空格 151.翻转字符串里的单词 剑指58-II.左旋转字符串
  14. 网站关键词排名突然下降的原因有哪些?
  15. Web Worker 初探
  16. Java中接口的使用你得知道,最全Java知识总结
  17. fatal error C1010: unexpected end of file while looking for precompile
  18. 使用 yum 安装 erlang
  19. java poi word宏_全面了解POI操作Microsoft Office(Word、Excel、PowerPoint)
  20. Tachyon--以内存为核心的开源分布式存储系统

热门文章

  1. springmvc+logback 控制台打印mybatis执行的sql
  2. 积跬步,聚小流------div模拟select,让select美美哒
  3. 小甲鱼Python第二十三讲、第二十四讲(递归-这帮小兔崽子、汉诺塔)
  4. stm32+drv8825驱动42步进电机
  5. 批量下载抖音快手视频
  6. 12306采用Pivotal GemFire分布式解决方案 解决尖峰高流量并发问题
  7. 小故事——巴比奇和他的计算机
  8. 百度云高速下载Pandownload
  9. 大话软件测试_读书笔记
  10. 谷歌浏览器点击保存密码了,下次进入网页还要重新输入密码