(文末附视频,一键观看精彩内容)

前言:

上文提到了智能运维现状中的变化趋势以及

上文提到了智能运维现状中的变化趋势以及过往误区,老杨认为智能运维的体系化建设还需从抓牢数据治理为起点,以终为始做好规划。

数据治理团体标准的发布,能够有效帮助企业对现有智能运维建设成果进行评估,依据结果对应的成熟度体系指导企业确立建设目标,并形成相应的建设规划,这或许会是未来智能运维建设的范式。

老杨说运维 | 2023,浅谈智能运维趋势(一)

作为数据治理团体标准的编撰组成员,擎创科技在标准颁布之后即将其应用到数个项目中,目前已初具成效。对于标准的落地应用,老杨带来了2个不同项目的实践分享。

一、实践分享一

敏稳双态共存挑战,建立标准体系应对

这是某金融客户的案例,首先建设之前从两个角度入手进行短板评估。

1.从运维部门组织角度去看,我们发现客户群体中普遍都存在敏稳双态共存的挑战。

  • 在运行部门方面,多业务系统发生问题时很难理清排障方向,告警量超过了万级/日,事后复盘十分困难;

  • 在应用部门方面,出现问题需要花费大量成本去联动其他部门进行排障,自研的应用监控处理能力有限,面对传统环境和云环境并行运维的局面,压力巨大;

  • 在系统部门方面,由于处在资源的夹心层,监控手段又比较单一,对阈值管理的负担很大且经常不准等。

2.从运维工具角度去看

  • 集中告警平台利用规则来降噪的维护负担过大,告警风暴出现时没有很好的熔断通知机制等;

  • 自建的数据平台靠纯算法的能化检测效果不佳,数据不全面,难以形成可靠的根因定障能力;

  • 可视化平台由分散式的数据集成,重复承担数据清洗工作,导致可视化需求出现时实现时间延长;

  • 应用监控的交易指标维度拆分不够,没有动态阈值的检测能力,不能和静态阈值融合,用户体验十分不佳。

根据评估出来短板做相应的治用一体规划,从标准指标体系建立出发,根据客户行业特点及要求对运维数据指标类型进行多维度综合分类分层。其中按照关键级别可分为关键指标、主要指标、次要指标;根据统计维度分为标准指标、衍生指标、聚合指标,辅以编码规则并对指标进行标签化,形成标签库,为后期的监控、排障分析、系统画像等场景提供有力的支撑。

同时,对于告警质量的管理在数据治理的过程中也不可或缺,从体系化的角度开展,做到源末同治。何为源末同治?告警并非一种先天事件,它由各类监控指标触发,其准确程度与各环节的质量有关联。源是从指标体系规划、指标采集质量管控、阈值配置要求开始,到末端处置规则筛查保证准确性,都要做好数据的治理。这样如果出现告警质量问题,则能全面了解是哪个环节的具体步骤不到位,迅速找到问题根本并解决。

二、实践分享二

场景不应臆想,从过往事件中取经

运维中发生过的生产事件能够为场景规划提供重要根据,按照时间序列去复盘能够看清整个事件当中发生的各类状况,例如耗时长短、故障根因等。这是某银行在云上生产事件的调研复盘,我们可以看到从故障出现(交易量陡增,响应时间大幅增长)造成客户投诉,这期间总共花费了40分钟。在故障发生后,尝试过扩容、重启Gateway,但都没有解决问题,最后又扩容重启了微服务的容器才得以恢复。

在面对这样的故障时,如果能够有效地关联事件、厘清相关数据(指标、日志、告警),则能够从数据层面进行有效的排障分析,进而解决问题。

根据这次事故我们可以从中定义一个场景故事:运维过程中经常会遇到多业务系统同时发生问题,面对大量告警仍依赖经验排查,如果优先级不明确、无法厘清事件关联,就难以快速诊断问题,严重影响业务运营。

老杨认为,当多个业务系统告警出现时,可以从上下游关系影响和同源影响两个方面先行着手判断,逐步下钻分析数据、确认关联性、厘清问题源头。每一步诊断都对应有相关的场景平台功能去完成,并相互支撑相互配合形成有效的解决方案。

通过数据评估、生产事件分析以及方案场景推敲。最终得出一期项目的建设逻辑和规划。

关于标准和数据治理的分享到这里就告一段落了。

三、三个阶段和五个统一理论

而对于AIOps建设的实践我们仍想分享“三个阶段和五个统一”的理论,在相对应的阶段下做合理的建设规划,相信最终一定能将智能运维推向智慧化运营的光辉前景中去,具体内容在此不做赘述,请点击下方图片重温三个阶段与五个统一的建设规划思路。

精彩内容直达,戳↓↓↓

老杨说运维直播回顾2


擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

更多运维思路与案例持续更新中,敬请期待

随手点关注,更新不迷路~

老杨说运维 | 2023,浅谈智能运维趋势(二)相关推荐

  1. 老杨说运维 | 2023,浅谈智能运维趋势(三)

    文末附有视频回顾 前言: 在回顾(一)中,老杨提到的智能运维发展趋势中,面对国际化形势不确定的情况,信创部分的比例要求正在递增.作为国家经济发展的新动能,信创发展已步入深水区,智能运维信创化已成为必行 ...

  2. 博达3956交换机配置手册_网络设备维保浅谈之交换机维保

    随着信息化的飞速发展,交换机作为信息流通的承载者,是应用最为广泛的网络设备之一,其作用不言而喻.因此,在日产使用中,要注意交换机这种核心的设备的维护与保养,以免引发故障.交换机运维需要注意哪些问题?让 ...

  3. 【转载】运维角度浅谈MySQL数据库优化

     运维角度浅谈MySQL数据库优化 2015-06-02 14:22:02 标签:mysql优化   mysql分库分表分区 mysql读写分离 mysql主从复制 原创作品,允许转载,转载时请务必以 ...

  4. 浅谈智能交通中的电子地图

    浅谈智能交通中的电子地图 20世纪80年代以来,随着经济的发展和人口的增长,车和人的矛盾变得越来越尖锐,交通拥挤和阻塞现象日益严重,交通污染与交通事故等日益困扰着交通事业的发展.路网通过能力已不能满足 ...

  5. 浅谈智能消防疏散应急照明系统在高层建筑的设计与应用

    [摘 要]在城市现代化发展过程中,高层建筑日益增多.建筑向多功能.高层化方向发展成为城市发展的必然,在此背景下,需要重视建筑的消防工作,重新设定消防应急照明及疏散指示系统的标准,使消防应急照明疏散系统 ...

  6. 浅谈智能摄像机背后的p2p连线技术

    浅谈智能摄像机背后的p2p连线技术 物联网主要由各类传感器(音视频/图像/温湿度/烟雾/压力/速度)+无线入网模块(WIFI/BLE/Zigbee/NB-IOT)组成, 经过约十年的发展,国内物联网已 ...

  7. 袁萌浅谈C919大飞机(二)

    袁萌浅谈C919大飞机(二) 2015年11月2日,C919大飞机从生产线上下来.从此,C919大飞机的机体算是诞生了.至于这个大家伙会不会"飞"起来,当时人们还不知道. 人们的预 ...

  8. 浅谈智能问答系统发展及在高校中需求现状

    在科技新时代的发展中,智能信息化一直是研究的热点,家里用的扫地机器人,强劲有效清除尘土:阿里巴巴2017年推出的AI智能产品-天猫精灵,能实现智能家居控制.查天气.语音购物.手机充值.百科查询.音乐播 ...

  9. 浅谈智能气压传感器在智能手机中的应用

    浅谈智能气压传感器在智能手机中的应用 手机之所以智能,离不开各种各样的传感器, 传感器技术的地位越来越重要.现在智能手机中比较常见的传感器有: 距离传感器:当接电话是,传感器会感应到距离,从而自动关掉 ...

最新文章

  1. timestamp 数据类型
  2. 【Forge】Minecraft 1.7.10 Mod开发研究 - 黑猫背包MOD 【06-给你唱一首岁月的歌】
  3. intel服务器最新主板芯片组,intel主板芯片组的介绍
  4. “睡服”面试官系列第九篇之数值的扩展(建议收藏学习)
  5. 中国计算机学会第七届全国Web信息系统及其应用学术会议(WISA2010)征文通知
  6. 立法者在民权受到侵蚀时忽略了黑匣子算法
  7. 基于Python向Abaqus导入txt、dat数据(附abaqus中python二次开发课程)
  8. python圣经是哪本_我的圣经:17年前的那本《Python 2.1 宝典》
  9. glTexSubImage2D的使用详解
  10. Ubuntu下安装GParted并分区,进行虚拟机内存扩展
  11. Python: 进行one-hot编码
  12. 关于 Macbook 外接显示器模糊问题
  13. 两面夹定理_故事的两面
  14. EXCEL如何设置固定表头
  15. zynq linux tf卡系统升级,zynq之TF卡写入常见问题
  16. udp2raw android,关于udpspeeder和udp2raw部署的一些补充,及使用体会
  17. Java Robocode 以示例wall为基准的一个坦克
  18. 大数据存储技术期末复习
  19. cassandra nodetool 指令
  20. flask框架之闪现消息提示

热门文章

  1. QT5.9.3高仿探探雷达扫描控件 扫描+回波
  2. python获取电脑有线/无线网卡MAC地址信息
  3. 信息发布系统在校园中的应用-校园直播发布,校园媒体发布
  4. steam人机验证一直重复_【Steam】最低只要3元!久玩不腻的生存游戏终于打折了!饥荒快跟上!...
  5. VQA- 近五年视觉问答顶会论文创新点笔记
  6. Dell precision3530 拆机加装内存条全流程(有图)
  7. NB-IoT和LoRa的区别
  8. 【梳状滤波器:浅析其基本概念、功能特点及与全通、最小相位滤波器的区别】
  9. 用python编写最简单的记事本_利用Python制作一个“电子记事本”
  10. 反脆弱性的软件架构 - 微服务