前不久,我们讨论了运维不容错过的 4个关键指标,其中平均解决时间(MTTR)被认为是衡量业务的最佳标准,随后也分析了「告警等级」对MTTR的重要性。

正确看待 MTTR

MTTR 为从故障发生到故障修复所经历的时间。总故障时间是关于告警事件数量与各告警事件时长的函数。经过仔细地探讨这两项因素及其优先级,结合具体情况,总结以下策略用来缩短MTTR:

1)加快工作速度 = 然并卵

如果想通过加快工作速度降低 MTTR,理论上是完美的,但是骨感的现实根本不按我们的剧本走!为了对 MTTR 进行持续的、可衡量的改进,应该对故障事件进行深入的调查,分析事件的复杂程度及重要程度,然后从人与系统的协作上,实现对流程进行优化。

2)检验告警响应时间

一旦事件发生,「MTTR」时钟便开始计时。通过调整通知流程,或许就能速战速决。下图为常见故障处理过程:

还不够直观?数据来说话。 OneAlert 一个月的告警数据显示:平均响应时间为 2.8 分钟;平均解决时间为 27 分钟。(不要问我为什么你们的响应时间要好几个小时!)

如果你的响应时间较长,建议检查一下团队值班响应机制,告警是否可有效传达给了正确的人?如果一线排版人员无响应,告警能否自动升级?升级时间阈值是多少?通过设定接近平均响应时间的适当期望值和目标,能确保所有成员尽快对告警作出响应。

3)建立故障解决流程

告警响应时间过长,说明告警响应机制存在问题,故需建立有效的故障解决流程,即需确保以下内容:

  • 建立有效沟通协议——明确每个人的任务分工,确立有效沟通方式。以 OneAlert 为例,团队的沟通方式主要有 QQ 群聊、WeChat 聊天室、钉钉等。

  • 确定团队领导人——此人将在解决故障期间带领团队工作。需要做好记录并合理安排工作。

  • 做好记录——应当详细记录故障期间发生的一切。这些记录在你事后回顾之时将会非常有用。OneAlert 团队领导人还会定期总结告警事件。

  • 熟能生巧——确保团队中每一个人都不是告警响应的新手。

4)找到并解决问题

事件解决时间大部分花在确定告警问题的过程中。所以,如何更快的明确问题的关键,是目前各大监控工具抢占市场的核心武器。但是未来可以肯定的是,找到问题还不够,自动化处理才是发展的出路。这部分内容将在后期的文章中深入探讨。

OneAlert 是应用性能管理领军企业 OneAPM 公司旗下产品,也是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网 。

本文转自 OneAPM 官方博客

转载于:https://www.cnblogs.com/oneapm/p/5109316.html

「技术大牛」是如何缩短事件平均解决时间的?相关推荐

  1. 「技术人生」第10篇:如何做研发效能提升(即指标体系建设过程回顾)

    01 背景 Aliware 纵观软件研发的发展历程,如果说"业务需求开发"是核心主线的话,那么研发效能建设就是这一核心主线之外最大的一条支线.每个历史阶段的研发效能所面对的主要矛盾 ...

  2. 「技术人生」第2篇:学会分析事物的本质

    简介: 对于研发同学而言,探究事物的本质,是最基础最核心最先需要被掌握的技能,没有之一. 作者:贺科学 技术一号位不是岗位,更多的是技术人员在公司中做事的一种心态,这个系列的文章适合所有想要对日常工作 ...

  3. 「技术综述」有三AI不得不看的技术综述

    https://www.toutiao.com/i6715153780863664653/ 文/编辑 | 言有三 最近遇到了很多新手来交流,网上资料甚多,筛选有时候是个大问题,一般遇到一个新方向,找技 ...

  4. 合格的CTO应该是什么样?雷军王海峰王小川等共谈「技术创新」| CNCC2020

    金磊 发自 CNCC现场 量子位 报道 | 公众号 QbitAI 企业在社会中的分量有多重? 从17世纪到20世纪70年代,改变人类生活的160种主流创新工业,80%以上是由公司来完成. 今天,全世界 ...

  5. 「技术人生」:技术同学应该如何理解业务?

    简介:本文以大量理论论述解析业务,并提供多种基于不同场景的实操方法,帮助技术同学以科学.合理的方式开展日常工作.指导团队开展业务建设,保障顶层设计的落地执行. 一. 背景 目前已经发布<技术一号 ...

  6. 如何摆脱「技术思维」的惯性?

    大家好,我是Z哥. 虽然从标题上看,这篇文章是写给"技术人"的,但从广义上来说,只要你是一位以理性见长的人,那么这篇文章要讲的东西可能会与你有关. 先问大家一个问题. 如果你现在打 ...

  7. 第三十二期:如何摆脱「技术思维」的惯性?

    虽然从标题上看,这篇文章是写给"技术人"的,但 从广义上来说,只要你是一位以理性见长的人,那么这篇文章要讲的东西可能会与你有关. 虽然从标题上看,这篇文章是写给"技术人& ...

  8. 「技术人生」第3篇:解决问题的规律总结

    简介: 本文将介绍问题研究背景及解决问题的一般规律和特殊规律及二者之间的辩证关系. 作者:贺科学 往期技术一号位方法论系列文章: 「技术人生」专题第1篇:什么是技术一号位? 「技术人生」第2篇:学会分 ...

  9. 谁是合约届「技术之王」?

    如果说建造一个交易所就像建造一座雄伟的大厦,那么技术就是大厦的地基,体验友好的产品就像地基之上的高楼,而优秀的运营则像高楼内外的装修与软设施.只有根基稳,产品才能用得踏实:而雄伟的大楼若想为更多人使用 ...

最新文章

  1. 【组队学习】【26期】动手学数据分析
  2. 用大顶堆实现最大优先队列
  3. SqlSugar ORM 入门到精通【一】入门篇
  4. 关于卡巴斯基6.0自动升级时报错后自动退出的情况
  5. 在Asciidoc中的多级列表以及缩进的使用
  6. c语言 strupr,C语言 strupr()用法及代码示例
  7. 条件判断_判断疑似陨石应具备什么条件下,才能判断陨石真伪
  8. 用python玩转数据第三周_《用Python玩转数据》-03 数据获取与表示
  9. 纯CSS实现的风车转动效果特效演示
  10. 使用谷歌云盘生成直接下载的url
  11. matlab 深度网络,深度信念网络matlab代码
  12. win10打印机无法打印(怎样使用打印机打印)
  13. Latex aligned
  14. 这个php兼职靠谱吗?一月3000?
  15. 佐治亚大学计算机科学与工程,2019上海软科世界一流学科排名计算机科学与工程专业排名佐治亚大学排名第401-500...
  16. 4、项目融资 - 打造企业上市系列文章
  17. xv6操作系统源码阅读之init进程
  18. c语言系统通常将一个判断为真,C语言程序设计学习-习题2
  19. julia语言科学计算_Julia –数值计算和数据科学的新方法
  20. electron学习

热门文章

  1. Android 布局之GridLayout(转载)
  2. Log4j 与 Logback的ConversionPattern对比
  3. wdos相关问题解答
  4. SWFUpload多文件上传,文件大小增大问题
  5. 关于css的一切(updating...)
  6. 前后端整合---js对象方法---异步组件
  7. 句句真研—每日长难句打卡Day20
  8. 力扣 独一无二的出现次数
  9. erp系统是什么系统软件
  10. 过几天就退休了,目前情况下可不可以请同事们吃饭呢?