可用度计算错误分析:

原始计算逻辑:

1、获取业务下单主机的 已处理告警和未处理告警信息
2、获取已处理告警的平均处理时间 alreadyProcessedAVG = (告警处理时间最大值updatetime-告警处理最小时间)/size已处理告警size=0,则为0
3、获取未处理告警的平均时间untreatedAVG = (发生告警最大时间createTime-发生告警最小时间)/size未处理告警size=0,则为0
4 单机可用性 = alreadyProcessedAVG/(alreadyProcessedAVG+untreatedAVG)分子分母均为零,则可用性=100循环业务下主机,求可用性平均值
根据上述逻辑对告警系统可用度计算进行分析

1. 只存在已处理告警

(1)只存在已处理告警时, untreatedAVG 始终为0;

原始公式
alreadyProcessedAVG/(alreadyProcessedAVG+untreatedAVG)
则可简化为
alreadyProcessedAVG/alreadyProcessedAVG
此时,单机可用性始终为1,即100%;公式正确

2. 只存在未处理告警

(1)只存在未处理告警时, alreadyProcessedAVG 始终为0;

原始公式
alreadyProcessedAVG/(alreadyProcessedAVG+untreatedAVG)
则可简化为
0 / (0 + untreatedAVG )
此时,单机可用性始终为0,即0%;

这种情况下当未处理告警为注意,告警,及严重级别时其实系统为可用状态,可用度为0不合适。

3. 已处理告警与未处理告警信息同时存在
(1)已处理告警与未处理告警信息同时, alreadyProcessedAVG 与 untreatedAVG 都不为0;

原始公式
alreadyProcessedAVG/(alreadyProcessedAVG+untreatedAVG)
1. 若 alreadyProcessedAVG = 1, untreatedAVG = 1,则 单机可用性 = 1/2
2. 若 alreadyProcessedAVG = 50, untreatedAVG = 1,则 单机可用性 = 50/51
3. 若 alreadyProcessedAVG = 100, untreatedAVG = 1,则 单机可用性 = 100/101

可以看出已处理告警所花的平均时间越长,则单机的可用性越高,实际情况中,在一个系统可用周期中,应该是处理告警所花的时间越短则单机的可用性越高。

1. 若 alreadyProcessedAVG = 1, untreatedAVG = 1,则 单机可用性 = 1/2
2. 若 alreadyProcessedAVG = 1, untreatedAVG = 50,则 单机可用性 = 1/51
3. 若 alreadyProcessedAVG = 1, untreatedAVG = 100,则 单机可用性 = 1/101

可以看出未处理告警所花的平均时间越长,则单机的可用性越低,这种情况下逻辑正常

在是上面两种情况下根据所有告警计算,但是在实际情况中,注意级别,告警级别,严重级别的告警信息并不会造成系统的不可用,所以若只存在灾难级别的告警时,系统已经不可用,但是计算得出的单机可用度并不为0.

可用度计算方案:

术语:

MTTR、MTTF、MTBF是体现系统可靠性的重要指标,但是三者容易混淆,下文使用图解方式解释三者之间的区别,希望能起到解惑的效用。

MTTF (Mean Time To Failure,平均无故障时间),指系统无故障运行的平均时间,取所有从系统开始正常运行到发生故障之间的时间段的平均值。 MTTF =∑T1/ N

MTTR (Mean Time To Repair,平均修复时间),指系统从发生故障到维修结束之间的时间段的平均值。MTTR =∑(T2+T3)/ N

MTBF (Mean Time Between Failure,平均失效间隔),指系统两次故障发生时间之间的时间段的平均值。 MTBF =∑(T2+T3+T1)/ N

很明显:MTBF= MTTF+ MTTR

计算方案:

在告警系统中:

单机可用度 = MTTF / MTBF

MTTF(∑T1/ N) :
平均无灾难级别告警的时间

MTTR(∑(T2+T3)/ N)
灾难级别告警从产生到修复的平均时间

MTBF(∑(T2+T3+T1)/ N):

灾难级别告警从上次修复到下次产生并修复的平均时间

具体计算逻辑:

(1)当至少有一个未解决的灾难级别告警时:系统可用度为0%
(2)当有0个未解决的灾难级别告警时:
a. 若已解决的灾难级别告警数为0,则系统可用度为100%
b. 若已解决的灾难级别告警数大于0,则系统可用度采用下面公式计算

(∑T1/ N)/ (∑(T2+T3+T1)/ N)

= (∑T1)/ ∑(T2+T3+T1)

= ∑(第二条故障的开始时间 - 第一条故障的修复时间)/ 最后一条告警修复的时间 - 第一条告警修复的时间

MTTR、MTTF、MTBF相关推荐

  1. MTTR、MTTF、MTBF详解

    MTTR.MTTF.MTBF是体现系统可靠性的重要指标,但是三者容易混淆,下文使用图解方式解释三者之间的区别,希望能起到解惑的效用.MTTF (Mean Time To Failure,平均无故障时间 ...

  2. 软件设计(四)--MTBF、MTTF、MTTR

    软件设计(三)https://blog.csdn.net/ke1ying/article/details/128808681 31.结构化开发中,过程设计 主要包含对数据结构和算法的设计. 体系结构设 ...

  3. MTTR、MTBF、MTTF、MTTD

    MTBF(Mean Time Between Failures):指两次故障之间的平均时间,通常用于衡量设备或系统的可靠性. MTTD(Mean Time to Detect):指从故障发生到检测到故 ...

  4. 浅析设备管理的MTTR,MTTF,MTBF计算方法

    一般来说,对于设备的关键性指标的统计,国际惯例中有三个指标用来进行统计,它们分别是: MTTR(Mean Time To Repair),平均修复时间.计算方法是:总的故障时间/故障次数.计算公式为: ...

  5. MTTF、MTTR、MTBF

    MTTF(Mean Time to Failure,失效前的平均时间) MTTF是指某个硬件预计可运行的平均时间,可以理解为某个硬件的寿命均值 系统的可靠性越高,可运行时间越长(平均寿命越长) MTT ...

  6. MTBF是什么意思?交换机做MTBF有什么要求?MTTF、MTBF和MTTR的区别是什么?

    MTBF,即平均故障间隔时间,英文全称是"Mean Time Between Failure".是衡量一个交换机的可靠性指标.单位为"小时".它反映了交换机的时 ...

  7. MTBF、MTTR、MTTF是什么?

    MTBF(Mean Time Between Failures,平均故障间隔时间) 定义为失效或维护中所需要的平均时间,包括故障时间以及检测和维护设备的时间.对于一个简单的可维护的,MTBF = MT ...

  8. MTBF、MTTR、MTTF三个指标的区别在哪儿

    MTBF.MTTR.MTTF三个指标的区别 1.MTBF,全称是Mean Time Between Failure,即平均无故障工作时间.就是从新的产品在规定的工作环境条件下开始工作到出现第一个故障的 ...

  9. 什么是MTTF、MTBF、MTTR?

    MTTF (Mean Time To Failure,平均无故障时间),指系统无故障运行的平均时间,取所有从系统开始正常运行到发生故障之间的时间段的平均值. MTTF =∑T1/ N MTBF (Me ...

最新文章

  1. html类名的作用,bootstrap类名及作用(部分)
  2. 【Java基础】Java常见的异常
  3. 20、DELETE:删除数据
  4. 【干货】七步,让你的网页表单更亲切
  5. Jdom的SAXBuilder解析String形式的XML
  6. 轻量级文本编辑器,Notepad最佳替代品:Notepad++
  7. 433M无线串口E30-TTL-100在农业物联网上的应用
  8. hive load data inpath 空目录_hive学习笔记之四:分区表
  9. Blackcat主题-Wordpress
  10. Mylyn 2.0,第 1 部分: 集成的任务管理
  11. jQuery中的筛选(六):first()、last()、has()、is()、find()、siblings()等
  12. 不要再被Python洗脑了,来看看这个吧......
  13. 幂等校验是什么意思_什么是接口的幂等性,如何实现接口幂等性?一文搞定
  14. 3D打印经验分享导航
  15. 有什么新手适合的3D建模软件
  16. 【AAAI 2021】全部接受论文列表(一)
  17. Threejs实现酷炫3D地球技术点汇总
  18. 微信消息能在服务器上彻底清除,快速彻底删除微信消息的方法如此简单 很多人都用错了方法!...
  19. NSA泄密事件之SMB系列远程命令执行漏洞及Doublepulsar后门全球数据分析
  20. DTMB BDA TV USB

热门文章

  1. wan端口未连接怎么弄_路由器WAN口未连接怎么解决?
  2. 3、NC系统接口集(持续更新)
  3. C#中(int)、Conver.Toint32()、int.Parse()三种类型转换方式的区别与联系--C#基础知识
  4. 一文读懂“什么是Web 1.0,Web 2.0,Web 3.0?”
  5. 基于JAVA-超市会员积分管理系统-计算机毕业设计源码+系统+lw文档+部署
  6. 互动让综艺再进化,「黑科技」如何让这届年轻人身临其境做戏精?
  7. Arduino入门(一)
  8. 最新--2018下半年Android面试历程(转载)
  9. Java设计模式之——适配器
  10. S700K转辙机多机牵引道岔故障处理【转自微信公众号高速铁路信号技术交流】