Dynatrace系列之- 标记常见问题
Dynatrace系列之- 标记常见问题
在大型环境中,系统的某些方面可能会持续触发不必要的警报。这些告警可能来自非关键组件或者是非关键情况下的资源不足的问题。通常这些问题不需要人员响应。
为了减少此类警报并避免发出垃圾告警邮件,Dynatrace AI根因分析引擎会自动检测那些经常发生但是并非重要的问题。Dynatrace通过观察指定期内(一天和一周)那些受监控实体的问题模型来检测此类频繁出现的问题。
当在这些时间段内多次检测到同一问题时,Dynatrace会根据阈值突破的实际严重程度与问题的持续时间来评估问题。然后,它会比较同一实体上过去的问题警报的严重性和持续时间,并且仅在问题的严重性增加时才发出警报。下图说明了此过程。
与之前的警报相比不太严重且持续时间较短的问题被认为是常见问题,因此针对这些问题取消了告警(Problem)。Dynatrace中事件严重性的排列如下:
事件严重级别 | 事件类型 |
---|---|
Severity 1 | Availability |
Severity 2 | Error |
Severity 3 | Slowdown |
Severity 4 | Resource |
Severity 5 | Custom |
Severity 6 | Info(不生成Problem) |
这种智能的检测和处理常见问题的方法可确保您收到严重性随时间而增加的问题的警报,同时避免警报垃圾邮件。
常见问题的概述页面包括“常见问题”消息,如下例所示。
常见问题评估
下图显示了问题的分类。
- 绿色为正常运行状态。
- 黄色是经常发生的事件,但对您的系统来说是正常的。例如,它可能是与非关键任务设备相关的慢磁盘读写事件。这些事件是不健康的,但没有必要告警。
- 红色是确实会影响正常操作并触发警报的事件。
评估过程的目标是将传入事件分类为黄色或红色。
对于每种事件类型和每个受监控实体,评估过程都是独立的。它从两组历史事件开始:
- 最近24小时的事件
- 最近7天的事件
然后进行如下评估:
- 将24小时数据集合以下面两种方式储存
持续时间(最短到最长)
严重程度(从低到高)
- 当一个新事件到达时,它将被放置在每个排序集中的适当位置。
- 从每个初始排序的集合中,创建一个子集,该子集由新事件右边的事件组成(即更长和更严重)。
- 创建一个参考集,其中包含同时出现在这两个子集中的事件。
参考集的大小计算为参考集中的事件数。
参考集的持续时间计算为参考集中事件的持续时间之和。
- 从7天的数据集合中创建相同的参考集。
- 评估以下条件:
如果24小时参考集的大小等于或大于3,则将条件解析为黄色。否则,将其解析为红色。
如果24小时参考集的持续时间等于或大于24小时的50%(12小时= 720分钟= 43,200秒),则该条件解析为黄色。否则,将其解析为红色。
如果7天参考集的大小等于或大于7,则该条件解析为黄色。否则,将其解析为红色。
如果7天参考集的持续时间等于或大于7天的30%(50.4小时= 3,024分钟= 181,440秒),则该条件解析为黄色。否则,将其解析为红色。
- 如果将至少一种情况解析为黄色,则事件分类为黄色。
否则将其分类为红色,并触发警报。
初步评估后,每个黄色事件都将以1分钟的间隔重新评估,直到变为红色或停用为止。
有关评估过程请参见下面的示例。
为了简单起见,本示例仅考虑24小时制。在此示例中,事件类型是主机上的CPU饱和。最近24小时的历史事件具有以下持续时间和严重性:事件1 -45秒,95.5%
事件2 -15秒,99%
事件3 -35秒,98%
事件4 -30秒,97%
事件5 -60秒,96%排序后的集合如下所示:持续时间:{事件2,事件4,事件3,事件1,事件5 }
严重性:{事件1,事件5,事件4,事件3,事件2 }一个新的事件到来:事件NEW -28秒,95%。它在排序集中处于以下位置:持续时间:{事件2,事件NEW,事件4,事件3,事件1,事件5 }
严重性:{事件NEW,事件1,事件5,事件4,事件3,事件2 }包含右侧事件的子集如下所示:持续时间:{事件4,事件3,事件1,事件5 }
严重性:{事件1,事件5,事件4,事件3,事件2 }以下事件同时出现在两个子集中并形成参考集:{事件1,事件3,事件4,事件5 }。参考集的大小为4。条件被解析为黄色。
参考集的持续时间为170秒。条件被解析为红色。有一个黄色情况,因此“新事件”被分类为黄色,并且不会触发警报。
Dynatrace系列之- 标记常见问题相关推荐
- 信创办公--基于WPS的Word最佳实践系列(表格常见问题的处理)
信创办公–基于WPS的Word最佳实践系列(表格常见问题的处理) 1. 巨大表格的粘贴,超过word边界怎么办 项目背景 在我们的日常办公中,我们时常需要在excel复制表格到word文档中,但是有时 ...
- Dynatrace系列之- 如何发现和分析问题
Dynatrace系列之- 如何发现和分析问题 Dynatrace用Problem(问题)表示异常情况,即偏离了正常行为或状态.例如某个服务速度变慢或某个用户登录应用速度变慢.每当检测到问题时,Dyn ...
- Dynatrace系列之- 数据保留时间
Dynatrace系列@数据保留时间 数据保留期 Dynatrace可存储和保留了不同类型的监控数据.监控数据存储在Dynatrace服务器上.下表显示了Service数据(PurePath),Rea ...
- java整段标记_聊聊JAVA GC系列(7) - 标记整理算法
在介绍"平平无奇"的标记清除算法时, 还留下了另一个问题, 就是内存碎片的问题. 内存碎片的问题是指, 每次回收的内存都是比较分散的, 可以加起来是一个比较大的数值, 但是由于可用 ...
- 垃圾回收算法与实现系列-GC 标记-清除算法
导语 在GC 中最重要的算法就是GC标记-清除算法(Mark-Sweep GC).在很多的场景下都还是在使用这个算法来进行垃圾回收操作.就如如同它的名字一样先标记,然后清除.下面就来看看标记清除算 ...
- dmol3给定关键字不在字典中_Materials Studio自学系列——软件安装常见问题及解决方法...
Hello! Hello!小伙伴们!,我是新人UP Rianter.疫情期间,Rianter在学习MS的过程中发现非常有用的视频"BV1d741127UF"和"BV1h7 ...
- Dynatrace系列之- 监控第三方API调用
(译)如何使用Dynatrace真实用户监控(RUM)检测有影响的第三方API调用 作者:Andreas Grabner 对软件工程来说,第三方API已经变得和我们自己的代码或执行代码的运行时一样重要 ...
- Dynatrace系列之-排除干扰请求
排除干扰请求 Dyatrace监控了所有服务端的请求.当特定请求的性能或者失败率高的时候,Dynatrace将触发告警.然尔不是所有的高并发的请求都是重要的请求,有些慢请求也不需要告警.比如心跳请求. ...
- MATLAB从入门到精通系列之MATLAB常见问题集锦-(二)
1.在MATLABParallel Computing Toolbox中,我能使用的最大worker数是多少? 在 R2013b 之后的版本(不含)中,MATLAB Parallel Computin ...
最新文章
- spring连接mysql出现问题_使用spring连接mysql数据库出错
- 如何使用struts2对集合参数进行验证
- python中print又可将数据写入文件_Python第五课-将写入文件的列表格式化
- 页面优化指南(easyui页面优化方案
- C++:类对象的复制和赋值
- opencv+python视频实时质心显示
- SDL2 undefined reference to `SDL_Init' 问题
- 基于SpringBoot从零构建博客网站 - 整合ehcache和开发注册登录功能
- python 基础 信息量很大很好,适合复习
- (转)使用CUnit进行单元测试和覆盖率统计
- 数组、集合、链表实现学生成绩管理系统
- MATLAB(五) 图像处理--图像分割
- WinHex的使用指南(图文详细版)
- C语言课程设计大作业——学生管理系统(详细含报告和源码)
- java教程51_java基础视频教程
- HTML5期末大作业:出行网站设计——西安旅游-高质量(9页) HTML+CSS+JavaScript 学生DW网页设计
- 学员故事|老男孩网络安全学习感悟,结果让我意外!
- 微信小程序小技巧系列《一》幻灯片,tab导航切换
- 性能强悍的CSS动画库--Animate.css
- 微信支付账单修改数字