Prometheus 告警收敛
Prometheus 告警收敛
告警面临最大问题,是警报太多,相当于狼来了的形式。收件人很容易麻木,不再继续理会。关键的告警常常被淹没。在一问题中,alertmanger在一定程度上得到很好解决。
Prometheus成功的把一条告警发给了Altermanager,而Altermanager并不是简简单单的直接发送出去,这样就会导致告警信息过多,重要告警被淹没。所以需要对告警做合理的收敛。
告警收敛手段:
- 分组(group):将类似性质的警报分类为单个通知
- 1、减少报警消息的熟练
- 2、同类告警聚合帮助运维排查问题
- 抑制(Inhibition):当警报发出后,停止重复发送由此警报引发的其他警报
配置文件:vim alertmanager.yml# inhibit_rules标记:降低告警收敛,减少报警,发送关键报警 inhibit_rules:# source_match: 匹配当前告警发生后其他告警抑制掉- source_match:# severity: 指定告警级别severity: 'critical'# target_match:抑制告警 target_match:# severity: 指定抑制告警级别severity: 'warning'# equal: 只有包含指定标签才可成立规则equal: ['alertname', 'dev', 'instance']
抑制配置文件
- 1、消除荣誉报警
- 静默(Silences):是一种简单的特定时间静音提醒的机制
- 1、解决预期告警
创建静默
- 访问地址:http://www.xiangsikai.com:9093/#/alerts
1、创建静默
2、填入开始结束时间,填写标签名称,保存
3、查看创建静默
转载于:https://www.cnblogs.com/xiangsikai/p/11289937.html
Prometheus 告警收敛相关推荐
- SpringBoot整合AlertManager,实现自定义的告警收敛以及邮件处理,告警风暴,解决重复告警问题
SpringBoot整合AlertManager,实现自定义的告警收敛以及邮件处理,告警风暴,解决重复告警问题 需求 将传感器通过Http发送到微服务(SpringBoot项目)的警报消息,通知给对应 ...
- 5.prometheus告警插件-alertmanager、自定义webhook案例编写
5.prometheus告警插件-alertmanager 参考文章: https://www.bookstack.cn/read/prometheus-book/alert-install-aler ...
- linux查看文件句柄阀值,prometheus 告警指标
记录了prometheus 告警指标 主机和硬件监控 可用内存指标 主机中可用内存容量不足 10% - alert: HostOutOfMemory expr: node_memory_MemAvai ...
- 开箱即用的 Prometheus 告警规则集
作者 | AddoZhang 责编 | 欧阳姝黎 在配置系统监控的时候,是不是即使绞尽脑汁监控的也还是不够全面,或者不知如何获取想要的指标. Awesome Prometheus aler ...
- prometheus告警功能
prometheus告警功能 Prometheus对指标的收集.存储同告警能力分属于Prometheus Server和AlertManager(通用的组件,可由企业自行开发)两个独立的组件,前者仅负 ...
- 玩转prometheus告警 alertmanger(一)之prometheus告警规则
目录 1. 告警系统原理概述 2. 配置prometheus规则 2.1 配置告警规则目录 2.2 告警规则 3. 查看效果 1. 告警系统原理概述 在开始之前,需要了解下prometheus和al ...
- Prometheus 告警规则
Prometheus 告警规则 Prometheus官方内置的第三方报警通知包括:邮件. 即时通讯软件(如Slack.Hipchat).移动应用消息推送(如Pushover)和自动化运维工具(例如:P ...
- zabbix告警收敛
前言 有时候告警太多了,大部分触发器是检测的最后一次的T值,所以需要对告警收敛 连续3次等于某个值才告警 意思就是 : 经过三次连续检测,如果值不等于1的次数大于2就告警,也就是3分钟内异常次数超过 ...
- 最易懂的Prometheus告警原理详解
通俗易懂的一篇文章,主要介绍了 Prometheus 什么时候告警,什么时候不会告警.同时介绍了 Prometheus 告警原理. 警报是监控系统中必不可少的一块, 当然了, 也是最难搞的一块. 我们 ...
最新文章
- python自动化测试的工具_python自动化测试(3)- 自动化框架及工具
- win10下TensorFlow-GPU安装(GTX1660+CUDA10+CUDNN7.4)
- Linux环境运行Jmeter
- 51nod 1130 N的阶乘的长度 V2(斯特林近似)
- base定义了所有链接的URL
- 【“计算机科学与技术”专业小白成长系列】 计算机操作系统简介
- TCP/IP协议栈扫盲班
- 为什么顶级程序员都有超强逆商?顶级程序员马化腾在艰难的时候,是如何度过的?
- mysql数据库安全开关_对MySQL数据库的安全进行的详述
- 免费高速的钉钉内网穿透——阿里出品必是精品(不限速,不限流量)
- ESP32系列:Unhandled debug exception 、Doubled exception错误
- 段子用计算机等于250,段子手要失业了,计算机也懂幽默
- DNS服务(域名系统、过程、bind、配置文件、查看本设备dns)
- php redis incr过期时间,Redis 利用 incr 和 expire 来限流, 并发导致过期时间失效问题...
- 使用Jsoup技术获取`阿里拍卖`中法院拍卖的所有拍卖品
- 嵌入式Linux驱动笔记(十四)------详解clock时钟(CCF)框架及clk_get函数
- 基于非结构化的数据管理探究
- 高性能数据库连接池的内幕
- 通信算法之二十六:5G讲的这么简单明了
- android dashboard 开源,android dashboard布局