Prometheus告警实践
完整译文请访问:告警。
点击这里获取云原生干货https://www.coderdocument.com/resource_credential.html?code=云原生干货
对什么告警
目标是尽可能少地触发告警,通过关联终端用户痛点来触发告警,而不是试图捕捉所有可能触发告警的条件。告警应该链接到相关的控制台,以便于找出哪个组件有问题。
可以对告警保持一定的宽容,以适应小幅波动。
在线服务系统
尽可能对高延迟和高错误率情况触发告警。
在堆栈中某一点的延迟只显示一个页面。如果较低级别的组件延迟较高,但是总体来说,延迟良好,那么就不需要添加页面。
有关错误率,只对“用户可见错误”提供页面。如果有错误会使堆栈挂掉而引发故障,则不需要分别对它们提供分页。但是,如果有些故障用户不可见,但是严重到需要人工参与(例如,错误导致损失很多钱),则需要添加相关页面。
如果不同类型的请求具有不同的特征,你可能需要分别对它们发出告警,否则低流量类型的请求中的问题将被高流量请求淹没。
离线处理
对于离线处理系统,关键指标是系统处理数据所需的时间,因此如果数据处理耗时很长,会对用户造成影响,则添加页面。
批处理作业
对于批处理作业,如果批处理作业最近没有成功,则需要添加页面,而且这将引发用户可见的问题。
这通常需要足够的时间执行两次完整的批处理作业。对于每4小时运行一次、需要1小时的作业,10小时是合理的阈值。如果你无法接受一次运行失败,请更频繁地运行作业,因为一次失败应该不需要人工进行干预。
容量
虽然容量问题不会立即对用户造成影响,但容量不足通常需要人工进行干预,以避免在不久的将来出现停机。
元监控
重要的是要确认监控正在发挥作用。因此,要有告警,以确保Prometheus服务器、Alertmanager、PushGateway和其他监控基础设施是可用的并且正常运行。
与往常一样,如果能够根据症状而不是原因触发告警,这有助于降噪。例如,从PushGateway到Prometheus,再到Alertmanager,再到电子邮件的告警黑盒测试比各自告警要更合适。
使用外部墨盒监控来补充Prometheus的白盒监控,可以捕捉到原本不可见的问题,也可以在内部系统完全故障时用作回调。
及时获取更多精彩文章,请扫码关注如下公众号《云原生之家》:
Prometheus告警实践相关推荐
- 5.prometheus告警插件-alertmanager、自定义webhook案例编写
5.prometheus告警插件-alertmanager 参考文章: https://www.bookstack.cn/read/prometheus-book/alert-install-aler ...
- linux查看文件句柄阀值,prometheus 告警指标
记录了prometheus 告警指标 主机和硬件监控 可用内存指标 主机中可用内存容量不足 10% - alert: HostOutOfMemory expr: node_memory_MemAvai ...
- 开箱即用的 Prometheus 告警规则集
作者 | AddoZhang 责编 | 欧阳姝黎 在配置系统监控的时候,是不是即使绞尽脑汁监控的也还是不够全面,或者不知如何获取想要的指标. Awesome Prometheus aler ...
- prometheus告警功能
prometheus告警功能 Prometheus对指标的收集.存储同告警能力分属于Prometheus Server和AlertManager(通用的组件,可由企业自行开发)两个独立的组件,前者仅负 ...
- Prometheus 告警收敛
Prometheus 告警收敛 告警面临最大问题,是警报太多,相当于狼来了的形式.收件人很容易麻木,不再继续理会.关键的告警常常被淹没.在一问题中,alertmanger在一定程度上得到很好解决. P ...
- 玩转prometheus告警 alertmanger(一)之prometheus告警规则
目录 1. 告警系统原理概述 2. 配置prometheus规则 2.1 配置告警规则目录 2.2 告警规则 3. 查看效果 1. 告警系统原理概述 在开始之前,需要了解下prometheus和al ...
- Prometheus 告警规则
Prometheus 告警规则 Prometheus官方内置的第三方报警通知包括:邮件. 即时通讯软件(如Slack.Hipchat).移动应用消息推送(如Pushover)和自动化运维工具(例如:P ...
- 最易懂的Prometheus告警原理详解
通俗易懂的一篇文章,主要介绍了 Prometheus 什么时候告警,什么时候不会告警.同时介绍了 Prometheus 告警原理. 警报是监控系统中必不可少的一块, 当然了, 也是最难搞的一块. 我们 ...
- alertmanager监控 Prometheus 告警,alertmanage配置邮件告警
1.搭建Prometheus,node及mysql参考该链接: 配置grafana展示prometheus监控数据 2.下载安装 alert manager: https://prometheus.i ...
最新文章
- uni-app 之 使用扩展组件(uni ui) Pagination 分页器使用示例
- [leetcode]_Integer to Roman
- 千米感知误差低于5%,嬴彻发布全球领先的超长距精准3D感知技术
- 前端学习(294):rem小实例
- 吴恩达深度学习 —— 3.11 随机初始化
- NUC1419 位操作【位运算+STL】
- 电脑故障检测软件_硬核科普—常用电脑检测软件手把手教学!
- iOS开发网络篇—GET请求和POST请求(转)
- 蓝桥杯单片机头文件导入_CT107D蓝桥杯单片机编程笔记
- 什么是网站PR值?如何提高网站pr值?网站pr值查询!
- java用etiplus如何打jar,README.md · Ranossy/majsoul_mod_plus - Gitee.com
- hdwiki的php架构,齐博CMS(原php168)整合百科系统(HDwiki)手记
- 加拿大的计算机技术专业,详解加拿大计算机专业及相关方向
- 短视频矩阵系统源码。抖音矩阵系统源码。抖音SEO源码。
- idea常见问题-个人而言
- 5、分组密码工作模式
- 2022年10月16日 记
- 如何写好测试用例以及go单元测试工具testify简单介绍
- 文本分类概念类大总结(机器学习+深度学习)
- SQL Server 使用全文索引进行页面搜索