完整译文请访问:告警。

点击这里获取云原生干货https://www.coderdocument.com/resource_credential.html?code=云原生干货

对什么告警

目标是尽可能少地触发告警,通过关联终端用户痛点来触发告警,而不是试图捕捉所有可能触发告警的条件。告警应该链接到相关的控制台,以便于找出哪个组件有问题。

可以对告警保持一定的宽容,以适应小幅波动。

在线服务系统

尽可能对高延迟和高错误率情况触发告警。

在堆栈中某一点的延迟只显示一个页面。如果较低级别的组件延迟较高,但是总体来说,延迟良好,那么就不需要添加页面。

有关错误率,只对“用户可见错误”提供页面。如果有错误会使堆栈挂掉而引发故障,则不需要分别对它们提供分页。但是,如果有些故障用户不可见,但是严重到需要人工参与(例如,错误导致损失很多钱),则需要添加相关页面。

如果不同类型的请求具有不同的特征,你可能需要分别对它们发出告警,否则低流量类型的请求中的问题将被高流量请求淹没。

离线处理

对于离线处理系统,关键指标是系统处理数据所需的时间,因此如果数据处理耗时很长,会对用户造成影响,则添加页面。

批处理作业

对于批处理作业,如果批处理作业最近没有成功,则需要添加页面,而且这将引发用户可见的问题。

这通常需要足够的时间执行两次完整的批处理作业。对于每4小时运行一次、需要1小时的作业,10小时是合理的阈值。如果你无法接受一次运行失败,请更频繁地运行作业,因为一次失败应该不需要人工进行干预。

容量

虽然容量问题不会立即对用户造成影响,但容量不足通常需要人工进行干预,以避免在不久的将来出现停机。

元监控

重要的是要确认监控正在发挥作用。因此,要有告警,以确保Prometheus服务器、Alertmanager、PushGateway和其他监控基础设施是可用的并且正常运行。

与往常一样,如果能够根据症状而不是原因触发告警,这有助于降噪。例如,从PushGateway到Prometheus,再到Alertmanager,再到电子邮件的告警黑盒测试比各自告警要更合适。

使用外部墨盒监控来补充Prometheus的白盒监控,可以捕捉到原本不可见的问题,也可以在内部系统完全故障时用作回调。

及时获取更多精彩文章,请扫码关注如下公众号《云原生之家》:

Prometheus告警实践相关推荐

  1. 5.prometheus告警插件-alertmanager、自定义webhook案例编写

    5.prometheus告警插件-alertmanager 参考文章: https://www.bookstack.cn/read/prometheus-book/alert-install-aler ...

  2. linux查看文件句柄阀值,prometheus 告警指标

    记录了prometheus 告警指标 主机和硬件监控 可用内存指标 主机中可用内存容量不足 10% - alert: HostOutOfMemory expr: node_memory_MemAvai ...

  3. 开箱即用的 Prometheus 告警规则集

    作者 | AddoZhang       责编 | 欧阳姝黎 在配置系统监控的时候,是不是即使绞尽脑汁监控的也还是不够全面,或者不知如何获取想要的指标. Awesome Prometheus aler ...

  4. prometheus告警功能

    prometheus告警功能 Prometheus对指标的收集.存储同告警能力分属于Prometheus Server和AlertManager(通用的组件,可由企业自行开发)两个独立的组件,前者仅负 ...

  5. Prometheus 告警收敛

    Prometheus 告警收敛 告警面临最大问题,是警报太多,相当于狼来了的形式.收件人很容易麻木,不再继续理会.关键的告警常常被淹没.在一问题中,alertmanger在一定程度上得到很好解决. P ...

  6. 玩转prometheus告警 alertmanger(一)之prometheus告警规则

    目录 1. 告警系统原理概述 2.  配置prometheus规则 2.1 配置告警规则目录 2.2 告警规则 3. 查看效果 1. 告警系统原理概述 在开始之前,需要了解下prometheus和al ...

  7. Prometheus 告警规则

    Prometheus 告警规则 Prometheus官方内置的第三方报警通知包括:邮件. 即时通讯软件(如Slack.Hipchat).移动应用消息推送(如Pushover)和自动化运维工具(例如:P ...

  8. 最易懂的Prometheus告警原理详解

    通俗易懂的一篇文章,主要介绍了 Prometheus 什么时候告警,什么时候不会告警.同时介绍了 Prometheus 告警原理. 警报是监控系统中必不可少的一块, 当然了, 也是最难搞的一块. 我们 ...

  9. alertmanager监控 Prometheus 告警,alertmanage配置邮件告警

    1.搭建Prometheus,node及mysql参考该链接: 配置grafana展示prometheus监控数据 2.下载安装 alert manager: https://prometheus.i ...

最新文章

  1. uni-app 之 使用扩展组件(uni ui) Pagination 分页器使用示例
  2. [leetcode]_Integer to Roman
  3. 千米感知误差低于5%,嬴彻发布全球领先的超长距精准3D感知技术
  4. 前端学习(294):rem小实例
  5. 吴恩达深度学习 —— 3.11 随机初始化
  6. NUC1419 位操作【位运算+STL】
  7. 电脑故障检测软件_硬核科普—常用电脑检测软件手把手教学!
  8. iOS开发网络篇—GET请求和POST请求(转)
  9. 蓝桥杯单片机头文件导入_CT107D蓝桥杯单片机编程笔记
  10. 什么是网站PR值?如何提高网站pr值?网站pr值查询!
  11. java用etiplus如何打jar,README.md · Ranossy/majsoul_mod_plus - Gitee.com
  12. hdwiki的php架构,齐博CMS(原php168)整合百科系统(HDwiki)手记
  13. 加拿大的计算机技术专业,详解加拿大计算机专业及相关方向
  14. 短视频矩阵系统源码。抖音矩阵系统源码。抖音SEO源码。
  15. idea常见问题-个人而言
  16. 5、分组密码工作模式
  17. 2022年10月16日 记
  18. 如何写好测试用例以及go单元测试工具testify简单介绍
  19. 文本分类概念类大总结(机器学习+深度学习)
  20. SQL Server 使用全文索引进行页面搜索

热门文章

  1. Unity 制作小地图
  2. 2022年全球打鼾解决方案行业分析报告
  3. 解决canvas导出图片模糊问题
  4. 时空旅行(dfs序+线段树分治+斜率优化)
  5. 带你学开源项目:RxLifecycle-当Activity被destory时自动暂停网络请求
  6. 新基建下的工业互联网,等不到第四次工业革命
  7. 黑名单(诸如反爬虫等)
  8. html5中音频循环那个属性,HTML5音频audio属性
  9. <caption>表格标题标签
  10. 西班牙首相被中国新零售圈粉!天猫总裁靖捷透露了一个“合伙人计划”