前言

之前的文章- 如何配置 SLO - 东风微鸣技术博客 (ewhisper.cn) 介绍了一些常用的各类 SLO, 但是在实际制定 SLO 过程中,并不一定适合实际业务需求。本次介绍 SLO 的最佳实践 - 如何 7 步创建有效的 SLO.

SLI SLO 定义

在之前的文章 - SLA、SLO、SLI 定义 -「译文」使用 Prometheus 和 Grafana 实现 SLO - 东风微鸣技术博客 (ewhisper.cn) 中,我们已经介绍过 SLI SLO SLA 的定义。这里再次简单提一下。

SLI

SLI: Service Level Indicator, 即 服务水平指标, 这是了解服务健康状况的一个关键指标,也是设置 SLO 的基石。

典型的 SLI 表达式如下:

好的事件/所有的事件 * 100%

典型的一个 SLI 就是:HTTP 请求的延迟

其表达式如下:

响应时间小于 5s 的 http 请求 / 所有的请求 * 100%

SLO

SLO: Service Level Object, 即 服务水平目标, 是我们针对 SLI 设定的一个目标。而往往 SLO 是与时间窗口紧密相关的。

典型的 SLO 如下: