1. 我们要给犯错以空间,充分考虑错误预算。否则,开发团队可能会在尝试新功能时过于谨慎,抑制产品的增长。不过作为一般经验法则, SLO 应该比你在 SLA 中详细说明的内容更严格。
  2. 在一开始启动 SLO 的时候,你可能没有办法确定当前系统整体的情况,所以我会建议从一个较低的 SLO 目标开始,根据团队整体的成熟度逐渐提升 SLO 的目标。设定这个目标需要考虑产品的性质、团队的优先级以及最终用户的期望,然后不断进行动态调整。例如,你的团队持续大幅超越目标,你可能希望收紧这些值,或者加大开发力度来利用未使用的错误预算;但是如果团队一直未能实现目标,那么把它们降到更容易实现的水平,或投入更多时间来稳定产品可能就是明智之举。
  3. 保持耐心,你的团队可能需要一段时间才能找到跟踪和维持 SLO 目标的诀窍。如果改变没有在一夜之间发生,不要气馁。请继续和你的团队讨论这些工具和概念,尝试各种想法,朝着更好的监控和可靠性目标进发。这里具体包括:与利益相关者开会,努力就可靠性标准达成一致;对 SLO 进行优先级排序,收集一个月的 SLI 数据并进行分析和调整,等等。就像软件迭代一样,SLO 的建设也是个逐步完善的过程。
  4. 在定义 SLO 目标时,建议不要设置过多的 SLO 或使 SLI 过于复杂。比如说,你可能会为一个用户使用产品的关键旅程中的每个相关集群、主机或组件设置单独的 SLI,但这样做不如尝试以有意义的方式将它们聚合为单个 SLI,然后花更多时间关注那些真正影响最终用户使用体验 SLI。这有助于消除很多“噪音”,让你专注于真正重要的事情。
  5. 面向最终用户体验和性能的指标才是合格的 SLI。比如说你的应用软件后端是一个高可用集群,如果集群有一个节点出现问题,但却并不会影响用户正常的使用,这时候这个节点的故障就不适合作为 SLI。当然,并不是说这个故障节点就完全不用理会了,我们也应该设置相关的监控和告警,在出现问题的时候及时修复。否则如果再有节点出现问题,就可能让用户无法使用产品服务了,这就影响到 SLO 了。

总体而言,系统的可靠性并不是我们的监控和日志来决定的,而是由我们产品的最终用户说了算。你编写的代码和设计的系统都是为你的用户服务的。毕竟,如果我们构建了一个没人使用的东西,那么我们最好把时间和精力花在其他事情上。

可靠性是所有系统最重要的要求,因为它是用户信任的基础。如果用户不信任系统,他们就不会使用它,很快我们的系统就会没有用户了。换句话说,即使产品和服务提供了更多的新功能,如果它们不可靠,也就不会被信任,就会无人关注。

此文章为3月Day12 学习笔记,内容来源于极客时间《深入浅出可观测性》,推荐该课程。

SLO 和 SLI的最佳实践相关推荐

  1. 在微服务架构下基于 Prometheus 构建一体化监控平台的最佳实践

    欢迎关注方志朋的博客,回复"666"获面试宝典 随着 Prometheus 逐渐成为云原生时代的可观测事实标准,那么今天为大家带来在微服务架构下基于 Prometheus 构建一体 ...

  2. Google SRE最佳实践之On-Call

    本系列文章将详细介绍如何从0到1快速构建SRE团队具体实战内容,敬请关注. 上期文章<一文彻底读懂DevOps与SRE来龙去脉> "On-call"言下之意就是&quo ...

  3. SLA、SLO 和 SLI

    SLA.SLI 和 SLO 是 SRE 工程实践里非常核心的概念,但是大家在同时提到这些概念的时候,经常容易混淆. 长篇大论的文章反而容易使人更加疑惑,还不如画一张示意图说明一下,帮助大家一次性彻底梳 ...

  4. 编写高性能Java代码的最佳实践

    编写高性能Java代码的最佳实践 摘要:本文首先介绍了负载测试.基于APM工具的应用程序和服务器监控,随后介绍了编写高性能Java代码的一些最佳实践.最后研究了JVM特定的调优技巧.数据库端的优化和架 ...

  5. 提示和技巧:光线跟踪最佳实践

    提示和技巧:光线跟踪最佳实践 Tips and Tricks: Ray Tracing Best Practices 本文介绍了在游戏和其他实时图形应用程序中实现光线跟踪的最佳实践.我们尽可能简短地介 ...

  6. SQL Server 最佳实践分析器使用小结

    Best Practices Analyzer Tool for Microsoft SQL Server 2000是Microsoft SQL Server开发团队开发的一个数据库管理工具,可以让你 ...

  7. 使用ADO.NET 的最佳实践(zz)

    数据访问:使用 ADO.NET 的最佳实践(ADO.NET 技术文档) 发布日期: 4/1/2004 | 更新日期: 4/1/2004 摘要:编写 Microsoft ADO.NET 代码的最佳实践, ...

  8. 何崚谈阿里巴巴前端性能优化最佳实践

    转载:http://www.infoq.com/cn/interviews/hl-alibaba-front-end-performance-optimization 大家好,我现在在阿里巴巴园区采访 ...

  9. 卡片式设计的最佳实践分享

    2017-02-17 三达不留点gpj CocoaChina 卡片本质上是一个简单的信息容器,信息量有限,但设计干净整洁.现如今,在保证界面具有优秀可用性的同时,卡片式的设计甚至成为了平衡界面美学的默 ...

最新文章

  1. IO设备在OS中的权衡
  2. shell mysql e_xshell怎么搭建mysql
  3. jQuery 效果 - animate() 方法
  4. html冷门标签,html 冷门
  5. MySQL调优(三):索引基本实现原理及索引优化,哈希索引 / 组合索引 / 簇族索引等
  6. Winform 窗体淡出淡入效果
  7. java同名变量在list中添加两次_快速解决List集合add元素,添加多个对象出现重复的问题...
  8. scala 数组合并_Scala程序合并两个数组或数组缓冲区
  9. delphi控件切图界面闪烁_先本设计教你跳过UI小程序的七个坑
  10. git使用的基本流程_我并不是高冷(Git进行中01):git基本流程简介
  11. SET化消息中间件架构实现
  12. 区块链大有前途,数字货币不会消失
  13. FastDFS的配置文件tracker.conf、storage.conf、client.conf 讲解
  14. Win 双网卡上网冲突,网络设置
  15. 自动注册工厂消灭switch-case
  16. 互联网快讯:华为云正式推出区块链服务;猿辅导布局素质教育;轻松筹回应裁员
  17. 零零散散之Java异常
  18. Python使用随机森林预测泰坦尼克号生存
  19. UCloud优刻得创始人季昕华:深耕云计算,做隐私计算赛道的“奇袭军”
  20. 火狐浏览器CSS兼容的解决方法~

热门文章

  1. vue实现不同页面显示不同标题
  2. R语言绘图--高级图形之Circos
  3. 二叉树的左视图-Python
  4. Anbox之arm平台lxc调试(十一)
  5. linux漏洞分析,Spring-data-commons(CVE-2018-1273)漏洞分析
  6. 求指点如何使用dynami类型的变量
  7. xiecheng_spider
  8. python爬携程景区评论_python爬取携程景点评论信息
  9. 通行宝深交所上市:市值84亿 腾讯云与上汽是股东
  10. 二次采样设置的四种彩色模式RGB565,ARGB8888,ARGB4444,ALPHA_8