1、VALET 定义

1.1 容量(流量,Volume)

  • 服务可以处理多少业务量?
  • 处理的记录数量

1.2 可用性(Availability)

  • 服务是否在需要时可用?
  • 在一定时间内完成工作的频率(百分比)

1.3 延迟(Latency)

  • 在使用服务时,它是否快速响应?
  • 任务运行所需的时间

1.4 错误(Errors)

  • 在使用服务时,是否会出错?
  • 无法处理的记录

1.5 工单(Tickets)

  • 该服务请求是否需要人工干预才能完成?
  • 操作员必须手动修复数据和重新处理任务的次数

1.6 SRE改进步骤

  1. 建立统一语言 VALET
  2. 各服务自动数据收集数据源
  3. 建设仪表盘,大屏看板实时监控数据趋势
  4. 写入开发负责人的OKR
  5. 管理批处理任务的SLO目标

2、SLO 落地

2.1 列出关键用户旅程

列出关键用户旅程,并根据业务影响对其进行排序。业务列出相关上下游核心调用链,可以借助相关平台工具查询调用链信息。

(关键用户旅途( critical User Journey)又称为用户旅程,是指用户从首次接触直至下单以及享受产品或服务期间,用户与企业产品或者平台互动的全过程。)

2.2 确定服务水平指标(SLI)

确定哪些指标可用作服务水平指标(SLI),以最准确地跟踪用户体验。在业务确定的核心调用链中确定核心的指标,可以参考4个黄金指标:延迟、流量、错误、饱和度。

所以,SLI 为100表示​​一切正常,为零表示一切损坏。

使用尽可能少的 SLI 来准确表示给定服务的容忍度,太多的SLI会引发太多的误报,通常,一个服务应该具有 2 到 6 个 SLI,如果 SLI 太少,可能会错过有价值的信号。如果 SLI 过多,SRE团队就要跟踪太多东西,但边际附加效用有限。经验所得衡量SLI的比较好的指标是请求延迟和错误率。

2.3 确定SLO目标和SLO度量周期

确定SLO目标和SLO度量周期,例如:每月 99.99% 的 HTTP 请求成功返回“200 OK”,假定一个月内有10,000个HTTP请求,而只有9,999个请求根据SLI返回成功响应,则表示该月的可用性为9,999 / 10,000或99.99%。

2.4 创建SLI、SLO和错误预算控制台及dashboard监控

创建SLI、SLO和错误预算控制台(管理)及dashboard监控。作为SRE,我们需要能够随时查看服务状态,那么意味着需要创建监控仪表板,开发一套SLI、SLO和错误预算的图表。

2.5 创建SLO警报

创建基于SLO警报,尽管使用哪种阈值都有不同的首选项,但作为SRE,建议使用基于错误预算记录的警报。

3、 demo







SLO 落地方案:VALET相关推荐

  1. iOS应用模块化的思考及落地方案(二)模块化自动构建工具的使用

    1.0 iOS模块化中的问题 前文已经介绍了模块化的流程及一些常见的问题,我们在这里再次总结一下. 在工作中,当我们开始一个新项目的时候,最先考虑的就是模块化工作. 模块化工作的想法是很美好的,可是执 ...

  2. iOS应用模块化的思考及落地方案(一)模块的划分及模块化工作流程

    1.0 什么是模块化 很多关于重构及设计模式的介绍中,经常提到的几个词语是复用及解耦. 模块化之所以被提出,也更多是为了解决这几个问题. 复用可以减少重复造轮子的情况,很容易理解的是,我们经常使用的g ...

  3. 分表需要解决的问题 基于MyBatis 的轻量分表落地方案

    分表:垂直拆分.水平拆分 垂直拆分:根据业务将一个表拆分为多个表. 如:将经常和不常访问的字段拆分至不同的表中.由于与业务关系密切,目前的分库分表产品均使用水平拆分方式. 水平拆分:根据分片算法将一个 ...

  4. 开源助推进NFV发展,红帽为运营商“定制”NFV落地方案

    日前,红帽公司欧洲.中东以及非洲地区的电信行业业务发展总监Nikolai Stankau和红帽公司亚太区电信业务发展总监Adam Nardella在接受采访时表示,目前运营商在引入NFV方面主要存在三 ...

  5. 人工智能技术结合制造业,是学术研究还是落地方案?!

    飞桨中国行-零门槛AI创新应用专场来了 制造业正快速步入智能化升级的新阶段,包括生产流程.业务模式.管理方式在内的每一个环节,都将发生根本改变,越来越多的制造企业正把智能化作为推动业务增长的重要途径. ...

  6. 主数据管理(MDM)项目建设落地方案

    01 主数据建设的术法道 随着企业信息化系统建设逐渐增多,领导.业务部门对信息系统支撑决策.管控.业务运行难度也随之提高,导致解决业务系统间的交互困难和数据多头管理不一致等问题成为信息化建设的难点和重 ...

  7. 网络营销推广落地方案(2018最新)

    网络营销推广落地方案(2018最新) 导读:如何做网络营销推广引流方案,3个月必成.本文以网络营销推广引流为例向大 家介绍任何一个网络营销推广项目,只要用心执行死磕3个月,只要不是足够努力,百分 百能 ...

  8. 互联网企业申请95号 正确落地方案可节省50%费用

    当接到95555来电时,你会想到招商银行:当接到95338来电时,你会想到顺丰快递.95客服号码由于资源稀缺.数字简短易记,已成为银行.证券.保险.民航.物流.石油石化.铁路运输等知名企业的专用.95 ...

  9. mysql落地方案_平台落地方案.doc

    平台落地方案 江苏省教育管理信息中心 江苏省电化教育馆 江 苏 省 教 育 信 息 化 公 共 服 务 平 台 推广应用落地方案 <江苏省教育信息化公共服务平台>推广应用落地实施方案(草) ...

最新文章

  1. ABAP如何生成UUID
  2. Girton学院研究生宿舍守则
  3. Designing GANs:又一个GAN生产车间
  4. 在3kbps的带宽下还能清晰地语音聊天?
  5. 无法获取未定义或 null 引用的属性“title”_JDK中四种对象引用类型
  6. 什么是 1号信令、7号信令和PRI信令?
  7. JDK下载安装及环境变量配置的图文教程(详解)
  8. 三秒让你学会公私网地址转换(NAT)
  9. 模拟NAND FLASH 读写BCH ECC校验
  10. 【畅捷通T+】登录提示 列“MarketingCloudUserId”不属于表 。
  11. 卸载应用后,删除安装根目录下的所有文件,提示已在另一进程打开,在资源管理器进程中找不到该程序的解决
  12. 2017中国IP指数盛典:一场IP界的“华山论剑”,你敢赴约吗?
  13. vba数据类型,运算符,内置函数,循环判断语句,窗体控件
  14. java 架构师课程体系
  15. 数据结构(七)二叉搜索树
  16. Firebug的简介
  17. YOLO 目标检测 识别框不显示文字标签(已解决)
  18. URL编码(encode)和URL解码(decode)
  19. Ext表单组件之textField
  20. Java报时用什么制作_简单实现一个整点报时的软件

热门文章

  1. Unity的陀螺仪实现
  2. Idea——Tomcat和Maven使用 报错——Warning: No artifacts configured 解决方法
  3. 通过acquire方法看懂RateLimiter限流机制
  4. 动态服务器原理,什么叫cdn动态加速原理
  5. 18 《社会性动物》 -豆瓣评分9.1
  6. 【GNN】台大李弘毅助教讲解——GNN系列
  7. linux sz rz 命令
  8. 概率影响矩阵(风险管理规划vs风险定性分析)
  9. HTTP代理,代理服务器
  10. android 9的注意点