谈到高并发和高可用往往引起很多人的兴趣,有时候成为框架选择的噱头。实际上,它们往往和框架关系不大,而是跟架构息息相关。在很多时候,老码农会直面一个问题:

“系统的服务可用性是多少?是怎么得来?”

但在思考这个问题之前,先要澄清一个概念,那就是——

什么是服务可用性

可用性就是一个系统处在可工作状态的时间的比例,这通常被描述为任务可行率。数学上来讲,相当于1减去不可用性。——wiki 百科

相应的,我们的软件系统处于可工作的时间比例,就是服务的可用性,也就是说,服务可用性可以描述为一个百分比的数值。我们经常用这个SLO(service-level objective ,服务级目标)来代表服务可用性,至于SLO,SLA,SLI 等概念之间的差异,这里暂不做深入讨论。

SLO用数字来定义可用性对于特定服务的意义,来表示服务几乎总是活着,总是处于可以快速运行的状态。制定SLO是根据如下:

绝大多数软件服务和系统的目标应该是近乎完美的可用性,而不是完美的可用性。服务可用性一般是99.999% 或99.99% ,而不是100%,因为用户无法区分服务是100% 可用和不“完美”可用之间的区别。在用户和服务之间还有许多其他的系统,例如笔记本电脑、家庭 WiFi、互联网等等 ,这些系统的可用性远远低于100% 。因此,99.99% 和100% 之间的边际差异在其他不可用性的噪音中丢失了,并且,即使为增加最后一部分可用性付出了巨大努力,用户也可能没有从中获得任何好处。

很多云服务的目标是向用户提供99.99% 的可用性(就是我们常说的“四个9”)。一些服务在外部承诺较低的数字,但在内部可能设定了99.99% 的目标。作为SLA,这个严格的目标描述了用户在违反合同之前对服务性能不满意的情况,因为软件服务的首要目标是让用户满意。对于许多服务,99.99% 的内部目标代表了平衡成本、复杂性和可用性的最佳位置。

服务可用性解读

服务可用性是中断频率和持续时间的函数。它是通过以下方式衡量的: * 停机频率,或者是它的倒数: MTTF (平均停机时间)。* 持续时间,使用 MTTR (平均修复时间)。持续时间根据用户的经历定义: 从故障开始持续到正常行为恢复。

因此,可用性在数学上定义为使用适当单位的 MTTF / (MTTF + MTTR)。

四个9的服务可用性可能是很多软件系统的目标,如何达到这一目标呢?需要先明确一下导致服务不可用的来源。服务不可用有两个主要来源: 服务本身的问题和服务的关键依赖的问题。关键依赖是指如果出现故障,就会导致服务相应故障的依赖项。

关键依赖

服务的可用性不能超过其所有关键依赖关系的交集。如果服务的目标是提供99.99% 的可用性,那么所有的关键依赖项必须远远超过99.99% 的可用性。据说在谷歌内部,使用这样一个经验法则: 因为任何服务都有几个关键依赖项,以及自身的特殊问题,关键依赖必须提供一个与服务相关的额外9% 的可用性(这里为99.999%) 。

如果有一个关键依赖,一个相对常见的挑战是没有提供足够的可用性,就必须采取措施来增加依赖项的有效可用性(例如,通过缓存、限流、优雅降级等等)。

降低期望

从数学上看,服务的可用性不能超过其事件频率乘以其检测和恢复时间。例如,每年有4次完全宕机,每次持续15分钟,结果总共是60分钟。即使该服务在这一年中剩下的时间里都运行良好,99.99% 的可用性(每年停机时间不超过53分钟)也是没有达的。

如果服务被依赖于无法提供相应水平的可用性级别,那么就应该努力纠正这种情况,可以通过增加自身服务的可用性等级,或者如前所述的增加缓解措施。降低期望值(即公布的可用性)也是一种选择,而且往往是正确的选择: 向相关服务明确表示,它应该重新设计系统以弥补我们服务可用性,或者降低自己的目标。如果不纠正或解决这种差异,可用性将无法达到要求。

服务可用性的计算

考虑一个目标可用性为99.99% 的示例服务,并处理依赖项和停机响应的需求。

一个例子

假设这个99.99% 的可用服务具有以下特征:

  • 每年一次大停机和三次小停机。这些数字听起来很高,但是99.99% 的可用性目标确实意味着每年有20到30分钟的大范围停机和几次短暂的部分停机。这里的假设是: 单个分片的失败并不被认为是整个系统的失败,总体可用性是根据分片可用性的加权和来计算的。

  • 有五个独立关键依赖, 服务可用性为99.999%。

  • 这五个相互独立的碎片,不能相互转移。

  • 所有变更逐个进行,每次一个分片。

那么,本年度服务中断的总预算为每年525,600分钟的的0.01%或53分钟(以每年365天为基础)。分配给关键依赖的服务中断预算是5个525,600分钟的0.001%,即525,600分钟的0.005% 或26分钟。考虑到关键依赖的服务中断,该服务的中断时间预算为53-26=27分钟。

进一步,预计停机次数为4次(1次完全停机,3次停机仅影响一个分片), 预期服务中断的总影响: (1 x 100%) + (3 x 20%)= 1.6。那么,可用于检测和从中断恢复的时间为27 / 1.6 = 17分钟。如果监控和告警的时间是2分钟,值班人员调查警报的时间为5分钟的话,则有效解决问题的剩余时间是 10分钟。

提高可用性的方向

仔细研究这些数字,有三个主要的因素可以使服务更可靠。

  • 透过流程、测试、设计review等手段,减少宕机的次数。

  • 通过分片、地理隔离、优雅降级或客户隔离,缩小停机范围。

  • 缩短恢复时间ーー透过监控、一键式回滚等。

可以在这三个方向之间进行权衡,以便实现更加容易。例如,如果17分钟的 MTTR 很难实现,那么应该将精力集中在减少平均停用的范围上。

服务可用性之依赖嵌套

一个不经意的推断,依赖链中的每个额外链接都需要增加额外的可用性等级么?例如,二级依赖需要两个额外的9,三级依赖需要三个额外的9,以此类推。

这种推论是不正确的,它基于依赖关系层次结构,即在每个级别上具有常量扇出的树 具有许多独立关键依赖的高可用性服务系统显然是不现实的。

无论在依赖项树中出现在哪里,关键依赖项本身都可能导致整个服务(或服务分片)失败。因此,如果给定的组件A表现为几个服务的依赖项,那么 A应该只计算一次,因为无论有多少中间的服务受到影响,A的故障终将导致服务的故障。

正确的依赖计算可能是这样的:

  • 如果一个服务具有N个唯一的关键依赖项,那么每个依赖对服务导致的不可用性贡献1 / N,而不管它在层次结构中的深度如何。

  • 即使它在依赖项层次结构中出现多次,每个依赖也只计算一次。

例如,假设服务b 的故障预算为0.01% 。服务拥有者愿意花一半的预算在他们自己的 bug 和损失上,另一半花在关键依赖上。如果服务有 N个这样的依赖项,每个依赖项接收剩余故障预算的1 / N。典型的服务通常有5到10个关键依赖项,因此每个服务的失败率只有服务b 的十分之一或二十分之一。因此,根据一般经验,服务的关键依赖项必须增加额外的可用性。

服务可用性之故障预算

一般地,使用故障预算来平衡可用性和创新速度。这个预算定义了在一段时间内(通常是一个月)服务可接受的故障水平。故障预算只是1减去服务的 SLO,因此,99.99% 可用的服务是故障为0.01% 的“预算”。只要服务没有花费当月的故障预算,开发团队就可以在合理范围内自由地发布新特性、更新等等。

如果使用了故障预算,除了紧急安全修复和解决最初导致违规的更改之外,服务可能将冻结变更。直到服务在预算中赢得了空间,或者时间重置。使用 SLOs 滑动窗口,因此故障预算逐渐增加。对于 SLO 大于99.99% 的成熟服务,每季度重置预算是适当的,因为允许的停机时间很小。

故障预算提供了一个共同的、数据驱动的机制来评估发布风险,从而消除了可能在运维团队和产品开发团队之间产生的结构性紧张。故障预算还提供了一个共同的目标,在不“超出预算”的情况下实现更快的创新和更多的发布。

提高服务可用性:减少关键依赖

现在,可以重点讨论服务的依赖关系,如何进行设计以减少并最小化关键依赖。

关于关键依赖

一般的,任何关键部件的可用性必须是整个系统目标的10倍。因此,在一个理想的世界中,目标是使尽可能多的组件成为非依赖的。这样做意味着组件可以坚持较低的可靠性标准,获得创新和承担风险的自由。

减少关键依赖性的最基本和最明显的策略是尽可能消除 SPOFs (单点故障)。较大的系统应该能够在没有任何非关键依赖项或 SPOF 的给定组件的情况下可以可接受地运行。

实际上,您可能无法摆脱所有关键的依赖关系,但是您可以遵循一些围绕系统设计的最佳实践来优化可靠性。虽然这样做并不总是可行的,但是如果你在设计和规划阶段计划可靠性,而不是在系统运行并影响实际用户之后,那么实现系统可靠性就会更容易和更有效。

当考虑一个新的系统或服务时,当重构或改进一个现有系统或服务时,一个架构/设计评审可以识别出内部与外部的依赖。如果服务使用的是共享基础设施(例如,多个用户可见产品使用的基础数据库服务) ,要考虑该基础设施是否得到正确使用。明确地将共享基础结构的所有者确定为附加的利益相关者。另外,要注意不要让依赖关系超载,小心地与这些依赖关系的所有者协调工作。

有时,产品或服务取决于公司无法控制的因素,例如,代码库、第三方提供的服务或数据,要识别这些因素可以减少它们带来的不可预测性。

冗余和隔离

通过将依赖设计为具有多个独立实例来减轻对关键依赖的依赖。例如,如果在一个实例中存储的数据提供了该数据99.9% 的可用性,那么在三个分布的实例中存储三个副本提供了9个9的理论可用性级别。

在现实世界中,相关性永远不会为零,因此实际可用性不会接近9个9,而是远远高于3个9。如果一个系统或服务是“广泛分布的” ,地理上的分离并不总是不相关的。在邻近地点使用多个系统,可能比在较远地点使用同一个系统更好。

类似地,向一个集群中的一个服务器池发送 RPC可以提供99.9% 的可用性,但是向三个不同的服务器池发送三个并发 RPC 并接受到达的第一个响应,这样有助于将可用性提高到远远超过三个9的级别。如果服务器池与 RPC 发送方的距离大致相等,那么这种策略还可以减少延迟。

故障切换与回滚

一个的基本经验是,当必须人工在线引发故障切换时,可能已经超出了故障预算。最好进行故障的安全切换,如果出现问题,这些软件可以自动隔离。在无法实现的情况下,可以执行自动脚本。同样,如果问题依赖于某一个人来检查,那么满足SLO 的机会会很小。

将人引入缓解计划大大增加了 SLO 的风险,需要构建方便、快速而可靠回滚的系统。随着系统逐渐成熟,并且对检测问题的监视获得了信心,就可以通过设计系统自动触发安全回滚来降低 MTTR。

在可能的情况下,将依赖项设计为异步的,而不是同步的,这样它们就不会意外地变得非常重要。如果服务等待来自其非关键依赖项之一的 RPC 响应,并且该依赖项的延迟会大大增加,那么这种延迟将不必要地影响父服务的延迟。通过将 RPC 调用设置为非关键的异步依赖项,可以将父服务的延迟与依赖项的延迟解耦。虽然异步性可能会使代码和基础结构复杂化,但这种权衡可能是值得的。

检查所有可能的失效模式

检查每个组件和依赖项,并确定其故障的影响。以下问题可能是一些方向:

  • 如果其中一个依赖项失败,服务能否继续以降级模式提供服务?换句话说,为优雅的降级而设计。

  • 如何处理在不同情况下依赖项不可用的问题?在服务启动时?在运行期间?

设计和实现一个健壮的测试环境,确保每个依赖项都有自己的测试覆盖率,并且使用专门针对环境的用例进行测试。以下是一些推荐的测试策略:

  • 使用集成测试执行故障注入ーー验证系统能否在任何依赖关系发生故障时幸存下来。

  • 进行灾难测试以识别弱点或隐藏的依赖关系。记录后续行动,以纠正发现的bug。

  • 故意让系统过载,看看它是如何退化的。无论如何,系统对负载的响应都将被测试; 最好是自己执行这些测试,而不是将负载测试留给用户。

容量规划

确保每个依赖项都得到了正确的供给,如果成本可以接受,就过度供给。如果可能,将依赖项的配置标准化,以限制子系统之间的不一致性,并避免一次性的故障模式。

检测、故障排除和诊断问题要尽可能简单,有效的监测是能够及时发现问题的关键组成部分。诊断具有严重依赖关系的系统是困难的,但总是有一个不需要操作员就可以减轻故障的方案。

期待随着规模而来的变化,当在一台机器上以二进制文件开始的服务在更大的规模上部署时,可能会有许多明显或不明显的依赖关系。每一个规模的数量级都会暴露出新的瓶颈, 不仅仅是自己服务,还有所依赖的服务。考虑一下,如果依赖项不能像所需要的那样快速扩展,将会发生什么。

还要注意,系统依赖关系会随着时间的推移而发展,并且依赖关系的列表可能会随着时间的推移而增长。在基础设施方面,一个典型的设计是建立一个不需要重大变更就可以扩展到初始目标负载10倍的系统。

结束语

服务的用性并不高深莫测,它只是一个百分比的数字。服务可用性的指标(例如99.99%)往往令人不安,但并非不可实现。提供超过四个9的服务可用性,不是通过超出常人的智慧,而是通过不断地完善规则形成最佳实践,并且全面应用。

关联阅读

  • Beyer B, Jones C, Petoff J, et al. Site Reliability Engineering: How Google Runs Production Systems[J]. 2016

  • 性能,10点系统性思考

  • 日常生活中的企业监控

  • 分布式系统的时间问题

  • 浅谈面向客户端的性能优化

  • 醉袖迎风受落花——好代码的10条认知

  • 关于软件开发,都应该知道的10个常识

  • 软件架构的10个常见模式

  • 老曹眼中的CRM 图解

服务可用性的一知半解相关推荐

  1. 转: 从微信的故障谈谈服务可用性

    编者按:本文来自36氪特约作者叶新江(@猪立叶-Anson ).叶新江曾任MSN中国总架构师,现任"个信互动"高级技术副总裁.个信互动公司推出专注于应用推送技术的服务"个 ...

  2. CoralCache:一个提高微服务可用性的中间件

    摘要:当数据库出问题时能降级从本地缓存的数据中查询数据,CoralCache就是这样一个提高微服务可用性的中间件. 背景 有些场景下,微服务依赖数据库中一些配置项或者数量很少的数据,但当数据库本身有问 ...

  3. k8s停止服务_Kubernetes 服务部署最佳实践(二) 如何提高服务可用性

    引言 上一篇 文章我们围绕如何合理利用资源的主题做了一些最佳实践的分享,这一次我们就如何提高服务可用性的主题来展开探讨. 怎样提高我们部署服务的可用性呢?K8S 设计本身就考虑到了各种故障的可能性,并 ...

  4. RocketMQ的各种集群模式的搭建和消息可靠性保证和服务可用性描述

    RocketMQ集群搭建的特点 NameServer是一个几乎无状态的节点,可直接启动集群部署.节点之间没有任何信息同步,并且集群的NameServer之间都不知道彼此的存在. Broker部署相对复 ...

  5. SLA服务可用性4个9是什么意思?怎么达到?

    image SLA:服务等级协议(简称:SLA,全称:service level agreement).是在一定开销下为保障服务的性能和可用性,服务提供商与用户间定义的一种双方认可的协定.通常这个开销 ...

  6. 【微服务】Go进阶② 微服务可用性设计

    文章目录 微服务可用性设计 隔离 核心隔离 快慢隔离 热点隔离 线程隔离 进程隔离 集群隔离 超时控制 双峰分布 超时原因 超时控制中间件 过载保护 常见限流的缺点 过载保护策略 如何计算接近峰值时的 ...

  7. 线上服务可用性骤降追查

    背景 下午五点多收到某线上服务可用性骤降的报警:499比例超阈值.查看监控发现服务可用性在各个idc均有下降:服务500错误码比例飙升. 问题追查 登上(刚开始还可以远程登录)单台机器查看PHP的Fa ...

  8. 多视角看云平台中的服务可用性

    近几年随着云计算的飞速发展,各大软件巨头厂商如微软.IBM等们也都纷纷向云计算转型.大中型企业即便没有上公有云也都在云计算方面布局,加大投入建设企业私有云.中小型企业都越来越热衷于将自己业务应用部署到 ...

  9. 如何提高线上服务可用性

    上一篇文章中我简单介绍了一次线上服务的可用性下降追查过程,今天我们接着上次的内容来学习如何保证服务的高可用性. 具体分为开发阶段.测试阶段.上线阶段.监控阶段等几大项.这些内容就像是一套组合拳,练好了 ...

  10. [转]国内地图服务可用性比较

    前言:本学的是GIS专业,所以一直对电子地图公共应用比较感兴趣,2年前作过多个地图服务的简单的比较.昨天晚上睡不着,对几个地图服务网站进行了一点比较,主要是以上海为例的地图可用性比较.(如果转载感谢你 ...

最新文章

  1. 《新程序员003》正式上市!华为、阿里等 30+ 公司的云原生及数字化实战经验...
  2. 拆解交易系统--如何做好稳定性
  3. (转)几种流行的JS框架的选择
  4. oracle多线程类连接数,数据库连接数,服务器进程,线程之间什么关系?
  5. mysql从字符串中取子字符串_如何从开始于MySQL中特定位置的字符串中提取子字符串?...
  6. python123第五周作业答案_马哥2016全新Linux+Python高端运维班第五周作业
  7. Angular2升级到Angular4
  8. js 用下标获取map值_javascript怎么获取map的值?
  9. C# Winform 窗体美化(十、自定义窗体)
  10. memcache 防火墙策略
  11. python基础之函数式编程
  12. 云智能资深专家崮德:谈谈我对华为HarmonyOS 2.0的看法
  13. Javascript--闭包
  14. 计算机小知识140,140个电脑小知识,电脑知识-
  15. 计算机网络树形结构例子,网络拓扑结构大全和实例
  16. 读书笔记 《一生的计划》
  17. web 前后台数据交互的方式
  18. 【2021-09-22 修订】【梳理】计算机网络:自顶向下方法 附录一 物理层与通信基础
  19. 删除Symbian模拟器中测试程序的方法
  20. 凯文凯利:物联网联合AI大爆发

热门文章

  1. 学习统计学,必看的书单推荐
  2. Floyd最短路算法
  3. WPF 启动屏幕键盘
  4. hive 如何将数组转成字符串_HIve字符串函数
  5. CV笔记5:图像分割之最大类间方差法、自适应阈值分割(基于python-opencv实现)
  6. ncm在线转换mp3格式
  7. 《罪恶街区/Vice Street》手游用户协议
  8. 银行业金融机构数据治理指引和DCMM的对比分析
  9. Comsol 2020全套教学视频 教程入门讲解新手的福音
  10. EyouCms前台GetShell漏洞复现