在系统的高可靠性(也称为可用性,英文描述为HA,High Available)里有个衡量其可靠性的标准——X个9,这个X是代表数字3~5。X个9表示在系统1年时间的使用过程中,系统可以正常使用时间与总时间(1年)之比,我们通过下面的计算来感受下X个9在不同级别的可靠性差异。

  • 3个9:(1-99.9%)*365*24=8.76小时,表示该系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。

  • 4个9:(1-99.99%)*365*24=0.876小时=52.6分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。

  • 5个9:(1-99.999%)*365*24*60=5.26分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。

那么X个9里的X只代表数字3~5,为什么没有1~2,也没有大于6的呢?我们接着往下计算:

  • 1个9:(1-90%)*365=36.5天

  • 2个9:(1-99%)*365=3.65天

  • 6个9:(1-99.9999%)*365*24*60*60=31秒

可以看到1个9和、2个9分别表示一年时间内业务可能中断的时间是36.5天、3.65天,这种级别的可靠性或许还不配使用“可靠性”这个词;而6个9则表示一年内业务中断时间最多是31秒,那么这个级别的可靠性并非实现不了,而是要做到从“5个9” 到“6个9”的可靠性提升的话,后者需要付出比前者几倍的成本。

可用度A

9的个数

年停机时间(分钟

适用产品

0.999

三个9

500

电脑或服务器

0.9999

四个9

50

企业级设备

0.99999

五个9

5

一般电信级设备

0.999999

六个9

0.5

更高要求电信级设备

1、MTBF】MTBF,即平均故障间隔时间,英文全称是“Mean Time Between Failure”。是衡量一个产品(尤其是电器产品)的可靠性指标。单位为“小时”。具体来说,是指相邻两次故障之间的平均工作时间,也称为平均故障间隔。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate)。它仅适用于可维修产品。同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。磁盘阵列产品一般MTBF不能低于50000小时。

2、失效率】失效率是指工作到某一时刻尚未失效的产品,在该时刻后,单位时间内发生失效的概率。一般记为λ,它也是时间t的函数,故也记为λ(t),称为失效率函数,有时也称为故障率函数或风险函数。

失效率 λ=1/MTBF,单位1FITs=10-9(1/h)

3、MTTR】MTTR,全称是Mean Time To Repair,即平均修复时间。是指可修复产品的平均修复时间,就是从出现故障到修复中间的这段时间。MTTR越短表示易恢复性越好。

MTTR也必须包含获得配件的时间,维修团队的响应时间,记录所有任务的时间,还有将设备重新投入使用的时间。是一个缩写的平均时间恢复或平均修复时间代表的平均时间将有缺陷的部件或系统恢复工作秩序。 它是衡量一个系统的可维护性和可预测的平均所需的时间让系统工作的情况下再次出现系统故障。 MTTR可以从几个毫秒,如不间断电源(UPS)的许多数小时甚至数天的情况下的应用软件或复杂的机制。

4、修复率】修复率(μ) repair rate 产品维修性的一种基本参数。修理时间已达到某个时刻但尚未修复的产品,在该时刻后的单位时间内完成修理的概率。

经常用到所谓4个9或者5个9,也就是99.99%与99.999%。那么,4个9或者5个9的差距有多大,差距是0.009%,还不到0.01%。但对于系统而言,恰恰是这不到0.01%的差距,决定了系统完全不在一个档次上。

  所谓5个9的系统,一年内不能正常工作的时间少于5分15秒。对应4个9的系统是不超过52分36秒。这些都是理论上的数据,在实际工作中有些故障导致的宕机时间远超过5分钟,即使采用大型主机,也有宕机4个多小时的惨痛教训。问题出在哪里?

  一个系统的可靠性并不完全取决于硬件,而由软件和硬件共同来决定,如果是软件问题,最好的解决办法就是打补丁、升级,再好的硬件也没有办法解决软件的问题。要提高系统的可靠性,软件是没有太好办法的,只有依靠厂商服务来解决问题。用户可以选择的只有硬件,其中,包括网络、服务器以及存储设备。其中,网络可以借助多运营商接入来解决,存储有RAID、快照等应对技术,通过备份来提高数据安全性。但对于服务器来说,更多用户的选择是采用双机集群的方法。

  采用双机集群的方案是达不到5个9的要求的。原因很简单,双机集群是通过集群软件来构建方案的,当其中的一台服务器产生故障的时候,切换到备份主机继续工作,保持业务连续性。设备之间也可以依靠心跳线连接对故障进行判定。对于集群而言,故障切换是有严格要求的,要求主机、备用机的环境是一致的。在应用实践中,要求管理要到位,例如同步升级、升级,打补丁。如果管理不到位,很有可能会导致切换失败。这也是为什么,系统可以在演示环境下成功切换,但现实中往往做不到的原因。

运维常说的 5个9、4个9、3个9 的可靠性,到底是什么???相关推荐

  1. Linux运维常见面试题汇总

    Linux面试题 一.填空题 1. 在Linux 系统 中,以文件方式访问设备 . 2. Linux 内核引导时,从文件/etc/fstab中读取要加载的文件系统 . 3. Linux 文件系统中每个 ...

  2. Linux运维常见面试题

    一.填空题 1. 在Linux 系统 中,以文件方式访问设备 . 2. Linux 内核引导时,从文件/etc/fstab中读取要加载的文件系统 . 3. Linux 文件系统中每个文件用inode节 ...

  3. Linux系统运维常见面试题汇总

    一.填空题 1. 在Linux 系统 中,以文件方式访问设备 .2. Linux 内核引导时,从文件/etc/fstab中读取要加载的文件系统 .3. Linux 文件系统中每个文件用indoe节点来 ...

  4. Linux运维常见面试题之精华收录

    1.什么是运维?什么是游戏运维? 1)运维是指大型组织已经建立好的网络软硬件的维护,就是要保证业务的上线与运作的正常, 在他运转的过程中,对他进行维护,他集合了网络.系统.数据库.开发.安全.监控于一 ...

  5. 系统运维常踩的坑(一)

    运维分工 系统运维 重点保障服务器可用,关注cpu.磁盘.经常处理事务比如创建虚拟机,磁盘扩容,常见系统故障,虚拟机磁盘只读等. 应用运维 重点保障给用户提供的应用可用,关注应用健康,cpu,磁盘,内 ...

  6. Linux运维常问面试题总结

    1.简述Apache两种工作模式,以及它们之间的区别. 答:(1)prefork MPM使用多个子进程,每个子进程只有一个线程来处理一个http请求,直到这个TCP连接被释放.root主进程在最初建立 ...

  7. 运维常说的 5个9、4个9、3个9 的可靠性,到底是什么鬼?

    在系统的高可靠性(也称为可用性,英文描述为HA,High Available)里有个衡量其可靠性的标准--X个9,这个X是代表数字3~5.X个9表示在系统1年时间的使用过程中,系统可以正常使用时间与总 ...

  8. 【ORACLE】20道Oracle运维常见面试题

    1.实例(INSTANCE)包含以下哪两个部分?(AC) A.SGA B.DataBase C.一系列后台进程 D.Server Process 2.下列哪一项不属于Oracle数据库关闭模式?(D) ...

  9. 【分享】20道Oracle运维常见面试题

    1.实例(INSTANCE)包含以下哪两个部分?(AC) A.SGA B.DataBase C.一系列后台进程 D.Server Process 2.下列哪一项不属于Oracle数据库关闭模式?(D) ...

最新文章

  1. win7,windowsXP安装mysql-5.1.49-win32,中文版、英文版,通吃
  2. Uber无人车撞死人,安全员被控过失杀人,算法免于追责
  3. TianyaDL_4thread天涯帖子下载4线程版
  4. hbase shell 查看列名_hbase shell 常用命令
  5. datagridview选中获取行号_DataGridView控件显示行号的正确代码及分析
  6. Android与IOS异同点对照(1)------ 显示
  7. 简单一招搞定公司牛人 转自 潘文富
  8. es6 作为属性名的 Symbol
  9. 一步步学习NHibernate(8)——HQL查询(2)
  10. vagrant虚拟机网络设置
  11. 构建LVS+Keepalived高可用群集
  12. 免费又稳定的短链接生成工具
  13. visio 安装+部署激活+使用
  14. CAD计算机辅助设计——文件管理和界面设置
  15. 修改APP默认横屏或竖屏
  16. php操作阿里云短信API接口
  17. android10项目编译出错,android studio编译项目出错
  18. 记一次阿里云配置二级域名经历,及申请免费非工作用途SSL证书
  19. 百度api爬虫(1)从百度api中爬取地点数据
  20. Android显示横幅样式通知

热门文章

  1. boost::asio::ip::tcp实现阻塞tcp echo客户端的程序
  2. boost::shared_ptr用法测试程序
  3. GDCM:解析XPATH文件的测试程序
  4. C语言将任意的正整数按反序输出
  5. VTK:结构化网格之SGrid
  6. OpenCV支持向量机SVM简介
  7. Qt Creator桌面平台
  8. C语言实现链表(附完整源码)
  9. C语言实现哈希表(附完整源码)
  10. matlab基本矩阵运算,科学网—matlab中矩阵基本运算 - 成爱芳的博文