ICT架构师技术交流(微信号ICT_Architect)

分析和交流ICT行业最前沿技术,分享云计算、存储、服务器、数据中心、网络、软件定义和虚拟化等相关知识,旨在知识交流、开放共享和共同进步。

可靠性是人们长期以来讨论的热点话题,随着分布式系统的发展,可靠性的问题早已是每个存储、分布式系统、融合系统和服务器等厂商的一门必修课程。

由于数据是客户的核心资产,所以跟数据打交道的这些设备是否可靠就显得格外重要,服务器的RAS特性(Reliability, Availability和Serviceability,Intel又引入了Manageability可管理性,对部件进行监控、管理和错误预测)是直接决定服务器档位和优劣的重要指标,无论是RAS1.0,还是目前大家炒的火热的RAS2.0。存储跟数据的紧密关系决定了它与生俱来就应该是可靠的,那么存储系统的可靠性应该如何评估呢,目前各个厂商都吵的5个9、6个9甚至更高的可靠性标准,这些数据如何得来,通过这些数据就能说明系统真正可靠吗。

关于存储的可靠性的评估有不同的行业标准和理论体系,每个厂商也有自己不同于别人的理解。如美国电子设备可靠性标准MIL-HDBK-217、英国电信可靠性标准HRD5、BELLCORE TR-332等。目前采用比较多的可靠性模型是BELLCORE TR-332《Reliability Prediction Procedure for Electronic Equipment》商业产品通用的国际标准。这套标准也提供了几种单元可靠性预测方法,其中比较常用的一种方法叫计数法,该方法计算的是在工作温度40℃,50%的电应力下的失效率。

针对冗余单元组成的系统,一般采用Markov状态图的方法进行可靠性指标建模。针对串联单元组成的系统,直接将各单元的可用度相乘计算系统的可用度。根据系统模块、器件的MTBF(平均故障间隔时间,一般适用于可修系统)和MTTR(平均修复时间),再结合级联器件单元和串联器件单元求和算出系统可用性,系统可用性Availability = MTBF/(MTBF+MTTR)。

存储的可靠性可以基于不同标准和理论体系建模,而且预测方法也存在差异。首先采用不同模型和方法就会影响计算结果;再者厂商的宣传大多还是却反官方材料证明,基本上都是拿最好的一面示人,但实际上客户实际环境和业务情况是非常复杂的;最重要的一点是这些都是理论值,理论和实践的差距往往较大,宣传归宣传,站在客户角度,客户是不是更应该看重厂商设备在现网的运行时间,故障率、套数和行业分布等。

这些纸面上宣传的东西对部分客户来讲,可能还是比较有效的。但站在我个人角度来讲,随着产品硬件技术的发展和工艺提高,硬件芯片、模块本身的可靠性无论来自哪个硬件厂商,其故障率和可靠性基本都是保持在一个量级或水平线的,而且目前大多数厂商硬件也就来自那么几家芯片公司。设备厂商拿着芯片厂商的硬件研发自己的产品,除了在产品架构、管理、易用性和服务性上做些优化和差异外,其他的可靠性还是依托于底层芯片和架构来保证,所以单纯地从产品谈可靠性意义不太大,还应该更多的从产品特性功能、软件增强和解决方案级别来讨论。

服务器产品在设计时,RAS设计主要来源于CPU、芯片和服务器生产厂商,CPU提供的RAS 特性功能在BIOS初始化阶段,就会使能各项RAS特性,但CUP级别的RAS特性主要是服务于上层RAS或扩展能力,服务器系统级别的RAS特性需要依靠厂商设计,如分区、内存镜像、CPU和内存热维护等。

衡量一个服务器系统的主要标准就是RAS(可靠性是重要指标之一),服务器系统RAS涉及的内容包含每个部件,最主要的部件是CPU、内存、管理时钟模块等。当然,各个模块的RAS包含很多方面;如内存的RAS就涉及了Cache保护、故障巡检、错误纠正、故障内存隔离和定位等方面。

为了提升服务器系统级的RAS能力和竞争力,服务器厂商需要在Firmware级别进行差异性设计,最常见的例如,主动预警内存、CPU等风险部件,不依赖于具体OS全方位自动故障数据收集,带外完成故障收集、分析、定位、预警及处理任务分发等待。

分布式系统(也包含分布式存储系统)也可以把RAS、MTBF、MTTR等作为可靠性衡量指标,但是比较被认可的专业指标是CAP指标,可用性作为其中重要因素之一。CAP理论阐述了在分布式系统的设计中,没有一种设计可以同时满足一致性,可用性和分区容错性。既然不能同时满足,那如果宣传5个9、6个9的可用性就难以服众,即使在分布式系统设计中,大多数厂商都是牺牲一致性来成全可用性和分区容错性,但一致性也必须是分布式系统设计考虑的重点。

针对分布式系统设计中,BASE理论作为CAP理论的折中或延伸,在分布式系统中被大量使用。分布式系统的可靠性竞争力的建设,似乎更多要依托上层软件能力体现(主要原因可能也是基于便宜的X86通用服务器,硬件最求的就是便宜),如数据多副本、EC纠删码(跨节点存放数据,多节点故障容忍等),数据Scrub校验、ECC,存储池故障域隔离、数据快速修复等等。方案层面的可靠性也尤为重要,数据异地复制容灾,数据Multiple Available Zone、Region等。

存储系统,尤其是企业级存储系统,存放着客户核心数据资产,光凭借基于可靠性模型评估的5个9、6个9的器件模块理论数据,基本是无法胜任业务真实所需可靠性任务的。也正因如此,存储产品的可靠性往往被厂商和客户更为关注,所以存储方案的端到端方案的可靠性也就是核心竞争力。

硬盘是数据存储基本单元,硫化腐蚀、高压、高温、灰尘、振动和磁头退化都会导致磁盘故障,除了对单个进行磁盘防硫化和防灰尘处理外,更多的如抗高温、振动、坏块修复、故障预测等处理都需要存储系统在设计时考虑。卷镜像、快照、多路径、性能提升(包括硬件加速)和数据保护功能也需要在系统级别进行设计和严格测试,更好的来保证存储系统可靠、稳定,保证存储系统内数据安全。

RAID是数据冗余可靠的最基本技术,目前RAID技术种类繁多,除了如CRAID、FastRAID、RAID2.0、VRAID等基于Block的RAID技术外,还有如RAID DP、RAID5E、RAID MP和RAID ADG等复合性RIAD优化技术,很多RAID或EC技术支持跨机柜分布数据,提升系统重构速度和机柜之间可靠性。

在数据中心内,存储系统通过提供数据端到端一致性来保证数据一致可靠,如基于SCSI的DIX+T10 PI端到端一致性技术,在存储系统支持标准的T10 PI的情况下,跟特定数据库(Oracle 11g)、操作系统(Oracle Linux 5 or 6)和HBA(Emulex、Qlogic特定型号)等组件联合保证数据一致性。

在存储系统中,静默数据数据破坏无法实时检测出来,导致被破坏的数据恢复难度很大,甚至不可恢复,所以该方案提供了数据端到端的一致性功能保证数据可靠性。

异地、跨数据中心间的可靠性能力,让客户应用和数据具备跨城域或多数据中心灾难容忍能力,这才是客户所需要的实实在在的能力。支持这种能力的技术通常是数据复制、双活,多数据中心(如3DC)等方案。但每种方案对应的场景和能满足的需求也不一样,这主要取决于数据对RTO、RPO和距离、网络、时延等的要求。所以我个人认为,与其单纯的宣传单产品或产品硬件本身几个9的可靠性数字,还不如构建产品软件和方案实力,以整体方案的现网运行数据来证明产品的可靠性。

文章已经同步至微信“ICT架构师技术交流”公众号,关注公众号获取更多精彩技术内容。

温馨提示:

请搜索“ICT_Architect”“扫一扫”下面二维码关注公众号,获取更多精彩内容。

宣传6个9的可靠性就真的可靠吗相关推荐

  1. qt定时器是阻塞的吗_吊打面试官 | 面试官:TCP真的可靠吗

    点击蓝字关注我哦 以下是本期干货视频视频后还附有文字版本哦 ▼<面试官:TCP真的可靠吗>▼ ps:请在WiFi环境下打开,如果有钱任性请随意 TCP真的可靠吗 面试官经常会问的一个问题是 ...

  2. 揭秘:SSD的“可靠性”到底可不可靠

    企业环境复杂多变,快速增长的业务需求使得企业在数据存储规模.存储性能和可靠性等多方面提出了越来越高的要求.SSD固态硬盘凭借极高的读写性能.极低延迟成为越来越多企业的首选解决方案,并在数据库.虚拟化. ...

  3. rabbitmq可靠性投递_RabbitMQ 可靠投递

    背景 - confirmCallback 确认模式 - returnCallback 未投递到 queue 退回模式 - shovel-plugin 跨机房可靠投递 背景 在使用 RabbitMQ 的 ...

  4. 软件定义的“可靠性”到底可不可靠?信服云的ECC机制了解一下

    服务器宕机可能是很多运维工程师最可怕的噩梦.谷歌的一项研究表明:大多数死机故障是由内存问题而引起的,而且每年有1/3的谷歌服务器都会出现可纠正的内存故障,而有1/100的谷歌服务器会出现不可纠正的内存 ...

  5. 返利优惠卷真的可靠吗?有没有返利高的APP推荐?

    作为一名资深的剁手一族,每天除了上班,最大的乐趣莫过于去淘宝剁手了. 但是你真的知道,怎么去挑选返莉更大的公众号吗?返莉更高的返莉平台吗? 每年花在马爸爸身上的钱,少说也有几万块吧! 最近听朋友说,其 ...

  6. 决定系数R2真的可靠吗?

    目录 1. R2 2. 是否可以通过比较R方大小,来证明"加入某个变量有利于提高模型的拟合程度"? 3. 调整后的R2 4. R方不能支持模型的哪些假设? 5. R2和调整后的R2 ...

  7. 出海品牌如何制定海外网红营销策略?中腰部网红真的可靠吗?

    有数据显示,在海外18岁-24岁的年轻人中,有14%的千禧一代在过去6个月内曾因为网红的推荐而购买商品.2021年超过67.9%的美国营销人员将使用网红营销,预计到2022年这一比例将增加到72.5% ...

  8. AWS和Azure频频中断,可靠性让公有云成为带刺的玫瑰

    为什么说公有云是带刺的玫瑰呢?我想这应该从公有云的价值和可靠性问题两方面来说.价廉,付费即用.弹性收缩,不用采购设备,不管运维,这就是公有云的价值,也是公有云发展的推动力:现在很多企业都把自己的业务系 ...

  9. Linux 信号可靠性,同步,异步,多线程信号等介绍

    鉴于网上超多关于Linux信号处理相关的文章,本篇关于基本的信号知识不再普及,只提出一些平时不常关注或者关注不到的一些方面: 1. 信号可靠性:此可靠指的是信号是否会排队,并不是指信号会丢失(其实在也 ...

  10. 开源商城系统真的靠谱吗?它有哪些优缺点

    在大数据时代,如若坚持传统营销模式,必然会被时代淘汰,很多人都明白这一点,所以目前很多企业商家都开始利用开源来建立起自己的线上商城,拓展自己的营销模式,创造更高的收益,那么开源商城系统真的可靠吗?代码 ...

最新文章

  1. 李飞飞高徒新项目,一眼看穿你下届总统会选谁!
  2. 吴思教授:揭秘视觉信息处理的闭环
  3. ORA-00904: 标识符无效——解决方案
  4. 用python做自己主动化測试--绘制系统性能趋势图和科学计算
  5. python接口测试jason_Python 接口测试之Json数据文件操作
  6. 吴恩达深度学习 —— 2.5 导数
  7. 知识技能归档--CA-PKI体系-20210324
  8. html浮动代码_(10)让“盒子”动起来:① 浮动 | CSS
  9. Linq to xml 示例分析
  10. Sklearn 与 TensorFlow 机器学习实用指南第二版
  11. FT1248开发笔记
  12. python getcwd_Python os.getcwd()方法
  13. Nginx 为什么快到停不下来?
  14. Win10/11 自带输入法一键变五笔86/98/郑码/小鹤音形/表形码
  15. vue富文本编辑器wangeditor必填判断
  16. Xvid 进行视频编码
  17. 4种营销概念 -seo sem edm affi - 立体营销
  18. 设计稿 自动html,简单的登陆页面PSD设计稿来演示转化为HTML页面的全部过程
  19. SpringBoot——检索
  20. R语言中插补缺失值的R包simputation

热门文章

  1. swiper 切换时间_改变Swiper切换和animate.js动画的时间曲线
  2. NGS 分析流程 (一)
  3. C语言——将一个正整数分解质因数。例如:输入90,打印出90=2*3*3*5。
  4. 一张表看懂英式音标和美式音标的差异
  5. mac算法c语言,MAC算法原理
  6. eclipse的复活
  7. 生活,人艰不拆......
  8. 保存SVM模型并调用
  9. iphonex时间显示蓝色_iphonex左上角时间蓝色
  10. 9个offer,12家公司,35场面试,从微软到谷歌,我的求职之路!