存储系统是由控制器、背板、结构件、硬盘、内存等部件构成的多个子系统组成,其中任何单一元器件故障都可能导致存储系统出现问题。因此,系统可靠运行的基础,离不开元器件、部件以及整个控制系统的可靠性设计。浪潮存储从系统级开发、电路板级开发、部件引入、生产加工等多个环节来保障系统的可靠性及稳定性。

系统级可靠性设计

在存储系统中,许多元器件发生故障是由于系统设计不合理或元器件使用不当所造成的,并不是元件本身存在缺陷。浪潮存储系统级可靠性设计包含:可靠性模型建立及评估、冗余设计、容错设计、故障隔离(失效分析)、热设计、EMC/EMI(Electro Magnetic Compatibility/Electromagnetic Interference, 电磁兼容性/电磁干扰)设计、安规设计、环境及结构设计等。

其一,控制单元冗余设计关键元器件增加完全相同功能的备用通道,保障该部分出现故障时不影响系统正常运行。比如双BIOS设计,当BIOS由于Flash芯片故障或者升级失败损坏时,可由备用BIOS接管,从而避免无法开机。控制器冗余设计以牺牲成本为代价,但存储系统设计首要考虑因素应是其可靠性。

其二,控制单元掉电保护。存储系统增加BBU电池(Battery Back-Up)来抵抗电网瞬间断电或电压突降等突发因素,软件系统将掉电信号定义为最高级别中断,使控制单元能及时对掉电做出反应,防止数据丢失,确保业务的连续性。

其三,结构设计结构可靠性设计是硬件可靠性设计的重要阶段。结构设计时,首先应注意元器件及部件的安装方式,其次是控制系统工作环境的条件(如通风、除湿、防尘等)。

其四,噪声抑制存储系统主要通过如下方式对噪声进行抑制:首先,选择高效率双马达风扇,优化系统散热所需风扇转速;其次,优化节点导风罩设计,降低单节点流阻;再次,系统风扇调控导入PID控制,降低低负载时系统风扇转速;最后,通过散热器优化、风道布局优化及系统流阻优化改善散热效果,从而降低正常工作负载下设备噪声。

其五,散热设计。存储系统通过对系统布局进行风道划分,一般分为:Memory风道、CPU风道、节点风道,各风道之间利用机箱布局的结构件实现风道的串联或并联。风机散热风量通过系统风扇加速后,进入并联的节点风道,从节点尾部的开孔结构排出,从而保障系统的稳定运行。

存储系统是由控制器、背板、结构件、硬盘、内存等部件构成的多个子系统组成,其中任何单一元器件故障都可能导致存储系统出现问题。因此,系统可靠运行的基础,离不开元器件、部件以及整个控制系统的可靠性设计。浪潮存储从系统级开发、电路板级开发、部件引入、生产加工等多个环节来保障系统的可靠性及稳定性。

系统级可靠性设计

在存储系统中,许多元器件发生故障是由于系统设计不合理或元器件使用不当所造成的,并不是元件本身存在缺陷。浪潮存储系统级可靠性设计包含:可靠性模型建立及评估、冗余设计、容错设计、故障隔离(失效分析)、热设计、EMC/EMI(Electro Magnetic Compatibility/Electromagnetic Interference, 电磁兼容性/电磁干扰)设计、安规设计、环境及结构设计等。

其一,控制单元冗余设计关键元器件增加完全相同功能的备用通道,保障该部分出现故障时不影响系统正常运行。比如双BIOS设计,当BIOS由于Flash芯片故障或者升级失败损坏时,可由备用BIOS接管,从而避免无法开机。控制器冗余设计以牺牲成本为代价,但存储系统设计首要考虑因素应是其可靠性。

其二,控制单元掉电保护。存储系统增加BBU电池(Battery Back-Up)来抵抗电网瞬间断电或电压突降等突发因素,软件系统将掉电信号定义为最高级别中断,使控制单元能及时对掉电做出反应,防止数据丢失,确保业务的连续性。

其三,结构设计结构可靠性设计是硬件可靠性设计的重要阶段。结构设计时,首先应注意元器件及部件的安装方式,其次是控制系统工作环境的条件(如通风、除湿、防尘等)。

其四,噪声抑制存储系统主要通过如下方式对噪声进行抑制:首先,选择高效率双马达风扇,优化系统散热所需风扇转速;其次,优化节点导风罩设计,降低单节点流阻;再次,系统风扇调控导入PID控制,降低低负载时系统风扇转速;最后,通过散热器优化、风道布局优化及系统流阻优化改善散热效果,从而降低正常工作负载下设备噪声。

其五,散热设计。存储系统通过对系统布局进行风道划分,一般分为:Memory风道、CPU风道、节点风道,各风道之间利用机箱布局的结构件实现风道的串联或并联。风机散热风量通过系统风扇加速后,进入并联的节点风道,从节点尾部的开孔结构排出,从而保障系统的稳定运行。

散热仿真模型

其六,系统日志收集。存储系统会在一定的时间周期内收集系统的信息,并自动创建可以查看的文件。当存储出现故障时,可以通过日志快速定位到出问题的部件。

电路板开发可靠性设计

存储研发团队在设计过程中,正确使用各种型号的元器件或集成电路,提高硬件可靠性是不可忽视的重要因素。

一是电路设计据统计,影响存储系统可靠性的因素约45%来自系统设计。为了保证系统的可靠性,在电路设计时应考虑最极端的情况。单板设计应考虑所有元件的公差,并取其最不利的数值核算电路每一个规定的特性。如果这一组参数值能保证电路正常工作,那么在公差范围内的其他所有元件值都能使电路可靠地工作。在设计电路时,开发人员还会对单板元器件进行降额分析,对重要元器件给出热应力、电应力的降额情况,并根据以往器件失效分析(FEMA)的经验,对容易损坏的集成电路、关键元器件进行优化设计。

二是元器件选择。在确定元器件参数之后,还要确定元器件的型号,这主要取决于电路所允许的公差范围。由于制造工艺所限,有些元器件参数的公差范围可能较大,如电容器电容量等。此外,元器件的额定工作条件包括多个方面(如电流、电压、频率、机械参数以及环境温度等),设计时要考虑参数裕量,并确保运行在工作条件范围内。

三是电气性能。元器件的电气性能是指元器件所能承受的电压、电流、电容、功率等能力,在使用时要注意元器件的电气性能,不能超限使用。

四是SI(signal integrity信号完整性)仿真设计。伴随着信号频率的提升,在存储系统上分析和发现信号完整性问题并有效解决是非常复杂的。存储系统借助EDA(Electronic Design Automation,电子设计自动化)工具,对电路的参数进行仿真分析,提前发现问题,从而缩短研发周期,降低研发成本。

信道损耗分析

信号眼图质量分析

五是生产工艺。由于工艺原因引起的故障通常很难定位排查,一个焊点的虚焊很可能导致整个系统在工作过程中出现不稳定现象。因此,设计印制电路板时应考虑元器件的布局、引线的走向、引线的分类排序等。

六是硬件测试。浪潮存储研发团队引入价值上百万的高端测试设备,其中包含50G高端示波器、50G高带宽硬件链路误码仪以及相关治具。存储硬件研发团队制定了全覆盖、无遗漏的信号测试规范,并进一步加强加固验证测试。其中包括板卡间热插拔、固件反复升级验证、单/双控故障,板间信号动态测试,低温启动、高温压力测试,加强验证SI链路可靠性测试。

PCIE5.0测试

部件引入确保可靠性设计

硬盘作为存储介质的中坚力量,保证机械硬盘的安全性和可靠性成为存储研发部件团队的重中之重。浪潮存储研发团队通过与硬盘厂商的技术分享搭配自己的专利技术,形成了一套包括磁盘的加密、协议层的定制以及写缓存的关闭等技术的定制方案。配合Raid技术更好地保证了客户对数据安全性的要求,开发出了一套独有的筛盘方案和筛盘设备来满足金融等行业用户的需求。

针对存储设备,浪潮存储研发团队开发了多控制器系统,配合锁盘技术、硬盘定制化以及Raid技术,实现了硬盘高速读写的需求和安全性、可靠性的完美结合。硬盘经过引入测试、兼容性测试、筛盘测试、老化测试等层层把控为存储设备打造坚实底座。

硬盘测试时延分布曲线

生产制造保障可靠性

生产制造是产品生命周期中重要一环,通过批量生产和用户反馈有助于发现更多前期设计遗漏和缺陷,及时维护查缺补漏。

浪潮存储在生产线引入了用于测试存储产品在不同温度条件下是否可以正常稳定运行的温循房,环境温度可以根据需求随时调整,加速缺陷部件的故障复现,从而降低产品到货即损(DOA)的情况。同时,提出增加极限场景测试和模拟客户实际使用场景的长稳压力测试等生产模式,提高存储产品稳定性和可靠性。

温循房

高端存储产品必须保证极致稳定,设备生产完毕后先进行7至14天的长稳测试,测试用例中模拟客户实际业务场景,采用客户常见的数据类型进行压力测试,观察测试过程中存储设备是否有告警和异常,将一切不稳定因素拦截在生产阶段,保证设备交付后的稳定、可靠运行。

基本应用拓扑

近年来,浪潮存储持续加大研发投入和创新,致力于打造安全、可靠、经济、高效的数据存储底座,不断追求“极致稳定”,为数据存储保驾护航,服务各行各业。

浪潮存储:基于系统级可靠性设计,为数据存储保驾护航相关推荐

  1. android app数据存储,基于Android开发的APP数据存储研究

    谢原武+龙文 摘要: 作为一个完整的应用程序,数据存储操作是必不可少的.Android系统一共提供了四种数据存储方式分别为File文件存储.Shared Preferences存储.ContentPr ...

  2. 千亿级服务器监控数据存储实践

    千亿级服务器监控数据存储实践 背景 近几年开源的大数据处理系统已经逐步发展到一个比较成熟的阶段了,各类大数据处理的场景都有了相应的解决方案,如同 mysql 在当今互联网公司中的关系数据存储广泛应用地 ...

  3. numpy序列预处理dna序列_合成生物学快讯2019年第12期:基于DNA的分子数字数据存储...

    本文由中国科学院上海生命科学信息中心 战略情报团队供稿 基于DNA的分子数字数据存储:现状与挑战 编者按:美国华盛顿大学和微软研究院的研究人员2019年8月在Nature杂志发文,对基于DNA的分子数 ...

  4. Linux系统连接华为oceanstor数据存储

    Linux系统连接华为oceanstor数据存储 一.登录检查oceanstor数据存储 二.配置linux使用的数据储存 1.创建LUN 2.创建Lun组 3.创建主机 4.创建主机组 5.创建映射 ...

  5. 2020年存储技术展望:AI推动数据存储理念进化

    2020年存储技术展望:AI推动数据存储理念进化 2020年以意想不到的方式在展开,让人们愈发渴望AI的到来. 大家知道早在60年前,"人工智能"概念就正式提出.其发展曾经历了两次 ...

  6. 腾讯 监控系统服务器数据采集,日均采集1200亿数据点,腾讯千亿级服务器监控数据存储实践...

    这套架构优点很明显,设计简洁.有最新数据缓存.数据分布式存储.可横向扩展,同时完全自研,各自实现细节可控. 但同样存在一些问题: 数据节点 Cache 程序异常,会导致内存缓存数据丢失,进而丢失监控数 ...

  7. mysql 轨迹数据存储_基于Tablestore实现海量运动轨迹数据存储-阿里云开发者社区...

    前言 现在越来越多的人都开始关心自己的运动数据,比如每日的计步.跑步里程.骑行里程等.运动APP与运动类的穿戴设备借助传感器.地图.GPS定位等技术,收集好运动数据以后,通过与互联网社交功能结合,产生 ...

  8. mysql 轨迹数据存储_基于Tablestore实现海量运动轨迹数据存储

    前言 现在越来越多的人都开始关心自己的运动数据,比如每日的计步.跑步里程.骑行里程等.运动APP与运动类的穿戴设备借助传感器.地图.GPS定位等技术,收集好运动数据以后,通过与互联网社交功能结合,产生 ...

  9. 基于系统级触发器的审计功能

    从Oracle8i开始,Oracle引入了特殊的触发器,这些触发器并不是和特殊的DML事件相关联的(DML事件,如,INSERT,UPDATE和DELETE).这些系统级别的触发器包括: l      ...

最新文章

  1. 赚钱的这些年(上)苦逼
  2. linux下的QQ执行玩法:pidgin-lwqq
  3. Infragistics NetAdvantage
  4. Xamarin.Android MVP模式
  5. 代码中一些经常使用的小技巧
  6. java 装饰者模式 替代方案_如何利用装饰者模式在不改变原有对象的基础上扩展功能...
  7. CSC 命令编译cs文件
  8. postman下载文件
  9. 计算机用户名不显示,Windows10中设置不显示最后用户名的方法
  10. 免安装mysql_免安装版的Mysql
  11. mysql在子查询中使用自定义变量和条件语句实现函数效果的查询语句
  12. cordova下使用高德地图js api在4g流量下定位失败问题的解决
  13. 交友结婚的原则[转贴]
  14. 全民战疫,我们在行动!
  15. 「Mac」突然没声音,音量键不起作用——解决办法(大部分情况)
  16. Mobileye转变与芯片技术
  17. python中咕噜咕噜的冒泡函数
  18. 对偶线性规划——问题转化
  19. parallel desktop 17 安装win7 科来抓包 无网络适配器可用
  20. ldquo;阿拉丁rdquo;与ldquo;框计算rdquo;:百度推出的新计算平台

热门文章

  1. 太原市社会保险新数据中心建设及系统搬迁项目
  2. 计算机无法以管理员模式运行,电脑为什么没法以管理员身份运行软件
  3. 数据库的基础使用方法
  4. Linux shell: ls命令详解
  5. Cobalt Strike|Beacon原理浅析
  6. iphone下拉菜单卡住了_苹果手机怎么下拉菜单 苹果x右上角下拉失灵怎么办
  7. mysql 批量数据插入很慢(kettle 输入输出组件) 性能优化办法
  8. 信号相参性(相干性)
  9. 2022年版中国煤矿安全设备市场投资规划及需求前景预测报告
  10. 一致 先验分布 后验分布_先验分布、后验分布、似然估计这几个概念是什么意思,它们之间的关系是什么?...