近期处理了一个NetApp FAS2554前面故障灯一直点亮的case,本文对于分析过程和最终的问题发现做一个分享,欢迎讨论,可以add wechat at StorageExpert。

外观检查:

客户反馈,一套FAS2554存储,没有任何扩展柜,前面板的故障灯近期一直是亮的,但没有其他任何故障灯,核对检查了控制器的故障灯,都是熄灭正常的。

客户做过的尝试:

某些所谓专业人员已经对这个存储做了故障分析,结论是需要重启控制器,然后控制器也重启了,但是故障依旧存在。至于为什么要重启控制器,就不知道了。基本上就是重启大法。

下面是我们的分析过程:

1. 检查两个控制器的message文件

对两个控制器近期的messages文件做了详细的检查,没有发现任何和硬件有关的报错。

2. 系统检查

检查了system health的情况,发现一个控制器是degraded

再仔细检查,发现是SP的网络没有接,这个问题不大,不是导致整个控制器亮灯的原因。

 检查fru 的LED故障灯情况,两个控制器全都是off

检查DIMM的ECC报错,也正常。

检查sensor和environment 情况,所有都正常

检查storage fault的情况,发现如下的异常点。

四个电源模块的状态都是OK,但是status描述有三个显示 DC under VOLTAGE,这是不正常的。另外整个enclosure 的状态显示为FAIL。

3. sp检查

检查sp的状态,工作正常,但两个控制器的版本有差异,一个是 2.2.3, 另外一个是 2.2.4。

初步分析结论

到此,我们可以初步得出结论,导致FAS2554系统控制器故障灯点亮的原因在于四个电源模块的不正常的矛盾状态,但什么原因导致出现四个电源模块的status都显示DC under voltage呢?初步判断是2个sp的版本不同,低版本2.2.3的可能有bug,没有准确的读到电源的状态信息。

行动计划

基于上面的判断,计划如下:

1. 升级其中一个控制器的SP firmware版本到 2.2.4

2. 如果升级完成后,故障依然存在,就对有问题的电源模块依次做插拔动作。

执行情况

按照上面的计划,我们首先升级了SP的版本,但升级后我问题依旧,说明这个不是SP的bug导致。开始执行第二个计划,对电源模块做插拔动作,这个时候悲剧发生了,插拔了其中一个电源,30秒内又插了回去,但是系统console上马上给出提示:

[FAS2554-02:monitor.fan.critical:EMERGENCY]: 2 fans have failed. Replace them to avoid overheating. If not corrected, system will shutdown in 2 minutes.

然后紧接着给出提示,multiple fan failed, system will shutdown immediately.

两个控制器都shudown了。

进一步处理和分析

由于系统自己shutdown了系统,ontap是不会做failover之类的,两个控制器都关机了。通过插拔控制器让两个控制器重新启动恢复业务。进一步分析问题,解决问题的思路开始转移到bug方面。果然,找到了相关的一模一样的bug说明。

845945 - Fault LED stays lit after DC under-voltage event

网站连接  NetApp Support Site

bug的具体说明:

After a DC under-voltage event, the storage shelf OPS panel fault LED remains lit, and incorrect EMS messages continue to be generated, even after the voltage returns to correct levels.

影响的版本:

8.0.2P4, 8.1.2, 8.1.3, 8.1.4P2, 8.1.4P4, 8.1.4P8, 8.2.1, 8.2.1P1, 8.2.1P2, 8.2.1P3, 8.2.2, 8.2.2P1, 8.2.2P2, 8.2.3, 8.2.3P1, 8.2.3P2, 8.2.3P3, 8.2.3P4,8.2.3P5, 8.2.3P6, 8.2P3, 8.2P5, 8.3, 8.3P1,  8.3P2

客户的版本非常完美的命中了这个bug。

当然,解决这个问题,最彻底的办法就是升级ONTAP版本。如果不想升级,也有workaround的办法,

Remove and reinsert the power supply unit (PSU) that experienced the under-voltage event. To identify the PSU you need to operate on, use the "storage show fault -v" command (available in the nodeshell for clustered Data ONTAP) and look under the Power Supplies: Element Status section. E.g. Power Supplies: Element Status Status Bytes Status Descriptions 1: OK 01,00,04,A0 DC UNDER VOLTAGE, RQSTED ON 2: OK 01,00,00,A0 RQSTED ON

其实就是我们之前做的对有影响的电源做插拔动作。但不幸的是我们又命中了sp的一个bug,sp没有及时识别到电源又插了回去,依然认为多个fan有故障,直接shutdown了机器。

好了,不写了,都是泪,前后折腾了半天,还把机器搞挂了。

NetApp FAS2554故障灯常亮case处理过程分享相关推荐

  1. 兄弟2260激光打印机硒鼓灯常亮

    问题描述: 一台兄弟2260激光打印机硒鼓灯亮了,但是可以打印.能正常工作: 解决与分析: 硒鼓灯亮了是硒鼓的计数周期到需要清零复位或者更换新的硒鼓: 打开前盖,按住GO按键不动,直到所以灯亮起,松手 ...

  2. 西门子PLC S7-1200硬件故障ERROR灯常亮处理一例---附“未决的启动禁止项 重置为出厂设置”方法

    简介:一台西门子S7-1200系列PLC,加电之后ERROR灯红灯常亮,以为硬件故障,后来顺利解决,并且解决了重置为出厂设置的问题.在此分享一下. 特别说明ERROR灯常亮不一定本文所述方法能够解决, ...

  3. 【运维心得】H3C-msr3620启动后sys灯常亮的另类解决

    本文简单介绍一种解决方案,在你碰到路由器无法正常启动,并且是sys和pwr灯常亮的时候,可以尝试一下这个方法,说不定就解决问题了. 发生背景 由于突然掉电,造成一台旧msr3620路由器启动以后,三个 ...

  4. ROG 570-E 主板问题:主板发出1长2短的滴滴声,黄灯常亮

    文章目录 问题描述 问题排查 问题解决 问题描述 主板是 ROG Strix X570-E Gaming 主板,开机启动时,主板发出 1 长 2 短的滴滴声(蜂鸣声),且主板上的黄灯常亮. 问题排查 ...

  5. 解决VM虚拟机导致硬盘灯常亮,很卡的问题

    欢迎关注:dy ddjj_1980 vmdk目录下的vmem文件导致的问题,vmem文件相当于系统里的分页文件,虚拟机开机的时候生成这个文件硬盘读写导致硬盘灯常亮,很卡很慢的问题,这个文件在关闭虚拟机 ...

  6. win7 锁定后硬盘灯常亮

    新装了win7系统,经常发现锁定计算机的时候,硬盘灯常亮. 因为硬盘刚刚坏了,所以最近对硬盘灯很敏感,研究一番: 打开procexp,锁定,等待,解锁,  发现CPU IO 主要都被WinSAT.ex ...

  7. 解决VM虚拟机导致硬盘灯常亮,很卡的问题 解决VM虚拟机导致硬盘灯常亮,很卡的问题

    vmdk目录下的vmem文件导致的问题,vmem文件相当于系统里的分页文件,虚拟机开机的时候生成这个文件硬盘读写导致硬盘灯常亮,很卡很慢的问题,这个文件在关闭虚拟机的时候又会自动删除. 如果物理机内存 ...

  8. 小米摄像机升级失败,小米摄像机黄灯常亮修复,全网最硬核修复

    小米摄像机升级失败,小米摄像机黄灯常亮修复,全网最硬核修复 背景 刷机方法 准备 相机拆机 修补固件 刷入固件 破解相机 背景 2020年买了个小米云台相机pro,后来搬家没怎么用,放家里吃灰一年多, ...

  9. 修车案例 | 2011 款保时捷 Panamera 车 发动机故障灯异常点亮

    一.故障现象 一辆2011款保时捷Panamera车,搭载M4640V发动机,累计行驶里程约为16万km.该车组合仪表上的发动机故障灯异常点亮,且提示"发动机控制系统故障"(图1) ...

最新文章

  1. 【Codeforces】CF 5 C Longest Regular Bracket Sequence(dp)
  2. R语言:ts() 时间序列的建立
  3. anglarjs引入HTML头,请问怎么在html引入angularjs?
  4. Day04-循环和列表
  5. .npy文件_Numpy库使用入门(六)文件的存取
  6. 重新下载python以前下的包还用重新安装吗_强制“pip”在切换到其他Python二进制文件后重新编译以前安装的包(numpy)...
  7. 财务一体化项目,进度与计划8
  8. 做柜员还是程序员_应届生放弃互联网大厂回家乡银行:程序员五万比不上柜员五千...
  9. 优秀分层UI设计模板解析提升网站用户体验,5个UI设计技巧轻松搞定
  10. MacPE+WinPE-黑苹果之路
  11. 乌合之众(大众心理研究)之三:群体的一般特征
  12. yaw公式_3D 视角旋转矩阵 yaw pitch roll (pan, tilt)的数学计算
  13. 利用MDTools和Hydraw设计专业的液压阀块
  14. mac升级python版本_Mac上python如何升级?
  15. 为什么移动端跨平台开发不靠谱?
  16. 扩展名为bat的文件的创建
  17. 碧蓝航线经济系统的流程图
  18. OSChina 周五乱弹 —— 看来我只适合当一个千斤顶
  19. java ssm人体健康体检信息管理系统-
  20. 钉钉-日程与任务管理

热门文章

  1. manjaro无法上网_Manjaro安装,配置,美化指南(可能是全网最全)
  2. 论文学习:Feature Importance-aware Transferable Adversarial Attacks
  3. 【毕业季】走一步看一步?一个自动化er对大学四年的思考
  4. 干货:行政与人事管理的区别在哪里?
  5. 职位管理体系设计资料包
  6. 宝宝的这几个小秘密,你知道哪几个?
  7. Redis教程(介绍、数据类型、操作、特点、区别、容灾、一致性)
  8. mysql象限和投影_地理坐标系统和投影坐标系统
  9. 百度AI攻略:增值税发票识别
  10. 如何查看服务器CPU是几核的