服务器数据恢复故障描述

服务器内有两块硬盘掉线,现在服务器内的lun丢失了,数据恢复工程师开始对故障服务器进行检测发现掉线的硬盘并没有存在物理故障、也没有坏道等其他故障。于是开始对客户的故障服务器进行镜像备份。

服务器故障原因分析:

本次需要进行数据恢复的服务器没有硬盘故障,所以硬盘掉线的原因可能是因为硬盘读写不稳定导致的,硬盘读写不稳定将被控制器默认为是坏盘踢出,掉线的硬盘超过了2块后就会导致服务器不可用,此时不能通过常规方式进行修复,只能通过服务器数据恢复手段进行数据恢复。通过分析该服务器内的raid条目存储形式,每个硬盘的不同块组成一个raid条目,服务器数据恢复工程师通过分析解析出来raid条目信息,每个LUN都有一份LUN_MAP。EVA将LUN_MAP分别存放在不同的磁盘中,使用一个索引来指定其位置。因此去每个磁盘中找这个指向LUN_MAP的索引就可以找到现存LUN的信息了。

服务器数据恢复过程

通过故障分析硬盘是因为性能原因掉线,这些掉线的硬盘中有一部分数据是老旧数据,由于LUN的RAID结构大多都是RAID5,只需要将一个LUN的RAID条目通过RAID5的校验算法算出校验值,再和原有的校验值做比较就可以判断这个条目中是否有掉线盘。而将一个LUN的所有LUN_MAP都校验一遍就可以知道这个LUN中哪些RAID条目中有掉线盘。而这些RAID条目中都存在的那个盘就一定是掉线盘。排除掉线盘,然后根据LUN_MAP恢复所有LUN的数据即可。

上述的故障分析以及解决思路最终都需要使用编程来实现。编写扫描LUN_MAP的程序Scan_Map.exe,扫描全部LUN_MAP,结合人工分析得出最精确的LUN_MAP。编写检测RAID条目的程序Chk_Raid.exe,检测所有LUN中掉线的磁盘,结合人工分析排除掉线的磁盘。编写LUN数据恢复程序Lun_Recovery.exe,结合LUN_MAP恢复所有LUN数据。根据编写好的程序去实现不同的功能,最后使用Lun_Recovery.exe结合LUN_MAP恢复所有LUN的数据。然后人工核对每个LUN,确认是否和甲方工程师描述的一致。

服务器数据恢复数据验证

根据甲方工程师描述所有LUN的数据可以分成两大部份,一部份是Vmware的虚拟机,一部分是HP-UX上的裸设备,裸设备里存放的是Oracle的dbf数据库。由于我们恢复的是LUN,无法看到里面的文件,因此需要将这些LUN同过人工的核对哪些LUN是存放Vmware的数据,哪些是HP-UX的裸设备。然后将LUN挂载到不同的验证环境中验证恢复的数据是否完整。

在一台dell的服务器上安装了ESXI5.5虚拟主机环境,然后通过iSCSI的方式将恢复的LUN挂载到虚拟主机上。但是在VMware vSphere Client?上扫描vmfs卷,没有发现。后来发现客户的虚拟主机是EXSI3.5的版本。可能因为版本的原因无法直接扫描到vmfs卷,于是换一种验证方式。将所有符合vmware虚拟机的LUN里面的虚拟机文件都生成出来,然后通过NFS共享的方式挂载到虚拟主机上,然后将虚拟机一个一个的添加到清单。

验证vmfs虚拟机

通过NFS将所有虚拟机都添加到虚拟主机以后,将所有虚拟机都加电开机,发现都能启动系统。由于没有开机密码无法确认虚拟机里面的文件是否完整。后来甲方安排工程师通过远程到我们的服务器,将所有虚拟机都开机进入系统,验证虚拟机里面的数据都没问题。虚拟机的所有数据都恢复成功。

日后数据安全建议

1、安排员工经常巡视机房,发现有报警信息及时处理。

2、管理人员操作存储要谨慎,避免误操作导致数据丢失。

3、现场发现EVA控制器部分模块不太稳定,应当及时更换。

4、由于EVA存储故障是由磁盘不稳定引起的,而这部分磁盘应该是同一批次的磁盘。因此,这些磁盘的性能也快到极限,如果有条件建议换掉这批磁盘。

服务器硬盘掉线解决过程分析相关推荐

  1. 诛仙3怎么一直服务器维护,诛仙3游戏老是掉线怎么办_诛仙3游戏掉线解决方法介绍...

    诛仙3游戏老是掉线怎么办_诛仙3游戏掉线解决方法介绍 诛仙3经常掉线但又不是网速的锅,通常玩家们会把锅甩给服务器,但是甩锅依然解决不了掉线问题,今天小编为各位玩家带来诛仙3游戏掉线怎么办解决方法,一起 ...

  2. PS4怪物猎人世界服务器稳定吗,PS4怪物猎人世界冰原掉线怎么办 掉线解决办法亲测有效...

    <怪物猎人:世界>第一个大型DLC<冰原>自2019年9月16日上线PS4以来,网络连接的质量一直没有得到很好的改善,截止2020年1月,玩家社区内仍然有玩家集中反映PS4&l ...

  3. linux6.5系统间歇性丢包,路由器经常丢包、掉线解决方法大全

    路由器老掉线是经常出现的问题,你上网都可能遇到:丢包.上网慢.掉线.上不去网.不能浏览网页.卡.信号差.误码率高.信号延迟.连接失败.不稳定.上不去.死机.无故中断等现象,这到底是怎么回事,如何解决这 ...

  4. 无线网卡软AP掉线解决方法

    无线网卡软AP掉线解决方法 市面上的 USB Wifi 接收器发射器在当作发射器使用时,需要通过第三方软件比如: 猎豹Wifi.360Wifi等基于Microsoft Wi-Fi Direct Vir ...

  5. OS X10.11 wifi掉线解决办法

    OS X10.11 wifi掉线解决办法 用了几天Mac,   wifi老是隔几分钟掉线,刚开始以为网络不好,以为路由器有问题,可发现同一网络下iPhone好好的,奇了怪了,百度看了下,OS X通病, ...

  6. 服务器硬盘掉线导致数据丢失的解决过程

    [服务器数据恢复故障介绍] 数据恢复中心近期接到客户服务器数据恢复案例并成功恢复,经客户许可后现将数据恢复过程分享给大家,下面简单介绍一下本次服务器数据恢复的故障情况. 客户使用的是某品牌的服务器,搭 ...

  7. 选择存储服务器硬盘并解决一些疑问

    储存伺服器硬体设备中最重要的一定是硬盘,因为所有的资料都储存在硬盘里,虽然我们可以做数组以增加安全性,但一般的RAID5.RAID6只能保证1-2块盘损坏时的资料是完整的,再损坏的资料就会丢失,所以选 ...

  8. python游戏联机后直接掉线,怪物猎人世界联机掉线怎么办 Steam联机掉线解决办法整理(一)...

    很多玩<怪物猎人世界>的玩家都反应Steam版的联机掉线问题实在是太烦人了,十分的影响游戏体验.那么如何才能解决或者降低掉线的频率呢?接下来小编就为大家带来解决办法,一起来看看吧! 一.m ...

  9. 浅谈无线路由器自动掉线解决办法

    很多使用无线宽带路由器的用户都遇到过自动掉线的问题,今天就给大家详细的讲解一下如何彻底解决这种问题,无线网络在使用过程中容易出现信号不稳定以及断线的情况,一般来说,出现这种情况时,大家会关掉无线宽带路 ...

最新文章

  1. [物理学与PDEs]第2章第5节 一维流体力学方程组的 Lagrange 形式 5.1 引言
  2. 安全预测 影响企业风险管理的三大趋势
  3. 【Android 应用开发】Android开发技巧--Application, ListView排列,格式化浮点数,string.xml占位符,动态引用图片
  4. 仿基金查询输入框下拉筛选值效果(JavaScript)
  5. Python基础(1)
  6. Stark 组件:快速开发神器 —— 自动生成 URL
  7. ifeq makefile 或语句_学习笔记:Makefile的ifeq逻辑或,逻辑与的变通实现
  8. requestAnimationFrame()
  9. 加入HA后的完全分布式集群搭建
  10. 服务器snb芯片组,认识6系列主板芯片组
  11. WinHex license添加(v19测试可用)
  12. zigbee协议栈工作流程 From zigbee菜鸟笔记(十 一)
  13. html 静态网页如何在手机上访问,anywhere,http-server
  14. 线性代数————思维导图(上岸必备)(行列式部分)
  15. scrapy 使用无忧代理IP 需要填写无忧代理IP提供的API订单号(请到用户中心获取) 这个是要钱吗??...
  16. 关于微服务中用户身份认证的一点愚见
  17. 阿里“小前台、大中台”的解读
  18. EOS区块链技术开发(一)环境搭建
  19. 我为大家整理了一波 Java 超全面试题
  20. 话说丢帧率系列---帧间隙

热门文章

  1. 系统集成项目管理工程师——挣值管理(PV、EV、AC、SV、CV、SPI、CPI)
  2. debounce、throttle、useDebounce、useThrottle
  3. 用BP神经网络解决简单的分类问题
  4. linux下设置MySQL密码
  5. alicode git push rejected 的解决
  6. 程序员面试常见问题有哪些?如何回答才能拿到offer?
  7. WEB:Wife_wife
  8. 计及需求侧响应日前、日内两阶段鲁棒备用优化【IEEE6节点】(Matlab代码实现)
  9. 最新手机号码检验正则表达式
  10. C语言之不等式的写法,大于小于等于