08年的8月5号,我在电信担任数据通信事业部IDC的项目经理,这一天对我来说是记忆深刻的一天,集团邮件服务器DOWN掉了,而且很难RECOVER,无法忘记这一段历史。

下面是我当年写的报告原文:

8月5日早上8点接到客户的EMAIL报障,报障内容为企业邮箱无法使用,随后立即进入机房检查发现COREMAIL邮件系统(IP地址为61.142.15.58)已经宕机。

机器不断产生如下提示:

XFS mounting filesystem sda1

Starting XFS recovery on filesystem: sda1 (dev: sda1)

3w-9xxx: scsi0: ERROR: (0x03:0x0202): Data ECC error:.

scsi0: ERROR on channel 0, id 4, lun 0, CDB: Read (10) 00 65 db d7 3f 00 00

08 00

Current sda: sense key Medium Error

Additional sense: Unrecovered read error

end_request: I/O error, dev sda, sector 1708906303

3w-9xxx: scsi0: ERROR: (0x03:0x0202): Data ECC error:.

scsi0: ERROR on channel 0, id 4, lun 0, CDB: Read (10) 00 65 db d7 40 00 00

07 00

Current sda: sense key Medium Error

Additional sense: Unrecovered read error

end_request: I/O error, dev sda, sector 1708906304

3w-9xxx: scsi0: ERROR: (0x03:0x0202): Data ECC error:.

scsi0: ERROR on channel 0, id 4, lun 0, CDB: Read (10) 00 65 db d7 41 00 00

06 00

Current sda: sense key Medium Error

Additional sense: Unrecovered read error

end_request: I/O error, dev sda, sector 1708906305

3w-9xxx: scsi0: ERROR: (0x03:0x0202): Data ECC error:.

scsi0: ERROR on channel 0, id 4, lun 0, CDB: Read (10) 00 65 db d7 42 00 00

05 00

根据这些数据可以初步判定硬盘出现问题。由于硬盘为RAID1镜像阵列,进入系统BIOS的RAID控制程序,查看到系统检测出了RAID阵列是正常的,查看两块硬盘,均能检查出硬盘容量及型号。因此故障原因非单个硬盘硬件损坏,而是硬盘数据出现问题和分区表损坏。

于是运行fdisk指令,查看系统能找到的分区:

Disk /dev/hda: GB,bytes

16 heads, 63 sectors/track, 79656 cylinders

Units = cylinders of 1008 * 512 = 516096 bytes

Device Boot Start End Blocks Id System

/dev/hda1 * 1 4161 2097112+ 83 Linux

/dev/hda2 4162 8328 2100168 82 Linux swap

/dev/hda3 8329 12489 2097144 83 Linux

/dev/hda4 12490 79656 33852168 f W95 Ext'd (LBA)

/dev/hda5 12490 16650 2097112+ 83 Linux

/dev/hda6 16651 79656 31754992+ 83 Linux

发现目前硬盘分区只挂载了一个,其余都不能正常挂载。其他硬盘分区均有可能存在坏扇区。

之后运行磁盘检查指令 chkdsk 检查磁盘分区数据并试图修复分区,均告无效。且系统随着重新启动次数的增加,坏的分区越来越多,多数分区都无法正常挂载。

在无法恢复硬盘分区并正常启动的情况下,我们立即找了了替代方案,在9点左右为另外一台服务器安装Redhat Adavnced Server 4,并于10点通知COREMAIL供应商广州安岭公司做好重装和恢复COREMAIL数据的准备工作。

在为另 外一台服务器安装Redhat Adavnced Server 4的过程中,原有的DVD版的Redhat Adavnced Server 4无法在该服务器的普通CDROM上安装,后找到CD版的Redhat Adavnced Server 4,安装第三张盘时又提示光盘无法读取,只能重刻第三张光盘。在整个安装系统的过程中耽误了不少时间。

系统安装完毕后,通知COREMAIL供应商广州安岭公司,又遇到无故拖延。为了尽快为客户提供基本的收发邮件的服务,我们请他们先行恢复用户数据。但 他们告诉我们原先备份的用户数据库里没有INDEX数据表,就此问题我们跟他们做了严正交涉,指出此INDEX表在我们运行的系统数据库中根本不存在。此后广州安岭公司采取了手工建立INDEX表的方式,最终于下午15:00之前帮我们恢复了用户数据库。用户至此可以正常收发邮件。

总结以上的检查过程,分析出现此种宕机问题的原因如下:

1:此服务器使用4年多,且服务器硬盘每天读取写入邮件数据多且频繁,因此硬盘可靠性急剧降低。

2:机房该机柜内服务器表面温度平时都在40度以上,服务器机箱内温度更高,工作温度明显过高,硬盘在这个温度区间工作的比较不稳定,易产生读写错误。

3:我们对出现这种故障的风险估计不足,没有做好备份系统,并将数据及时备份保存。在这中间耽误了不少宝贵的抢修时间。

4:和供应商沟通中出现不少问题。

综上所述,IDC网管在这个故障的过程中存在比较多不足的地方。而且此次故障之前,邮件系统在升级后有比较多的一些小故障,可能都预示着系统发生问题的方向,结果我们没有在意,导致出了这么大事故。

经过痛定思痛,我们针对目前的状况做如下的总结和改进:

1:对于COREMAIL邮件系统我们要加深一步理解,此次恢复系统过程中出现的INDEX索引导致只能手工恢复数据的问题,我们以后必须深刻重视。做到对邮件系统的了解万无一失。

2:防患于未然,备份机器和备份系统要时刻准备好。以免在这个问题上耽误恢复系统的时间。

3:做好所有用户的每日备份工作,争取备份到每天的数据。在出现问题时,将用户的损失降低到最小。

4:定期巡检系统,针对系统可能出现的异常情况做好准备工作,做好安全生产工作。

在全公司安全生产的大前提下,IDC网管组应当严格遵守安全生产的规章制度,并结合实际情况,总结经验教训,以保障系统的稳定运行。

2008-8-7

8月5日邮件服务器故障报告(2008年)相关推荐

  1. linux邮件实验,linux邮件服务器实验报告

    <linux邮件服务器实验报告>由会员分享,可在线阅读,更多相关<linux邮件服务器实验报告(11页珍藏版)>请在人人文库网上搜索. 1.实 验 报 告专业: 计算机科学与技 ...

  2. 轩辕传奇服务器合并信息,轩辕传奇9月1日部分服务器合服公告

    轩辕传奇9月1日部分服务器合服公告带个大家,这个更新后服务器合服公告都有哪些内容呢,下面就一起去看看吧. 尊敬的轩辕勇士们: <轩辕传奇>开放测试以来人气依旧沸腾,各种战斗的激烈程度也随之 ...

  3. 红警ol总是服务器满 可服务区显示流程,红警OL:11月27日部分服务器数据互通合服公告...

    尊敬的各位指挥官: 为了给各位指挥官提供更加优良的游戏环境,提高游戏的可玩性及互动性,< 数据互通开启时间:11月27日 4:00-8:00(数据互通期间,服务器将暂时停服,如未能按时完成,则开 ...

  4. 第五服务器维护时间2020,《黑潮之上》2020年12月15日全服务器停服维护公告

    在黑潮之上手游中2020年12月15日全服务器停服维护了哪些有趣的内容呢?不清楚本次更新情况如何的话,下面就来看一下吧! 各位接触者: 为了提供良好的游戏体验,保证服务器稳定运行,<黑潮之 上& ...

  5. 问道服务器维护,问道手游03月02日所有服务器维护通知

    问道手游03月02日所有服务器维护通知,为保证服务器的运行稳定和服务质量,<问道>手游所有公测服务器(内测专区除外)将于2017年03月02日04:30进行停机维护,预计需要维护4.5小时 ...

  6. 【OTT】1月2日-1月8日OTT盒子观察报告

    摘要:奥维云网发布1月2日-1月8日OTT盒子观察报告,据奥维云网(AVC)线上监测数据显示:2017年第02周,OTT盒子销量为13.7万台,环比上升8.4%:销额为0.3亿元,环比上升9.8%.

  7. 轩辕传奇服务器维护,轩辕传奇3月12日部分服务器停服更新 黄金猪与招财兔活动来袭...

    轩辕传奇3月12日部分服务器停服更新 黄金猪与招财兔活动来袭 轩辕传奇3月12日部分服务器在上午时间进行了停服更新,黄金猪与招财兔活动来袭,周末活动幻魔宫体验优化,战场补人机制优化,下面小编为大家带来 ...

  8. 剑侠单机版显示服务器正在维护,剑侠情缘8月22日部分服务器维护开服及补偿公告...

    原标题:剑侠情缘8月22日部分服务器维护开服及补偿公告 亲爱的少侠: 各位少侠,此前由于名望商店异常问题,我们对游戏内部分功能进行了临时关闭,并已对部分受较大影响的服务器于8月22日3:30进行了全服 ...

  9. 6月27日阿里云故障说明

    2019独角兽企业重金招聘Python工程师标准>>> 6月27日阿里云故障说明 阿里云头条 2018-06-28 07:52:40 浏览3250 评论16 阿里云 测试 控制台 自 ...

最新文章

  1. Linux下wireshark抓包验证telnet明文传输密码
  2. 批量获取成员机管理员组用户信息
  3. ASP.NET编程中的十大技巧【转载】
  4. php 时间函数参考
  5. VSTS2010部署一:TFS安装
  6. python去重语句_Python Dataframe 指定多列去重、求差集的方法
  7. Java对象容器——List
  8. [html] 你有使用过IE的条件注释吗?
  9. Windows域策略设置 禁止客户端修改IP地址【全域策略生效】
  10. Java每隔5秒查找redis_Redis利用Pipeline加速查询速度的方法
  11. abb机器人离线编程软件叫做_Robotstudio软件:ABB机器人机器视觉位姿引导虚拟仿真...
  12. python字符串转为ascii码_Python学习经验:无重复字符的最长子串
  13. 你可以对计算机进行设置 这样用户,win10登陆界面设置 win10登陆界面壁纸
  14. Maven学习之路(五)maven的灵活构建--属性、profile和资源过滤
  15. 计算机word文档快速打数字,word快速提取纯数字
  16. 分析称诺基亚仅押宝WP成自救牵绊
  17. RSSI 平面 三点定位算法(C语言、JS源码例程)
  18. 墨言教育:黄鹤楼1800年历史主题海报邀请展:传递历史文化积淀和新时代风采
  19. 自动下载RDS MySQL备份文件
  20. 机器学习实战——决策树(二)

热门文章

  1. iot-Scada免费Scada组态软件系列教程4-二次开发与版本部署
  2. 赤道子午线弧长反演大地纬度
  3. 微信清理内置浏览器缓存
  4. 推荐5款体验较好的团队协作工具
  5. Java游戏项目之王者荣耀
  6. set feedback on
  7. XMind Zen 2020 10.3.1注册使用
  8. ## 微信web开发者工具网络连接失败解决办法,基本百分百成功
  9. ionic capacitor 输入框获取焦点后隐藏键盘
  10. 字符编码问题三个不可见的字符(0xEF-0xBB-0xBF,即BOM)