8月5日邮件服务器故障报告(2008年)
08年的8月5号,我在电信担任数据通信事业部IDC的项目经理,这一天对我来说是记忆深刻的一天,集团邮件服务器DOWN掉了,而且很难RECOVER,无法忘记这一段历史。
下面是我当年写的报告原文:
8月5日早上8点接到客户的EMAIL报障,报障内容为企业邮箱无法使用,随后立即进入机房检查发现COREMAIL邮件系统(IP地址为61.142.15.58)已经宕机。
机器不断产生如下提示:
XFS mounting filesystem sda1
Starting XFS recovery on filesystem: sda1 (dev: sda1)
3w-9xxx: scsi0: ERROR: (0x03:0x0202): Data ECC error:.
scsi0: ERROR on channel 0, id 4, lun 0, CDB: Read (10) 00 65 db d7 3f 00 00
08 00
Current sda: sense key Medium Error
Additional sense: Unrecovered read error
end_request: I/O error, dev sda, sector 1708906303
3w-9xxx: scsi0: ERROR: (0x03:0x0202): Data ECC error:.
scsi0: ERROR on channel 0, id 4, lun 0, CDB: Read (10) 00 65 db d7 40 00 00
07 00
Current sda: sense key Medium Error
Additional sense: Unrecovered read error
end_request: I/O error, dev sda, sector 1708906304
3w-9xxx: scsi0: ERROR: (0x03:0x0202): Data ECC error:.
scsi0: ERROR on channel 0, id 4, lun 0, CDB: Read (10) 00 65 db d7 41 00 00
06 00
Current sda: sense key Medium Error
Additional sense: Unrecovered read error
end_request: I/O error, dev sda, sector 1708906305
3w-9xxx: scsi0: ERROR: (0x03:0x0202): Data ECC error:.
scsi0: ERROR on channel 0, id 4, lun 0, CDB: Read (10) 00 65 db d7 42 00 00
05 00
根据这些数据可以初步判定硬盘出现问题。由于硬盘为RAID1镜像阵列,进入系统BIOS的RAID控制程序,查看到系统检测出了RAID阵列是正常的,查看两块硬盘,均能检查出硬盘容量及型号。因此故障原因非单个硬盘硬件损坏,而是硬盘数据出现问题和分区表损坏。
于是运行fdisk指令,查看系统能找到的分区:
Disk /dev/hda: GB,bytes
16 heads, 63 sectors/track, 79656 cylinders
Units = cylinders of 1008 * 512 = 516096 bytes
Device Boot Start End Blocks Id System
/dev/hda1 * 1 4161 2097112+ 83 Linux
/dev/hda2 4162 8328 2100168 82 Linux swap
/dev/hda3 8329 12489 2097144 83 Linux
/dev/hda4 12490 79656 33852168 f W95 Ext'd (LBA)
/dev/hda5 12490 16650 2097112+ 83 Linux
/dev/hda6 16651 79656 31754992+ 83 Linux
发现目前硬盘分区只挂载了一个,其余都不能正常挂载。其他硬盘分区均有可能存在坏扇区。
之后运行磁盘检查指令 chkdsk 检查磁盘分区数据并试图修复分区,均告无效。且系统随着重新启动次数的增加,坏的分区越来越多,多数分区都无法正常挂载。
在无法恢复硬盘分区并正常启动的情况下,我们立即找了了替代方案,在9点左右为另外一台服务器安装Redhat Adavnced Server 4,并于10点通知COREMAIL供应商广州安岭公司做好重装和恢复COREMAIL数据的准备工作。
在为另 外一台服务器安装Redhat Adavnced Server 4的过程中,原有的DVD版的Redhat Adavnced Server 4无法在该服务器的普通CDROM上安装,后找到CD版的Redhat Adavnced Server 4,安装第三张盘时又提示光盘无法读取,只能重刻第三张光盘。在整个安装系统的过程中耽误了不少时间。
系统安装完毕后,通知COREMAIL供应商广州安岭公司,又遇到无故拖延。为了尽快为客户提供基本的收发邮件的服务,我们请他们先行恢复用户数据。但 他们告诉我们原先备份的用户数据库里没有INDEX数据表,就此问题我们跟他们做了严正交涉,指出此INDEX表在我们运行的系统数据库中根本不存在。此后广州安岭公司采取了手工建立INDEX表的方式,最终于下午15:00之前帮我们恢复了用户数据库。用户至此可以正常收发邮件。
总结以上的检查过程,分析出现此种宕机问题的原因如下:
1:此服务器使用4年多,且服务器硬盘每天读取写入邮件数据多且频繁,因此硬盘可靠性急剧降低。
2:机房该机柜内服务器表面温度平时都在40度以上,服务器机箱内温度更高,工作温度明显过高,硬盘在这个温度区间工作的比较不稳定,易产生读写错误。
3:我们对出现这种故障的风险估计不足,没有做好备份系统,并将数据及时备份保存。在这中间耽误了不少宝贵的抢修时间。
4:和供应商沟通中出现不少问题。
综上所述,IDC网管在这个故障的过程中存在比较多不足的地方。而且此次故障之前,邮件系统在升级后有比较多的一些小故障,可能都预示着系统发生问题的方向,结果我们没有在意,导致出了这么大事故。
经过痛定思痛,我们针对目前的状况做如下的总结和改进:
1:对于COREMAIL邮件系统我们要加深一步理解,此次恢复系统过程中出现的INDEX索引导致只能手工恢复数据的问题,我们以后必须深刻重视。做到对邮件系统的了解万无一失。
2:防患于未然,备份机器和备份系统要时刻准备好。以免在这个问题上耽误恢复系统的时间。
3:做好所有用户的每日备份工作,争取备份到每天的数据。在出现问题时,将用户的损失降低到最小。
4:定期巡检系统,针对系统可能出现的异常情况做好准备工作,做好安全生产工作。
在全公司安全生产的大前提下,IDC网管组应当严格遵守安全生产的规章制度,并结合实际情况,总结经验教训,以保障系统的稳定运行。
2008-8-7
8月5日邮件服务器故障报告(2008年)相关推荐
- linux邮件实验,linux邮件服务器实验报告
<linux邮件服务器实验报告>由会员分享,可在线阅读,更多相关<linux邮件服务器实验报告(11页珍藏版)>请在人人文库网上搜索. 1.实 验 报 告专业: 计算机科学与技 ...
- 轩辕传奇服务器合并信息,轩辕传奇9月1日部分服务器合服公告
轩辕传奇9月1日部分服务器合服公告带个大家,这个更新后服务器合服公告都有哪些内容呢,下面就一起去看看吧. 尊敬的轩辕勇士们: <轩辕传奇>开放测试以来人气依旧沸腾,各种战斗的激烈程度也随之 ...
- 红警ol总是服务器满 可服务区显示流程,红警OL:11月27日部分服务器数据互通合服公告...
尊敬的各位指挥官: 为了给各位指挥官提供更加优良的游戏环境,提高游戏的可玩性及互动性,< 数据互通开启时间:11月27日 4:00-8:00(数据互通期间,服务器将暂时停服,如未能按时完成,则开 ...
- 第五服务器维护时间2020,《黑潮之上》2020年12月15日全服务器停服维护公告
在黑潮之上手游中2020年12月15日全服务器停服维护了哪些有趣的内容呢?不清楚本次更新情况如何的话,下面就来看一下吧! 各位接触者: 为了提供良好的游戏体验,保证服务器稳定运行,<黑潮之 上& ...
- 问道服务器维护,问道手游03月02日所有服务器维护通知
问道手游03月02日所有服务器维护通知,为保证服务器的运行稳定和服务质量,<问道>手游所有公测服务器(内测专区除外)将于2017年03月02日04:30进行停机维护,预计需要维护4.5小时 ...
- 【OTT】1月2日-1月8日OTT盒子观察报告
摘要:奥维云网发布1月2日-1月8日OTT盒子观察报告,据奥维云网(AVC)线上监测数据显示:2017年第02周,OTT盒子销量为13.7万台,环比上升8.4%:销额为0.3亿元,环比上升9.8%.
- 轩辕传奇服务器维护,轩辕传奇3月12日部分服务器停服更新 黄金猪与招财兔活动来袭...
轩辕传奇3月12日部分服务器停服更新 黄金猪与招财兔活动来袭 轩辕传奇3月12日部分服务器在上午时间进行了停服更新,黄金猪与招财兔活动来袭,周末活动幻魔宫体验优化,战场补人机制优化,下面小编为大家带来 ...
- 剑侠单机版显示服务器正在维护,剑侠情缘8月22日部分服务器维护开服及补偿公告...
原标题:剑侠情缘8月22日部分服务器维护开服及补偿公告 亲爱的少侠: 各位少侠,此前由于名望商店异常问题,我们对游戏内部分功能进行了临时关闭,并已对部分受较大影响的服务器于8月22日3:30进行了全服 ...
- 6月27日阿里云故障说明
2019独角兽企业重金招聘Python工程师标准>>> 6月27日阿里云故障说明 阿里云头条 2018-06-28 07:52:40 浏览3250 评论16 阿里云 测试 控制台 自 ...
最新文章
- Linux下wireshark抓包验证telnet明文传输密码
- 批量获取成员机管理员组用户信息
- ASP.NET编程中的十大技巧【转载】
- php 时间函数参考
- VSTS2010部署一:TFS安装
- python去重语句_Python Dataframe 指定多列去重、求差集的方法
- Java对象容器——List
- [html] 你有使用过IE的条件注释吗?
- Windows域策略设置 禁止客户端修改IP地址【全域策略生效】
- Java每隔5秒查找redis_Redis利用Pipeline加速查询速度的方法
- abb机器人离线编程软件叫做_Robotstudio软件:ABB机器人机器视觉位姿引导虚拟仿真...
- python字符串转为ascii码_Python学习经验:无重复字符的最长子串
- 你可以对计算机进行设置 这样用户,win10登陆界面设置 win10登陆界面壁纸
- Maven学习之路(五)maven的灵活构建--属性、profile和资源过滤
- 计算机word文档快速打数字,word快速提取纯数字
- 分析称诺基亚仅押宝WP成自救牵绊
- RSSI 平面 三点定位算法(C语言、JS源码例程)
- 墨言教育:黄鹤楼1800年历史主题海报邀请展:传递历史文化积淀和新时代风采
- 自动下载RDS MySQL备份文件
- 机器学习实战——决策树(二)