衣荷华州火灾、三星大火、桑迪飓风、失控的SUV四驱汽车、甚至太阳风暴……本文介绍的这几种随机性事件让数据中心运营者夜不能寐。虽然是“小概率”事件,却因为其灾难性后果而不能不防。贵公司的灾难恢复计划是否准备好处理这些突如其来的奇怪事件呢?他山之石,可以为鉴,希望本文可以给各位数据中心运营者敲响警钟。

1. 衣荷华州火灾
2014年2月18日下午,那也是衣荷华州平时制作全州工资单的工作日,主数据中心发生了一场电气火灾。衣阿华州CIO Robert von Wolffradt在GovTech.com上发布的一篇博客中回忆道,IT工作人员事先根本普没有料到会发生这种事,他们之前一直在为预报当天晚上会来袭的那场暴风雪准备应急计划。

火警在下午3点拉响后,数据中心断了电,整幢大楼里面烟雾弥漫,工作人员只好疏散。火警触发了数据中心以天然气为燃料的FM-200灭火系统,大火被控制在壁挂式瞬态电压抑制盒(如上图)里面。该装置控制着进入数据中心的电流,因过热而熔化。该州的总务管理团队拉了一条旁路,几小时电又恢复了。

电力恢复正常后,大门可以打开,风扇可以开启,大楼可以通风,不过警察和消防人员不愿意允许IT工作人员回到大楼。火灾发生后过了三个半小时,州政府官员确定可以重新进入数据中心
Wolffradt不得不决定是否可以继续处理该州付给公民和供应商的1.62亿美元连同员工工资。全体工作人员马上展开工作,清理掉了数据中心的残留物,IT工作人员在晚上9点之前恢复了存储连接网络、防火墙和网络核心系统。如果不更换瞬态电涌抑制盒,重新开启这些系统会让设备处于险境。Wolffradt于是决定无论如何要更换抑制盒,不过他为备用数据中心配备了人手,作为一项防范措施。
到了晚上11点,另外的系统恢复上线,包括服务台和交通运输部在即将到来的暴风雪中监测桥梁和公路所需的摄像头。
另外恢复的还有财务系统和虚拟化应用软件。到了晚上,额外的系统投入运行,到了早上备用数据中心不需要接过处理全州工资的工作。Wolffradt回忆道:“我们在那次事件当中充分利用了国土安全部的语音通知系统,两次向政府部门主管和重要的工作人员通报最新情报。”他特别指出,数据中心火灾过后,传闻四起;因此,CIO必须与其他责任方经常沟通。随着事态的进一步发展,他本人随时向州长和重要政府官员汇报情况。
Wolffradt在博文中透露的一个教训是,让主要的企业系统放在彼此不同的地方,比如将电子邮件放在与工资单不同的设施(数据中心)。另一个教训就是:一旦发生火灾,总务管理和人力资源部门“是你最好的朋友”,会帮助你顺利渡过难关。他写道,想恢复数据中心运营,最棘手的障碍之一就是,说服警察和消防人员:IT工作人员可以重新进入数据中心。数据中心所在的大楼里面共有1000名州雇员,大多数人等待的时间比IT工作人员还长,等警报解除后,才重新进入大楼。
2. 三星大火
不,这里说的不是什么新智能手机的名称,而是三星遭遇的大火。

2014年4月20日,韩国果川市一幢办公楼的中间层燃起了大火。大火是从三星在这幢大楼的SDS数据中心开始冒出来的。ZDNet韩国特约撰稿人Jaehwan Cho在其推特帐号(@hohocho)上发布了来自韩国联合通讯社的图片,图片显示烟雾和火焰从大楼侧面冒出来,热浪导致碎片从外面不断坠落下来。
据Data Center Knowledge报道,三星的IT工作人员和大楼住户迅速被疏散,只有一名工作人员因坠落的碎片而受到割伤、擦伤及其他轻伤。
那场大火导致三星设备(包括智能手机,平板电脑和智能电视)的用户们无法访问他们一直试图获取的数据。在果川市第二个数据中心的恢复系统恢复服务之前,广大设备用户一度数小时无法访问内容,最后三星工作人员只好开博客致歉。
3. 电缆管道着火
2009年7月3日,西雅图费舍尔广场一个配电室的火灾导致Authorize.net支付门户网站、微软必应旅游服务、Geocaching.com服务、Dotster域名注册服务、主机托管服务提供商AdHost以及另外几十个网站瘫痪。第二天早上才恢复供电。

《普吉特海湾商业杂志》报道,Geocaching和AdHost到第二天上午10点才恢复运行,而其他服务网站花了更长时间才恢复如初。据《普吉特海湾商业杂志》报道,那场大火显然是从烧坏的电缆管道(见上图)开始冒出来的,害得费舍尔通信公司(Fisher Communications)估计花费了1000万美元的维修和设备更换费用。
4. 桑迪飓风:发电机故障
2012年10月下旬,桑迪飓风一路席卷弗吉尼亚州、特拉华州、马里兰州和新泽西州时,曼哈顿与美国东沿岸大部分地区一样失去了电力。海水风暴潮随之而来,冲上了街道,导致曼哈顿下城区和三州邻接地区的另外许多地方顿时陷入一片汪洋。

在曼哈顿下城区布罗德大街75号即Peer 1主机托管公司的所在地,这无疑是灾难恢复规划人员的噩梦。虽然备用发电机可以随时搬到远高于水位线的大楼18层,但是涌入大楼大堂、灌满地下室的那场风暴潮毁掉了放在那里的应急发电机燃油泵送系统。一旦浸泡在水下,系统电路不再工作。(纽约在9•11事件后实施的一项规定是,限制贮存在办公楼的燃油量)。因此,发电机开始用完供应有限的燃油后,这家公司无法获得新补充的燃油。就在几名员工设法赶到数据中心、帮助防止任何数据丢失的同时,Peer 1建议客户在数小时内有计划地关闭系统。

Peer 1不是关闭设施,而是成立了一支救援队,运送发电机所需的燃油。燃油摆放在街上(见上图),一路手递手送到17楼,也就是发电机的储油罐所在地方。储油罐及油泵可以将燃油输送到这层楼上方的发电机。Peer 1的客户(包括SquareSpace这家网站开发公司和Fog Creek Software这家在线项目管理软件供应商)为这支25个成员的救援队提供了人力,在10月30日晚直至10月31日,将燃油送到了楼上的发电机。

到10月31日午饭时间,他们终于灌满了储油罐,总算有机会休息一下,吃的午饭是靠步行经过布鲁克林大楼送过来的(由于曼哈顿街道堵塞)。Peer 1的灾难恢复方案当中既没有包括需要成立救援队,也没有包括步行送午饭。但这场飓风没有导致服务停运。

5. SUV导致的停运

2007年11月13日,Rackspace的主机托管业务和在达拉斯同一个数据中心运行的成立才不久的Mosso Cloud公司因一辆失控的SUV而停运了数小时。

这辆大型四轮驱动汽车的司机是名糖尿病患者,他当时昏倒在方向盘前。这辆车不是突然转向街道边沿,而是完全加速直行,在丁字路口没有转弯,越过路缘径直开到远处的草径上。草径起到了斜面的作用,让这辆SUV得以在空中越过一排泊着的汽车。它冲下来后又撞上了一幢大楼,这幢大楼里面正好放着Rackspace数据中心的电力变压器,结果一下了断了电。

就在切换过程连接电力公司的备用市电的时候,大楼的冷却系统停了下来。计算处理过程没有受到干扰,因为计算设备靠正是为这类突发事件而部署的应急电池继续运行。电力公司接到急救人员正从一辆一头撞到变压器设备的汽车中抢救司机这个消息后,关闭了通向该数据中心的所有电力,结果扰乱了Rackspace的备用市电,于是数据中心的工作人员为大楼的冷却器启动了重启过程。

电池电力再次启动,应急发电机立马开始运转起来,而灾难恢复方案要求这样。尽管这次事件以及电网两次停电,数据中心的处理到目前为止没有受到中断。然而,冷却系统的大型冷却器的多步骤启动过程在重启进行到一半受到了干扰,事实证明要不是进一步排查故障,不可能让一些系统重启。

Rackspace总裁Lew Moorman在事件后不久发布的博文中告诉客户:“两台冷却器没有重启,导致数据中心过热。”计算设备散发的热量足以让温度直线上升,于是Rackspace的管理人员实施了“分阶段关闭设备的方法,以免设备损坏”,客户数据因而丢失。

停电一直持续到晚上10点50分,此时事件已过去了5小时。软件即服务提供商37signals(Rackspace为这家公司提供主机托管服务)告知自己的客户:“这一连串的糟糕事件不仅击跨了我们的系统,还击跨了我们数据中心先进的备用系统。我们会竭尽全力进一步分散我们的系统,以便让将来诸如此类的任何停运事件更少发生。”除了加大失去客户的风险外,这起事件据称还让Rackspace退款350万美元,损失惨重。

6. 焊工引起的瘫痪

2015年1月9日,由于一名焊工的吹管不小心引燃了旁边的建筑材料,原准备作为亚马逊网站未来数据中心的一幢大楼发生了火灾。这场大火很快变成了维吉尼亚州阿什本一处地方的三级大火。几英里开外的地方也能见到滚滚浓烟。亚马逊发言人告诉美国广播公司新闻网驻地方办事处:这场大火造成约10万美元的损害,不过补充说“没有影响亚马逊运营的风险”,因为该数据中心还没有投入使用。

7. 太阳风暴

万一嫌火灾、洪水和四轮驱动车事故还不够闹心,总是会出现这种小概率事件:太阳风暴袭击地球大气层。太阳耀斑过后有时会出现所谓的太阳风暴,来自太阳表面的日冕物质喷射会沿着与之前的太阳耀斑同样的轨迹,远离太阳表面。

这一连串事不常发生,但是一旦发生,太阳耀斑似乎会为喷射清理出一条路线,以便高速喷射到太空。随着带电粒子接近地球大气层,它们会因高速而形成强磁性。磁场会诱导长长的导电材料,比如导电电缆。管道和电话系统提供了另外的长长导电体,能够捕捉到电荷。

这种威胁对伦敦劳埃德保险公司(Lloyds of London)来说足够严重,于是发布了一份风险评估报告:《北美电网面临的太阳风暴风险》。

据这份报道声称:“电力可靠性面临的一个严重威胁就是磁暴――太阳风暴在地球大气层的上层引起的严重干扰……它们诱导的电流会让电网系统出现过载,从而引发电压崩溃,或者更糟糕的是,损坏数量众多的价格不菲的特高压变压器。”

1989年,加拿大就遭遇了这样一起太阳风暴,电涌导致变压器损坏,结果魁北克水力发电公司的电网陷入瘫痪。据估计,1859年美国发生的一起规模较小的太阳风暴(名为卡林顿事件)让几名正在作业的报务员触电,并且导致几个电报局着火。1989年的那起事件导致东北电力协调委员会和中大西洋地区委员会的断路器和防护装备失效,几乎让成员电网出现连锁反应式崩溃。电涌损坏发电机的升压变压器后,新泽西州的一家核电厂不得不停止运行。

较晚些时候,2012年也发生过一场太阳风暴。

结束语

虽然所有这些场景让最身经百战的数据中心运营者也吓出一身冷汗,不过好消息是,本文中提到的所有企业组织都设法从任何灾难恢复方案根本预料不到的一连串事件后迅速恢复了过来。

来源:IDC圈

资料免费送(点击链接下载)

加入运维管理VIP群(点击链接查看)

扫描以下二维码加入学习群

史上最怪异的几大数据中心事故相关推荐

  1. Mysql数据库的简单备份与还原_史上最简单的MySQL数据备份与还原教程

    本文主要为大家详细介绍了史上最简单的MySQL数据备份与还原教程第一篇,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能帮助到大家. 数据备份与还原第一篇分享给大家,具体内容如下 基础概念: ...

  2. 地球上环境最恶劣的数据中心

    据西班牙<国家报>报道,各数据中心展开最佳运行的条件都非常具体,有时为硬盘和处理器维持适当的温度和湿度都非常困难,尤其是在那些地球上环境最恶劣的地方. 「水下」微软开发的Natick水下数 ...

  3. 原创干货 | 史上最全的大数据学习资源(Awesome Big Data)

    很多人在学习大数据的时候比较迷茫,不知从何学起,也不能够比较系统.全面的了解大数据框架.为此,过往记忆花了一个周末的时间把 Awesome Big Data (https://github.com/o ...

  4. 史上最全系列 | 大数据框架知识点汇总(资源分享、还不快拿去)

    前言 大家好,我是土哥 写文章整整 五个月 了,在这期间写了很多篇高质量文章,每一篇都在 1000+ 阅读以上,为了让各位小伙伴更好的学习和面试,我将自己 发表的文章 以及 未发表的文章 全部汇总成一 ...

  5. 世界上设计最考究的数据中心

    数据中心是互联网的一个个重要节点所在,数据中心要怎样才能算是完美? 瑞典最大的ISP告诉你答案,它号称可以抵挡一枚×××的打击,安全性.电源.散热.网络等都是一流的,更棒的是,它的设计重点在于人类的工 ...

  6. 史上最尴尬面试--连数据基本类型都忘了

    史上最尴尬的一次面试,没有之一. 从前一天晚上知道要面试计算机基础开始,我的心就慌了,但我还是没想到曾经自己不以为然的场面–面试紧张到基本类型都忘掉,会发生在自己身上.是的,我居然连基本类型都没回答完 ...

  7. Hive 史上最全面的大数据学习第九篇(五) Hive 自定义函数 每一天都是美好的一天!

    Hive概述 & 安装方式详解 Hive表操作 Hive表分类 Hive Sql 操作 Hive 自定义函数 Hive On HBase 六.Hive 自定义函数 在Hive当中又系统自带的函 ...

  8. 史上最全的“大数据”学习资源

    2019独角兽企业重金招聘Python工程师标准>>> 资源列表: 关系数据库管理系统(RDBMS) 框架 分布式编程 分布式文件系统 文件数据模型 Key -Map 数据模型 键- ...

  9. 收藏 | 史上最全的“大数据”学习资源

    2019独角兽企业重金招聘Python工程师标准>>> 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门.当今"大数据" ...

  10. 史上最全的大数据入门手册!

    一.大数据分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能 ...

最新文章

  1. 面试官:private修饰的方法可以通过反射访问,那么private的意义是什么?
  2. 使用代码将github仓库里某个issue同步到CSDN博客上
  3. 第二部分面向对像基础第五章
  4. 进程间通信(IPC)介绍(转)
  5. boot spring 怎么执行hql_spring-boot 中使用graphql的正确姿势
  6. iOS基础知识点总结
  7. 关于 SAP CRM 订单抬头级别的 Text 无法编辑的问题分析
  8. STL之双向循环链表(List)的内部关系
  9. 链接测试工具:Xenu
  10. Maven的核心概念
  11. 【cocos2d-x 3.7 飞机大战】 决战南海I (三) 敌机实现
  12. 摘要算法、对称加密、非对称加密、数字签名、数字证书浅析
  13. 删除win10易升更新的办法
  14. origin数据平滑_origin怎样平滑曲线 看完你就会了
  15. Android单点触摸与多点触摸
  16. Docker文档资料
  17. python打砖块游戏算法设计分析_Python打砖块
  18. [FPGA入门笔记](十):按键消抖实验
  19. day03 数据预处理
  20. LVGL官方文档-7.11.0-8-Porting-Logging

热门文章

  1. Google, with new Pixel and camera, is serious about devices
  2. 小型软件企业组织结构
  3. gcc O3和O0编译的输出浮点数不相同
  4. 嫉妒心太强该怎么办?
  5. python数组求和_python数组求和
  6. 太阳直射点纬度计算公式_高中地理——每日讲1题(太阳直射点、太阳高度角、太阳视运动)...
  7. 企业微信自建应用手动授权,获取用户详细信息
  8. 用户体验设计师、UI 设计师和交互设计师有什么区别?
  9. HTML hr 标签的用法
  10. 解决VIVADO ZYNQ编译提示PS引脚约束警告