一声巨响,数据中心应声倒下

罗马尼亚一家银行数据中心业务中断了大约10个小时。原因是数据中心在对消防系统进行测试时,打开了储存有“烟烙尽”的钢瓶,“烟烙尽”通过软管和喷嘴均匀地喷洒在狭小空间、当气体通过喷嘴释放时,压力过大,在释放“烟烙尽”时发出了异常大的巨响,巨响超过了130分贝,引起振动,服务器和数据存储设备都因此受到了影响,破坏了设备内部部件,导致银行的业务瘫痪。实际上,数据中心设备对噪声也非常敏感,尤其是这种突然的巨响,很容易造成内部电子元器件的失效。(专家点评:有必要在数据中心增加一些消声设施,提供一个相对安静的环境,有利于延长设备的使用寿命。)

一辆SUV汽车引发的惨剧

2007年11月位于美国达拉斯的Rackspace公司数据中心遇到了一场无妄之灾,一位大型四驱车司机,在开车途中由于糖尿病病发而出现短暂昏迷,汽车一路向前直冲,并从丁字路口处撞向路边外侧的护堤。护堤被撞击后,冲向空中,并落在了Rackspace公司的数据中心建筑物上,恰好砸在了供电装置上,一阵火光带闪电之后,数据中心电力供应中断,使其业务在数小时内陷入了瘫痪。Rackspace公司为此次事故向客户支付了350万美元赔偿金,同时还增加了客户流失的风险。(专家点评:数据中心需具备一定的抗震、抗撞、防火能力,避免遇到这样的意外故障。)

飓风吹停了数据中心发电机

2012年10月位于美国纽约曼哈顿地区的一处数据中心整套供电系统失效,原因是肆虐一时的飓风桑迪袭击了曼哈顿。在数据中心的十八层摆放了多台备用发电机,用于持续提供电力且不至于受到洪水影响。但风暴来袭时直接灌满了该数据中心建筑的地下室,并且摧毁了应急发电机的燃油泵送系统,遭到海水浸泡的整套电路立刻失去了作用,备用发电系统失效,而十八层电力采用的是市电,当飓风来袭造成整个曼哈顿市电系统故障,数据中心主备供电均故障,造成数据中心断电,所有应用系统无法运行。

太阳耀斑事件

1989年,太阳耀斑定向瞄准了加拿大魁北克水电电网,导致电网电压振荡,造成跳闸保护设备启用,某个核电站的发电机升压变压器永久损坏,无法提供服务。太阳耀斑是一种最剧烈的太阳活动,周期约为11年,通过高速度产生强磁场的过程中发出的带电粒子,对于数据中心和电网是一个毁灭性的灾难。这属于小概率事件,但一旦发生,对数据中心就是致命一击。

天灾之下,数据中心人员是束手无策,还是能够有所作为?故障突然发生的一刻,运维人员是否真的能在最短时间内有效地完成故障处理?系统是否真的能如预案中快速恢复?这些都是对数据中心故障处理能力的实际考量。良好的培训和完善的应急预案及演练将有助于意外事件的应对。

灾难恢复演练

以农业银行首次全行参与的数据中心信息系统业务级灾难恢复演练为例,包括事件响应、预警准备、系统恢复、业务验证和总结回退等5个阶段,10分钟内完成了总分行灾难恢复人员集结;在75分钟内恢复了公共应用、内部核算、单折、银行卡、客户信息、联行、现金管理、库房现金及表外等9大类核心业务,并通过了全国36家分行营业网点的业务验证,业务验证成功率为99.94%。

未雨绸缪,多手准备

桑迪飓风之后,发现许多企业并没对燃料供应链有足够的关注。数据中心灾难计划把备用发电机作为重中之重:当燃料被耗尽之前,所有的工程项目和技术、系统都可以表现得很好,直到柴油燃料被悲剧般地耗尽了……。

即使企业能够获得燃料供应商的支持,他们也要防止在需要的时候遭遇灾害事故引起的交通瘫痪问题。这些问题可能会在其他情况下发生,如地震、飓风、龙卷风造成的重大民用基础设施损害。而我们从桑迪飓风中所汲取到的一个关键的教训便是,需要在燃料的供应链冗余、地理和备用运输路线方面投入更多的关注。

人员培训

当发生天灾时,人员的冗余问题固然是必需的,这样不会造成单一某一个人成为企业操作的关键,但是一旦发生百年难遇的特大灾难时,事前安排N+1个人可能也是不够的。像发生桑迪这样的灾难时,更广泛的交叉培训将帮助数据中心解决很大的难题。

作者:佚名

来源:51CTO

面对这些可能出现的意外,你的运维团队准备好了吗?相关推荐

  1. 传统运维团队转型应该注意哪些问题?

    2018年已经接近尾声,回顾这一年,国内企业都在进行数字化转型,大家越来越关注如何提升效率.在这一过程中,颠覆性的IT技术正在加速落地:容器技术.Kubernetes的使用已经越来越普及,云计算和大数 ...

  2. IDC运维团队技术交流总结篇————换个角度看世界

    为期一个月的IDC运维团队技术交流活动马上就要结束了:使我们受益匪浅,在此感谢公司领导为我们运维团队提供这个机会和平台!(阿俭)<?xml:namespace prefix = o ns = & ...

  3. 中小型运维团队如何设计运维自动化平台

    前言 我给中小型运维团队的定义是整个团队人数(所有运维工程师 + 运维开发工程师)为 20 人以下,一般这样的团队,能为自动化投入的资源也许就 1.2 个开发人员. BAT 等大公司的 DevOps ...

  4. 运维同学,你们公司的运维团队有多少人?

    现在很多小微企业,尤其是互联网创业公司,都选择直接用云,甚至没有专门设立运维岗位,所以设立了运维团队的公司是真正重视运维,重视业务稳定性.可靠性.安全性 .所以,我们也非常好奇,每家设立了运维岗位的公 ...

  5. 汽车之家运维团队倾力打造的配置管理系统AutoCMS

    管理 存储 Hadoop 服务器 运维 Puppet 作者介绍 王显宝,汽车之家运维团队成员,主要负责AutoCMS的开发工作和缓存平台的运维工作,擅长python自动化运维,分布式缓存和分布式文件系 ...

  6. 运维团队能力建设的另一思路

    笔者在专栏前面的文章里曾描述过广义的运维服务体系,而运维服务是通过团队中每位成员来具体落实的,它是团队能力输出的一个综合结果. 那么如何搭建一个优秀的团队才能输出高质量.稳定.可靠的运维能力呢? 角色 ...

  7. 如何提高运维团队的运维效率?

    如何运行一个庞杂的机房,进行无数的主动和被动的操作,同时避免错误导致的数据中心故障? 1.以终为始 以终为始是一种以结果为导向的思维方式,提示人们在做事情前要先明确做事情的最终目的,也就是" ...

  8. 【转】腾讯十年运维老兵:运维团队的五个“杀手锏”

    ---------------------------------------------------------------------------------------------------- ...

  9. 腾讯十年运维老兵:运维团队的五个“杀手锏”

    回顾运维十年,如有一次重来的机会,什么才是最重要的?什么才是团队需要优先做的?才能在未来支撑我们更好的前行. 赵建春 赵建春,腾讯社交网络运营部助理总经理.技术运营通道会长.专家工程师.04年加入腾讯 ...

  10. 云时代的腾讯运维团队转型:ECUG 10周年大会演讲

    编者按:运维职能越来越多被云平台取代,运维如何转型 DevOps,以便继续为业务提供快速.低成本的支撑工具.运营系统?来自腾讯蓝鲸的产品总监党受辉在 ECUG 十周年大会上分享了腾讯运维团队的实际案例 ...

最新文章

  1. 自动布局的 弊端 (后续)
  2. java双重检查锁单例真的线程安全吗?
  3. 从科学简历看研究方法——爱因斯坦探索性的演绎法
  4. iOS 开发 需要的版本管理工具,UI图,bug管理工具等
  5. Linux/windows下nginx的安装及使用
  6. android 微信跨境支付,微信跨境支付.pdf
  7. jquery.ui.datepicker默认日期
  8. MySQL导出数据遇到secure-file-priv问题的解决方法
  9. Magicodes.IE编写多框架版本支持和执行单元测试
  10. 【Core Swagger】.NET Core中使用swagger
  11. EL表达式JSON应用
  12. Java虚拟机的什么周期
  13. Hadoop Hbase单机配置
  14. 关于AI与高性能计算加速融合,这里有英伟达最新的4个应用案例
  15. CSS表格和表单的样式
  16. 北京新文化运动纪念馆展出中国古代建筑经典模型
  17. 个人八股文集合一、C/C++语言
  18. win10家庭版设置护眼色
  19. 听说你要找前端工作,写一个酷炫的动画的简历呀
  20. 协程与kotlin协程挂起

热门文章

  1. 论文解读:Detach and Adapt: Learning Cross-Domain Disentangled Deep Representation
  2. three.js 实现露珠滴落动画
  3. WPF模板(一)详细介绍
  4. VulkanAPI架构
  5. 《解构产品经理互联网产品策划入门》PDF+《互联网产品运营产品经理的10堂精英课》PDF分析...
  6. 在奋斗的日子里,傻笑出来
  7. ChemDraw教程之怎么连接ChemDraw结构
  8. ERROR: operator does not exist: integer = character varying
  9. 【论文翻译笔记】Seamlessly Unifying Attributes and Items: Conversational Recommendation for Cold-Start User
  10. html测试智商,iq测试题及答案 - 测智网 国内经典智商测试题