大多数人在生活或工作领域中都不希望出现连接中断的情况,尤其是在以数字生活方式为主的今天,所以数据中心基础设施变得越来越重要。对于许多消费者来说,他们希望自己的数字产品和服务能保持正常工作,所以当发生宕机事件时,他们就会开始抱怨甚至投诉。

以最近的航空数据中心宕机事件为例,如美国达美航空、西南航空和英国航空公司,由于一个简单的电气故障或不当的维修程序,导致服务器遭到灾难性损坏,航空公司损失数亿美元,数以万计的乘客被滞留在全球各地的机场。

这些大规模的宕机事件总能成为新闻头条,而且数据中心宕机事件比人们想象的更为常见。根据Uptime Institute调查显示,25%的受访企业在过去一年内都发生了数据中心宕机事件,无论是在自己的数据中心还是在服务提供商的网站上。此外,90%的数据中心和IT专业人士表示,他们的企业管理人员比一年前更加关注数据中心中断事件。

然而,并不是每次宕机事件与航空公司停运事件一样具有破坏性或公开性,但是宕机事件会对企业造成一定的经济损失。根据Uptime Institute的调查表明,只有60%的企业会测量停机成本来作为其业务指标,而在2017年,测量停机成本成为了所有企业都必须采取的措施。考虑到几分钟或几小时的停机可能带来的经济损失,IT专业人员和设施管理人员将会更加注重基础设施的维护。

当然,意识到数据中心的风险与采取措施预测潜在的风险,这是两个截然不同的问题。那么,企业该如何做才能降低数据中心宕机事件的影响呢?

效率的定义

每个数据中心管理人员都希望他们的数据中心能够高效运营。效率是指提供给数据中心IT设备的电源和冷却措施能够满足IT需求且不会产生不必要的成本。从更加商业的角度来看,数据中心必须能够在满足业务需求的同时保持这种平衡。这意味着数据中心的基础设施,计算能力和性能需要经常有效地扩展,以降低停机的风险。

然而,对于现在大多数的数据中心来说,缺少考虑数据中心环境变化带来的影响,如推出的新技术,这些都没被考虑在内。对于IT团队来说,除了知道他们部署将使用的数量,空间,网络和电源之外 ,他们对数据中心环境的影响往往不了解甚至不关心,这是数据中心管理人员的责任,如果IT配置对IT的有效性产生了负面影响,那么管理人员将会立即作出反应。问题在于IT团队和数据中心管理人员这两个团队是独立运作的,许多企业已经部署了DCIM技术,其目的是通过数据中心的业务来缩小数据和处理流程之间的差距。

模拟每种事件的可能性

从机架上安装单个挡板到将设备的功率提高到300kW,如果能够准确预测这中间的所有变化,那么将会影响数据中心的弹性。这不是想象的而是实际存在的,它采取工程仿真的形式,允许数据中心设施管理人员通过创建虚拟原型,对现有设计进行故障排除,以及分析未来数据中心配置的假设场景,并且可以在离线环境中进行实验。

这意味着当业务需求涌入时,数据中心能够以绝对的弹性处理工作负载,或者可以减少这些要求,直到基础设施升级完成。数据中心人员应该积极应对这种变化,这样可以杜绝停机事件发生,或将其减轻到无害水平。

从运营连续性的角度来看,还可以模拟运行其他事件,例如,如果电源故障启动并且由备份电池在供电,那么任何关键系统能够脱机吗?在重新启动电源系统时,工程师如果没有遵循正确的协议,会对数据中心产生不利影响吗?如果是这样的话,怎样才能减轻造成的损失呢?所有这些问题和更多的问题都可以通过仿真来解决,帮助数据中心管理人员创建战略,使关键硬件能够以这样的方式进行定位,以确保其坚持到最后。

如果90%的数据中心和IT专业人士说,他们的企业管理人员比一年前更担心宕机事件发生,那么运营弹性则是IT团队和数据中心设施管理人员最应该考虑的事情,而运营弹性通过上面提到的策略和工具就可以实现。

至于其他10%的管理层,难道他们对数据中心宕机事件不关心?如果他们的团队尽了一切努力去防止宕机事件发生,但结果还是发生了的时候,他们将会很快改变想法,因为他们了解这将会对公司声誉造成多大的影响,并且这也是其业务运营的底线。

本文转自d1net(转载)

如何降低数据中心宕机事件的影响相关推荐

  1. 你知道数据中心宕机的真正成本吗?

    数据中心对企业至关重要,根据调研机构IDC研究表明,之后全球每两年所产生的数据量将会翻一番,这将为企业使用技术增加收入.提高业务绩效提供了更多的机会,而利用这些机会的关键就在于数据中心.但是,随着数据 ...

  2. 2015数据中心宕机20%是由DDoS攻击引起

    由Ponemon Institute进行一个双年度的研究报告显示,和2010年相比,2013年数据中心停机成本已经上涨相比.报告包括来自美国各地的63个数据中心具有代表性的样本数据.研究表明,数据中心 ...

  3. 打错一个字母瘫痪半个互联网!亚马逊 S3 宕机事件缘由

    2月28号,号称「亚马逊AWS最稳定」的云存储服务S3出现"超高错误率"的宕机事件. 接着,半个互联网都跟着瘫痪了. 一个字母造成的血案 AWS在昨天给出了确切的解释:一名程序员在 ...

  4. AWS 再次发生宕机事件,云时代下的我们该如何补救?

    屋漏偏逢连夜雨.据外媒 ZDnet 报道,美国东部时间上午 10:26 左右,AWS 网络再次开始出现严重的问题.根据 Outages 邮件列表(供 ISP 和网络运营商报告和跟踪重大互联网问题的中央 ...

  5. 宕机事件为何频发?云原生时代,需要什么样的运维保障体系?

    美联储支付系统宕机.亚马逊云服务宕机.国内 B 站等互联网服务平台宕机--近年来,全球范围内宕机事件频发,系统稳定性逐渐成为行业关注的焦点. 随着互联网服务深度融入生产生活,软件需要完成多样化的需求, ...

  6. 深入解析和反思携程宕机事件

    携程网宕机事件还在持续,截止28号晚上8点,携程首页还是指向一个静态页面,所有动态网页都访问不了.关于事故根源,网上众说纷纭.作为互联网运维老兵,尝试分析原因,谈谈我的看法. \\ 宕机原因分析 \\ ...

  7. 回顾2019年5个重大宕机事件

    任何时候发生网络服务中断,都会对全球业务造成极大的影响和破坏,而且还会导致收入和声誉的重大损失.尽管应用程序交付依赖于许多网络服务提供商(ISP),但它也越来越依赖于面向网络的服务的大型且复杂的生态系 ...

  8. 从谷歌宕机事件认识互联网工作原理

    摘要:谷歌服务器经历了短暂的宕机事件,持续大概27分钟,对部分地区的互联网用户造成了影响.此次事件的原因深究起来需要进入互联网络那深邃的.黑暗的角落. 译者注:本文中提到CloudFlare是一家总部 ...

  9. 如何降低数据中心机柜的局部高热

    数据中心内设备众多,内部虽然有完善的空调系统,但实际上内部温度分布是不够均衡的.即便现在的数据中心部署了出入通风道,机柜前面是入风道,后面是出风道,这样可以及时将热量带走.不过,由于不同的设备发热功率 ...

最新文章

  1. 宝塔ssl验证域名失败_宝塔SSL配置教程
  2. Promise深度学习---我のPromise/A+实现
  3. 网站后端_Flask-第三方库.利用Flask-Socketio扩展构建实时流应用?
  4. Net性能分析与调试培训资料
  5. 7-4 求链式线性表的倒数第K项(最佳解法)(List容器)
  6. vue的使用(引用/创建vue项目)(一)
  7. weblogic简单介绍
  8. 1701. Ostap and Partners(并查集-关系)
  9. Java-虚拟机-常量池的表现方式
  10. 用单片机测量流体流速的_沟渠流量测量系统宝山哪家质量好广州顺仪品牌
  11. redis中集群的故障恢复
  12. hprose php,hprose和swoole区别
  13. 在EXCEL中玩扫雷
  14. CardView学习和使用
  15. 车载高德地图显示服务器信息,车载高德一直gps定位中,怎么解决高德地图导航gps信号弱...
  16. 苹果怎么换行打字_2周内将你的打字速度提高3倍的方法
  17. solidworks的openGL选项是灰色的处理方法
  18. 【示波器专题】示波器的频响方式
  19. C++11 Features in Visual C++ 11 - VS2010对C++11特性支持的情况
  20. 【AI打板?】【量化交易?】究竟是什么? 一句话看懂量化

热门文章

  1. VS2010静态编译生成.exe可执行文件
  2. 程序员如何快速准备面试中的算法 - 结构之法
  3. android 地图服务开发 INSTALL_FAILED_MISSING_SHARED_LIBRARY 错误解决
  4. IT职场新人第一课:我的吐槽+我学到的
  5. (转)#Pragma用法
  6. 物理实验计算机仿真单摆实验,大学物理实验仿真实验实验报告.doc
  7. Docker 集群 图形化显示 Visualizer
  8. 【鸿蒙 HarmonyOS】UI 组件 ( 进度条 ProgressBar 和 RoundProgressBar 组件 )
  9. 【计算理论】计算理论总结 ( 图灵机设计示例 ) ★★
  10. 【Android 内存优化】Java 引用类型 ( 强引用 | 软引用 | 弱引用 | 虚引用 )