前言:

数据中心机房的安全是网络正常运行的前提,它已经成为了人们生活的一部分,数据中心机房一旦发生故障将给企业以及人们带来极大的损失和不便,轻者造成机房设备受损,降低使用寿命;重者造成设备损坏和信息丢失,带来严重甚至无法挽回的经济损失,数据中心安全“事故”频频发生,到底是天灾,还是人祸!下面对数据中心机房进行事故分析,解析引起数据中心事故的原因。

先是一铲子引发支付宝瘫痪,携程无法服务,接着IDC被雷劈中,准确的说是云服务提供商青云qingcloud的IDC机房被雷劈中了……这一系列的故障,既有天灾又有人祸,非常值得我们警醒地看待数据中心安全及灾备能力。故障突然发生的一刻,运维人员是否真的能在最短时间内有效地完成故障处理,系统是否真的能如预案中快速恢复,这些都是对数据中心故障处理能力的实际考量。

数据中心宕机原因分析:

网上有各种说法,有说是数据库数据和备份数据被物理删除的,也有说是各个节点的业务代码被删除 现在重新在部署,也有说是误操作,导致业务不可用,还有说是黑客攻击甚至是内部员工恶意破坏的。

(1)黑客攻击和内部员工破坏的说法,这个说法能满足一些围观者猎奇的心理,因此也传播的比较快。但理性分析,可能性也不大。黑客讲究的是潜伏和隐蔽,做这种事等于是在做自杀性攻击。而内部员工也不太可能,我还是相信携程的运维人员的操守和职业素养,在刑法的威慑下,除非像“法航飞行员撞山”那种极个别案列,正常情况下不太可能出现人为恶意的可能性。

(2)最早传出来的“数据库物理删除”,其实这个提法就很不专业,应该是第一个传播者,试图强调问题之严重和恢复之困难,所以用了一个普通电脑用户比较熟悉的“物理删除”的概念。实际上,任何一个网站的数据库,都分为本地高可用备份、异地热备、磁带冷备三道防线,相应的数据库管理员、操作系统管理员、存储管理员三者的权限是分离的,磁带备份的数据甚至是保存在银行的地下金库中的。从理论上而言,很难有一个人能把所有的备份数据都删除,更不用说这个绘声绘色的物理删除了。

(3)从现象上看,确实是携程的应用程序和数据库都被删除。我分析,最大的可能还是运维人员在正常的批量操作时出现了误操作。我猜测的版本是:携程网被“乌云”曝光了一个安全漏洞,漏洞涉及到了大部分应用服务器和数据库服务器;运维人员在使用pssh这样的批量操作执行修复漏洞的脚本时,无意中写错了删除命令的对象,发生了无差别的全局删除,所有的应用服务器和数据库服务器都受到了影响,这个段子在运维圈子中作为笑话流传了很多年,没想到居然真的有这样一天。

导致数据中心机房事故发生的到底是天灾还是人祸:

1、“天灾”

对机房而言,最大的天灾莫过于:火灾、地震、雷击等天然灾害——导致数据中心事故,比如雷击,会产生强大的冲击电流,打到设备上,就会引起设备器件短路,产生瞬间的高压,使电路急剧生温,轻微的可引起设备短路故障,严重的还能引起火灾,对于这些自然灾害,数据中心也有很多的技术手段可以最大程度上避免灾害的发生,针对每一种自然灾害数据中心都需要加以重视,才能躲避开这些自然灾害。

比如增加机柜和机房地面的固定螺丝,安装避雷针,增加放火报警系统和防火器材,当出现这些自然灾害时,减少对数据中心的冲击。

2、“人祸”

人为故障导致的数据中心故障占数据中心的故障中的70%,其中也可以分为有意的和无意的。有意的是指明知道一些操作会造成数据中心故障,仍执意去做的,这些人往往希望通过造成数据中心运行瘫痪,而达到不可告人的目的。

常见的有黑客、情报人员、商业机密小偷等等,他们攻击的对象往往是数据中心里的数据,通过造成数据中心故障来达到窃取或损坏数据的目的。无意的是指本意并不想破坏数据中心,但是由于自己的技术积累经验不够或者疏忽,自己的操作引发了数据中心故障,这种故障占到了人为故障的80%以上。

数据中心是一个复杂庞大的系统,不可能一个人面面俱到都精通,当接触到自己不熟悉或不了解的地方,操作往往引发意想不到的结果,因此加强对人的管理尤为重要。在对数据中心做任何调整时,都要从全局考虑,集中最优秀的技术人员,将人为操作风险降低。这类事故往往也很容易留下证据记录,给事故分析带来方便,几乎所有的数据中心都有门禁系统、视频监控系统,任何人的出入都有记录,很容易查到。

有不少的数据中心提供远程的访问,那么所有的访问操作在数据中心后台数据中心都有记录,访问者对数据中心业务调整、修改配置、甚至重起设备等任何操作都会记录在案,只要数据中心不是全面的毁灭,这些记录都会在后台的数据库中查到,通过记录的时间和访问的人就可以查明人为事故的原因,数据中心也有各种各样的监控手段和历史信息记录,这些技术为数据中心的稳定运行提供了保障,也是不断推动数据中心完善的重要举措。

如同飞机上的黑匣子,数据中心也有自己的一套故障定位信息获取方案,这些信息可以在一定程度上有效还原故障时数据中心的完貌,通过对这些数据分析,不仅可以找到故障原因,还可以根据这些故障对数据中心进行优化,避免发生二次故障。

3、设备故障

除了以上的天灾人为导致数据中心故障,大型的数据中心拥有数千台设备很普遍,这些电子设备难免运行中出现故障,一旦出现故障,就需要对设备进行分析,很多现场操作人员并不具备分析问题的能力,为了恢复业务,只能重起设备,或者将业务切割到别的备份设备上。当故障设备上没有业务或者已经重起了,其上很多时时记录都会冲掉,这样给故障分析带来难度。

很多时候故障的表现也并非集中在某一台设备上,心急的操作人员可能将所有设备全部重启或将业务全部割离,如果设备能提供详细的历史记录,那么对于故障分析非常有帮助。数据中心不怕出故障,怕的是出了故障后找不到原因,这相当于给数据中心埋了一个定时炸弹。其实在很多高端设备上已经增加了一些可以记录历史信息的模块,比如采用NVRAM、EEPROM等非忆失性器件时时记录设备运行的各种参数,当设备发生故障后,哪怕是设备发生了断电,这些器件依然可以正常运行,记录下来设备运行的各种参数,这些数据往往是故障后分析参考的最重要数据来源。

当数据中心出现故障后,有的设备可以提供故障时设备运行的各种数据参数,非常具有说服力,有时也是证明自己设备没有问题的重要信息,而一旦在故障后,一些设备没有可分析的数据记录,根本分不清是不是自己的问题,这样的设备很快就会被数据中心所弃用。如果通过数据分析是自己设备的问题,那么设备商依然可以根据这些数据去优化设备设计,从而避免这类故障的再次发生,让设备运行更加稳定。

避免数据中心大型事故发生的对策:

应对数据中心大型事故,运维人员在其中发挥着至关重要的作用,从初期的数据中心规划设计,机房建成的验收测试、机房运营过程中对于机房的定期检测,对于突发状况的预案等等,无一不考验数据中心运维人员对于数据中心大型事故的应对及避免出现重型事故。

数据中心安全我们疏忽了什么?

由上不难看出数据中心安全事故对于企业及用户影响之深,正所谓“三分技术,七分管理”,大量的事实表明,数据中心的好与差评判标准都是由管理水平的高低所决定的。不管是天灾还是人祸,数据中心安全值得重视,从初期规划设计、到后期运维管理都应遵照一定的标准,以确保数据中心安全运行,数据中心安全容不得丝毫马虎!

加入VIP群


《数据中心运维管理》VIP技术交流群会员招募说明

加入学习群扫描以下二维码或者添加微信:wang2017bj

是什么引起数据中心机房事故频发,是天灾还是人祸?相关推荐

  1. 直流UPS供电系统在数据中心机房中的应用分析

    随着目前国内数据中心机房的迅速发展,用户对机房的供电要求越来越高,而现在运行的数据中心机房面临两大难题:一是作为机房供电的关键设备的交流UPS故障频发,增加了大量的维护工作,降低了数据中心供电的可靠性 ...

  2. 数据中心机房安全知识培训

    在实际工作中,因不当操作或缺乏相关的安全知识,会造成的各种安全事故.那么应该如何避免事故的发生,从而做好安全工作呢? 今天我们的[安全知识培训一]主要是分享机房工作中常见的工作事故起因,以及如何做好相 ...

  3. 数据中心机房消防演练方案

    一.演练宗旨 为了保障机房的安全运行,同时为进一步增强运维值班人员消防安全意识,熟练掌握机房消防初期火灾扑救及人员逃生知识,提高整体抵抗火灾能力,防止火灾事故发生,保证在紧急情况下能够快速处置初期火灾 ...

  4. 数据中心停机事故的教训:关注基础设施

    在过去一年中,大多数停机事故都是由已知原因引起的,并且可通过强大的设计和流程进行预防. 根据调研机构Uptime Institute公司在2018年夏季公布的调查结果,近三分之一的数据中心在过去一年中 ...

  5. 数据中心机房空调系统的这些“套路”你知多少?

    前言: 作为集中冷源的冷冻水系统的"数据中心空调系统",制冷效率更高,设备更集中更少,运行更稳定,故障率和维护成本更低,国外众多大型数据中心普遍使用冷冻水空调系统,然而数据中心机房 ...

  6. 服务器搬迁方案_数据中心机房改造搬迁IDC机房工程建设

    数据中心机房改造搬迁IDC机房工程建设 数据中心IDC机房改造/搬迁公司.机房方案咨询.机房搬迁服务.流程迁移实施前期准备是整个迁移工作的极其重要的部分.1.迁移实施前期准备迁移设备确认2.硬件设备的 ...

  7. 泰山200机架服务器包含哪些型号_数据中心机房建设中的关键问题都有哪些?

    大家都知道一个全面的数据中心机房建设工程一般包括:综合布线.抗静电地板铺设.棚顶墙体装修.隔断装修.UPS.专用恒温恒湿空调.机房环境监控系统.新风系统.漏水检测.地线系统.防雷系统.门禁.监控.消防 ...

  8. 数据中心机房建设中的关键问题都有哪些?

    大家都知道一个全面的数据中心机房建设工程一般包括:综合布线.抗静电地板铺设.棚顶墙体装修.隔断装修.UPS.专用恒温恒湿空调.机房环境监控系统.新风系统.漏水检测.地线系统.防雷系统.门禁.监控.消防 ...

  9. 国标 计算机房 湿度,数据中心机房:温度、湿度标准是什么?

    原标题:数据中心机房:温度.湿度标准是什么? 随着信息技术的不断发展,计算机机房成了各大企业不可缺少的重要组成部分,计算机设备尤其是交换机等设备对机房的温度.湿度有着较高的要求.一旦机房环境设备出现故 ...

最新文章

  1. 把握春招,收下这份GitHub万星的ML算法面试大全!
  2. 成都机场迎春运客流高峰 日均起降航班超1000架次
  3. mysql 服务启动异常
  4. 未来我们对微服务和 Serverless 架构有什么期望
  5. 记录一次K8s-Flannel插件的坑
  6. Spring框架功能整体介绍
  7. SMO写的查看数据库信息的代码
  8. 运输层课后第33题解析
  9. Stm32:半主机模式
  10. linux下面配置安装nodejs+npm
  11. java多线程的常见例子
  12. linux内核程序运行在哪里,linux内核 – 设备驱动程序代码在哪里执行?内核空间还是用户空间?...
  13. 《STM32》F103C8T6最小系统
  14. 减速电机计算公式中功率(P),扭力(NM),转速(RPM),减速比(RATIO)四大因素互相转化的重要性
  15. 语义分割—遥感影像数据标签制作(ARCGIS)
  16. 我的Verilog HDL学习历程(二) 组合逻辑电路的一个实例:基于EGO1板子
  17. 【黑马程序员pink老师前端】HTML
  18. c语言 程序设计 题库答案 p,《C语言程序设计》复习题库答案.doc
  19. 微软4000亿收购动视暴雪,背后逻辑是什么?
  20. java 视频转码 视频压缩

热门文章

  1. 在一台服务器绑定多个IP
  2. 从一段代码的汇编看计算机的工作原理
  3. 图像处理与分析 计算机视觉 医学图像
  4. 144显示器只有60_HKC IG27电竞显示器体验:27英寸+IPS+144Hz,千元平民价值不值?...
  5. 明日方舟抽卡模拟器wiki_明日方舟兑换码地址官服介绍 官服兑换码地址
  6. 如何自动搞定全站图片的alt属性?
  7. 区块链面试过程中的40个问题
  8. linux下前一天时间格式
  9. 初窥Go module
  10. 10 种保护 Spring Boot 应用的绝佳方法