简要叙述:企业的通讯机房,因多种制约因素(资金、企业认知、规划者意识、运维的技术或规范等)致使机房的合理性、可靠性、扩展性等出现良莠不齐,危机四伏等局面。

事件起因:单位办公楼因线路短路偶然非正常停电1个小时,致使机房非精密型空调停止运作,其余设备均接入UPS电源。

事件经过

1、早晨7点左右停电,我8点左右进入办公楼得知停电原因、停电时间点、恢复时间点,断电持续1小时;

2、立即进入机房,温度计显示温度44度,抓狂;其中4台服务器因温度报警,崩溃边缘;

3、非精密型空调停止工作。

事件处理

1、处理思路和顺序:降温,恢复受影响设备,全面核查设备和业务连续性,分析事故起因,规划应对措施。

2、首先,开启空调和门窗,快速降温;

3、受温度影响设备恢复正常状态;

4、核查设备运行日志,无硬件型报错;

5、核实业务连续性,其中数据,业务系统运行日志,均正常;

6、分析原因-企业双回路电源接入,稳定;空调功率大,直接接入公司市电线路;无联动报警设备;事件告知渠道不流畅。

7、应对措施

7.1、企业双回路电源接入,稳定-改动可能性非常小,直接放弃;

7.2、空调功率大,直接接入公司市电线路-资金受限,维持原状;

7.3、无联动报警设备-因资金预算和技术原因无法实现,无奈放弃;

7.4、事件告知渠道不流畅-非正式邮件或书面要求相关部门遇到此类事件需第一时间告知;

7.5、协商建立公司保卫人员非工作时间内巡检记录和报告体系。

回顾思考

从这件事,让我思考了许多,别扔鸡蛋说为啥机房没值班人员?为啥没有报警联动装置?为啥没人告诉?为啥应对规划如此糟糕?等等问题。

企业机房有正式值班人员的多吗?-据我所了解,不多,为啥原因很多-最直接的就是未达到企业的战略高度。

为啥没联动报警装置和自动恢复等?-资金,企业的认知程度决定了,不是靠努力就能解决,好的时候没人想起你,出问题的时候你没做好。

为啥没人告诉?-企业的组织架构、理念和员工意识会对此结果产生很大影响。当然,第一责任人是我,我的风险识别未做好,更谈不上应对措施了,同时跨部门的协作工作未通畅,致使事件发生无人第一时间告知(其实以前每次都告诉了,就这次没告诉)。

为啥应对规划如此糟糕?-坦然承认,机房运维的风险识别、应对措施和沟通管理计划做的很不好,未全面校验其可靠程度。


想说几句:

初建机房或运维时,一是建立运维体制,以便审查日志发现问题;二是运维人员要定期识别风险,并评估其发生的概率和影响,并规划相应的应对措施,同时将不可控或一旦发生影响很大的风险书面或邮件告知相关领导且最好使他知道风险的结果(说直白点,就是责任转移),要不然知情不报,责任自己全抗,崩溃掉吧!

IT部门要善于思考和沟通,努力让业务与组织战略联系在一起,获得更多资源改善环境和获得更好技术支撑。


正确解决问题的思路会使效率事半功倍的。

转载于:https://blog.51cto.com/joyweb/982320

企业机房升温-谁之过?相关推荐

  1. 江苏计算机云服务,云呐|江苏企业机房环境动环监控服务商系统智能监测

    伴随着因特网和计算机技术的发展,特别是云计算和虚拟化技术的大规模应用,IT机器设备如数据中心和网络机房中的服务器.交换机等也在不断变化.为满足上述需求的变化,实现高效实用和节能减排,对机房配电系统进行 ...

  2. 企业机房冷通道监控解决方案

    企业数据中心机房普遍面临设备发热密度高,电力能耗大.机房及机柜的空间不足等问题.为了满足数据中心机房不断上升的散热需求,解决机房内部局部热岛,冷空气与热空气直接混合,冷量的浪费大等问题.合理地使用冷通 ...

  3. 打造高效机房就这么简单(一)

    干IT这行的一般讨厌机房的嘈杂.无比劲冷的空调:有的公司机房是重地,进去调试还得领导批准.试想想,服务器突然出现问题,全公司业务面临瘫痪,怎么办?随时随地对服务器的管理总是这样被华丽的提及.<? ...

  4. 涉密机房建设方案如何规划?

    前言 大家好,我是薛哥.机房工程的建设是指以合理的功能分区为前提,集建筑.电气.暖通空调.安防.网络等多个专业技术于一体,为计算机网络及系统的稳定高效运行提供支撑的环境建设.因此机房工程的建设必须确保 ...

  5. 数据中心(机房)监控方案

    一.什么是机房监控系统 机房监控系统是主要是针对机房所有的设备及环境进行集中监控和管理而研制的,其监控对象主要是机房动力和环境等设备(如:配电.UPS.空调.温湿度.漏水.门禁.安防.消防.防雷等). ...

  6. 浅谈机房常遇问题及解决方案

    一.机房着火 机房内由于机柜密度多过大,空调制冷功率不够,都能导致机房升温,为了更好的解决这个问题,我们需要考虑机柜合理摆放,配置合理的精密空调. 每一个机房的配电都至关重要,处理不好也会成为星星之火 ...

  7. 中小机房UPS电源及环境多方式在线监控和告警方案

    中小机房UPS电源及环境多方式在线监控和告警方案 https://www.toutiao.com/i6948961284448731684/?tt_from=weixin&utm_campai ...

  8. 跨区域机房集中监控数据云平台运维管理方案

    一.方案背景: 在银行.教育.通讯.医疗.能源等行业中,广泛分布着各种大.中.小型数据中心及业务的机房.而这些重要的机房一般由计算机.服务器.网络设备.储存等关键设备组成,还包括供电系统.环境系统.机 ...

  9. 制造企业使用云平台可以做什么

    作者简介 Gavin,程序员.软件架构师.企业架构师,关注智能制造. 云平台如今已经不是陌生的概念,在互联网企业中,基于云平台已经发展出一套全新的技术研发体系,颠覆了原有的开发框架.运维框架甚至是企业 ...

  10. 微软推超融合基础架构解决方案 企业可在本地端做虚拟化应用

    微软在其混合云平台Azure Stack上,推出超融合基础架构解决方案Azure Stack HCI(Hyperconverged Infrastructure),企业现在可以在本地端(On-prem ...

最新文章

  1. 第四范式程晓澄:机器学习如何优化推荐系统
  2. window apktool 的下载
  3. html中js方法中如何传递本元素对象,JS HTML DOM (文档对象模型)
  4. maven多模块项目部署到服务器,GitHub - baxias/foweb: 一个基于 Spring+SpringMVC+Mybatis 的Maven多模块项目。(实现前后端分离的服务器端)...
  5. 网站中被误解的用户体验设计
  6. 面向对象练习——校园管理系统
  7. 如何将无线鼠标连接到Mac电脑?
  8. 数独游戏,随机生成只有唯一解的数独表
  9. 一些代码美化的实用网站
  10. linux tab键失灵了,Linux grep \t Tab 键失效
  11. 如何区分字母大写I小写字母l以及数字1
  12. 路由器和交换机的工作原理
  13. 前端传参日期只有年月日,后台给日期设置23时59分59秒和0时0分0秒
  14. ECDSA私钥der格式
  15. Docker 安装MySql后创库、创表
  16. 高德足迹地图在哪里,高德地图怎么点亮城市?高德地图足迹地图查看方法
  17. 论文笔记22:QRNN3D: 3D Quasi-Recurrent Neural Network for Hyperspectral Image Denoising
  18. 支付宝被罚18万元;金立副总裁回应60亿广告费;苹果再遭专利诉讼丨价值早报
  19. ChatGPT版必应发飙!怒斥人类:放尊重些
  20. 黑马程序员 银行业务调度系统

热门文章

  1. php mysql完整_BBS(php mysql)完整版(七)
  2. CFS Scheduler(CFS调度器)
  3. do_fork实现--上
  4. (转)思科VPP源码分析(feature机制分析)
  5. Systrace分析app启动分析
  6. OpenCV---模板匹配
  7. hadoop SequenceFile详解
  8. pyecharts折线图坐标轴范围设置_多层折线图,一对一展现数据趋势,图表就应如此美丽...
  9. linux试密码3次则屏蔽ip,怎么才能让别人ssh时候输入三次错误密码之后自动屏蔽?...
  10. 江小白包装设计原型_江小白的跨界营销,系列设计很“牛啤”!