华纳云想告诉大家的是数据中心供电系统的可靠性是至关重要的。可想而知,无论IT设备多么精密、系统的功能多么优越、可靠性多么高,一旦停电,再好的系统也无法运转。所以对运行中设备维护保养的重要性不可忽视,可见维保人员肩上的担子是很重的。
数据中心供电系统的可靠性是至关重要的。可想而知,无论IT设备多么精密、系统的功能多么优越、可靠性多么高,一旦停电,再好的系统也无法运转。所以对运行中设备维护保养的重要性不可忽视,可见维保人员肩上的担子是很重的。
运维的任务和无法解决的问题
为了保障供电系统的可靠运行,有很多地方都制定了很多很好的措施。但即使如此也有很多漏洞。设备出厂后的可靠性就已确定,比如有的先天不足,像有的电源输出隔离变压器绕组用铝漆包线代替了电缆铜漆包线,在满载运行时十有八九是要出事的……不过由于设备本身的质量问题而导致的故障统计表明不足30%,70%的故障来自后天。也就是人为故障,其表现如下:

选型不当导致的故障

(1)基本概念不清,易受厂家误导。比如某高速公路招标UPS,在标书中要求UPS要具有输入断一相或两相后电池不放电,还能继续供电的能力。因为有的厂家标榜他的UPS在输入断一相后电池不放电,UPS还有50%的供电能力;输入断两相后电池仍不放电,UPS还有25%的供电能力,延长了电池的使用寿命。用户就认为这个性能好,稍动脑筋不难发现其弊病:若想享受其优点必须购买4倍于负载容量的UPS,否则断一相后就带不动当前的负载了。话又说回来,如果UPS断的是输入开关后面的两条线怎么办?还修不修?何时修?是否完全断电后才能修?等等这一系列问题如何解决。如果用户真的按负载实际容量购买了这样的UPS,这就是莫大的隐患,这是靠运维解决不了的问题。
(2)不便说明的原因。比如有的用户从上个世纪就开始使用某品牌的机器,当时由于客观原因尽管输入功率因数低、效率低、体积大、耗电多和价格贵而无法也不便解决。现在比原来机型优越的多的新机型早已问世,比如新型的高频机结构UPS每一百千瓦每年要比原来工频机机结构的UPS节约5万度电,而这个几兆瓦容量的机房每年就可节约几百万度电。但由于某种原因,硬是放着节能设备不选而仍将那种耗能的机器写入标书,这样做还怕不保险,还把那种机器的结构特点写入标书。这不但增加了空调设备的投资和占地面积,无疑也为今后的运行埋下了隐患。这又是运维中无法解决的问题。
(3)追求低价格。有的用户认为UPS都一样,所以就追求低价格,结果导致故障。比如某高速公路指挥部贪图便宜,第一天装机,第二天就起火;某人寿保险公司低价格购进的机器,不到半年因UPS故障而烧毁几乎所有IT设备的输入电路,导致系统瘫痪;又如某多台UPS并联的兆瓦级数据中心,装机没有几个月因其中一台UPS中的一个逆变器功率管击穿而导致所有UPS跳闸……

使用环境不当故障导致的故障

不按说明书上对环境的要求放置机器,甚至有的将UPS放在随便穿行的走廊、滴水的地下室。比如几台200kVA的UPS放在了屋顶只有一层预制板的平房,空调只是两台5P的舒适空调机,又如一个玻璃厂竟将UPS放在粉末飞扬的厂房内,等等。导致了频繁故障。

制度不健全导致的故障

比如有的值班人员随便将电炉子、电饭煲和吸尘器接在UPS上,导致过载跳闸;有的值班人员的食物引来老鼠钻入机器而导致起火……

交接故障

这类故障主要是由于管理人员的前后不是一拨人或配合不好造成。比如某火车站售票系统,前面值机人员由于移动机器位置而将UPS的外接电池组断开,事后又未向后来者交代,结果造成了市电和UPS同时停电的故障……

经验故障

经验是不可缺少的,是不可多得的财富。但经验有其相对性,即在某种UPS上得到的经验不一定完全适合另一种UPS,否则就会导致故障。某电信局由于不看说明书而用同样的方法启动另一品牌机器导致逆变器烧毁。

失察故障

一些器件在运行中会出现老化或早期失效,如不及时检查发现就会导致故障。这些在自动监控中是无法发现的。比如因老化而开始弯曲的保险丝,电池结构螺丝的松动,电池长时间放电后使电池壳有微细的裂缝等,如不及时发现或发现后没有及时处理都可造成故障。

仓促上阵导致的故障

搞维修保养来不得半点急躁,要考虑周全后再动手。某公司工程师要对一用户正在运行的UPS进行检修,按照规定要用维修旁路开关将UPS退出后再检修,但按照程序需先启动自动旁路,而后再闭合维修旁路的闸刀。也许该工程是还有其他急事要办,进机房后未经考虑就闭合了维修旁路闸刀,结果造成逆变器功率管爆炸。

维护不当导致的二次故障

对UPS的定期维护是必要的,但应有一套严格的管理程序。那些不负责任、不按规定要求进行定期或不定期保养是导致机器故障的重要原因。另外,在维护保养时也可导致故障,比如用万用表探针测量电路板电位时,探针将两点短路导致故障。一用户作电池放电时,将电池从UPS上摘下,放电后将电池接回时机型解放,导致电流爆炸。又如一工程师在更换离心风机时不小心活动扳手一打滑打在了控制板上,当时没有在意,风机换好后不能开机,检查发现一条器件腿被打断了……

静电导致的故障

某机房按例停机保养,但保养后却无法开机。检查后发现一个组件电压击穿,回忆维保过程发现该控制板用塑料牙刷扫过灰尘。塑料在干燥器件的表面可产生几千伏的摩擦静电电压,由于机器内小信号电路使用了一些MOS器件,这些器件耐压很低而且最怕静电。经测量一个普通塑料袋,用电路板摩擦一下就可产生3000V的静电电压。所以在检查这些电路板时最好手腕上要套一个接地环。

过分自信导致的故障

做事情自信是成功的基础,但过分自信有时就会出错。比如某国际银行在UPS运行了8年后就应该更新设备,厂家也多次提醒。由于该UPS8年来很少出问题,所以用户负责人屡次回答“不用更新”,结果几个月后该UPS因老化故障而停止供电两小时,导致全球业务也中断两小时,损失很大。
根据国际上的统计资料,5年标称的电池服务寿命最多不超过3年。在平时不保养的情况下,一般2年就应该更换。某飞机场候机厅电池原配4h,3年后仍不更换,一次外电网停电,UPS后备时间只剩4h,由于停电造成了损失……
像类似的人为故障现象还有很多,就不一一例举了。
归根到底,电源系统的选型是第一关,这一道关把不住首先就种下了隐患的种子。电源系统的连接是第二关,有了好的设备,如果没有好的连接方案,也会埋下隐患。某电视台由于连接方案被厂家误导。十几套节目的供电UPS故障接连不断,而且大都是有惊无险,一连几年都是这样,使维保人员提心吊胆、伤透了脑筋。连接方案是一个工程,不是维保人员左右的了的。无奈只好在重大活动和节日令厂家工程师前来值班。这又有什么用呢?厂家的工程师到此也只能是给用户心理上以安慰。

数据中心UPS供电系统运维常见的人为故障类型相关推荐

  1. IDC数据中心T5机房运维网络架构师谈论服务器机房运维

    IDC数据中心T5机房运维网络架构师谈论服务器机房运维 行业服务器机房建设运维该如何定夺? 随着互联网浪潮一波又一波的推进,整个市场格局被改写. 这块巨大的面包吸引了越来越多的传统线下行业加入其中. ...

  2. 数据中心实现高效运维的秘诀

    随着2017年中国"量子卫星""量子计算机"等重大科研技术的突破,2018年云计算进入2.0的飞速发展时代,智慧城市信息化建设.应用数据量的井喷,使数据中心基础 ...

  3. 数据中心管理与运维的问题与对策

    公众号回复:干货,领取价值58元/套IT管理体系文档 公众号回复:ITIL教材,领取最新ITIL4中文教材 更多专业文档请访问 www.itilzj.com 01 数据中心管理与运维存在的问题 近几年 ...

  4. 机房运维很枯燥?来看看中国银行数据中心基础设施可视化运维管理

    谁说高大上的机房不能炫!设备环境团队联合运营平台研发.网络.系统三.系统二等团队,历经一年的时间.7轮次需求细化讨论.11次版本更新,精雕细琢.倾尽洪荒之力打造了中国银行数据中心基础设施可视化平台!这 ...

  5. 数据中心如何提高运维效率?数据中心综合能效管理解决方案——安科瑞 严新亚

    1.概述 安科瑞电气紧跟数据中心发展形式,推出AcrelEMS-IDC数据中心综合能效管理解决方案,包含有电力监控.动环监控.消防监控.能耗统计分析.智能照明控制以及新能源监测几个子系统.集成了变配电 ...

  6. 数据中心的敏捷运维之路

    随着数据中心的建设规模越来越大,出现了很多大型,特大型的数据中心.这些数据中心往往拥有数万台的服务器规模,再加上互联的网络设备.防火墙.负载均衡等设备,一个大型数据中心需要管理同时运行的几万台设备,并 ...

  7. 平安数据中心高可用运维白皮书

    资料免费送(点击链接下载) 史上最全,数据中心机房标准及规范汇总(下载) 数据中心运维管理 | 资料汇总(2017.7.2版本) 加入运维管理VIP群(点击链接查看) <数据中心运维管理> ...

  8. 数据中心存储日常运维【13】

    文章目录 管理员指南 管理员角色及权限 常用管理软件 维护项目总览 首次维保项目 每日和每周定期维护项目 例行维护 工具巡检 人工巡检 收集存储系统信息 日常管理 日常管理项目总览 上下电存储设备 管 ...

  9. 大数据时代的智能运维

    #数据中心 #运维管理 #智能运维 #大数据 著名作家狄更斯曾经说过:"这是最好的时代,这是最坏的时代".自04年大数据理念的提出之后,数据中心似乎也如同雨后春笋般掘地而起,也似乎 ...

最新文章

  1. spark为什么比hive速度快?
  2. Python快速定位工作目录
  3. ubuntu使用root权限登录的设置方法
  4. 路由协议和路由算法的不同
  5. getallheaders函数在服务器报500错误_C语言服务器编程必备常识
  6. 景安服务器域名解析不起作用的正确解析方式之一
  7. win10系统崩溃怎么修复_新手怎么重装系统win10
  8. php模板和框架,php模板和框架的区别的区别是什么
  9. 让你页面速度飞起来的前端性能优化方案
  10. 去掉内容中的所有全部html标签。
  11. 项目管理 之四 常用的项目管理工具(Github、Gitlab、Gitea、Gitee、Worktile、Teambition)
  12. duilib设计器 DuiEditor简易教程 (DuiDesigner) (一)
  13. uni-app使用,并引入thor-ui
  14. 计算机win7开超级性能模式,win7系统设置最高性能的操作方法
  15. pdf文件太大?看pdf压缩大小的方法吧
  16. CSAPP:第二章——信息的表示和处理
  17. 数据库面试题——索引(一)
  18. requirejs技术
  19. 分布式与云计算系统 考试内容总结
  20. python笑傲江湖统计字数_python编程题----字符串的处理(统计)

热门文章

  1. seaborn添加数据标签_常见Seaborn图的数据标签快速指南
  2. word的图形尺寸快速调整方法
  3. rtsp rtmp http 直播 点播
  4. cubemx stm32 基于uln2003模块的步进电机驱动代码
  5. 《风火之旅》大家来找“茬”
  6. 【TARS】分布式存储系统DCache
  7. 《Exceptional C++ Style》笔记.txt
  8. ROS仿真--URDF
  9. k8s高可用集群多个主节点_部署高可用k8s集群
  10. 《纽约时报》狗急跳墙,蓝翔技校点击率飙升