根据典记,魏文王曾求教于名医扁鹊:“你们家兄弟三人,都精于医术,谁医术最好呢?”扁鹊:“大哥最好,二哥差些,我是三人中最差的一个。”文王又问:“那为什么就你最出名呢?”扁鹊回答:“长兄治病于病情发作之前,由于一般人不知道他事先能铲除病因,所以他的名气无法传出去;仲兄治病于病情初起之时,一般人以为他只能治轻微的小病,所以他的名气只遍及乡里;而我是治病于病情危急之时,一般人都看到我在经脉上穿针放血等大手术,以为我的医术更高明,因此名气响遍全国。”

这段关于医术与治病救人的话题,蕴含着值得深思的数据中心智能运维之道。

数据中心智能化新使命:新应用正带来新挑战

伴随着5G、云计算、大数据、物联网、智慧城市的飞速发展,作为基础设施承载业务的数据中心规模随之越来越大,机柜、服务器数量也进一步增多,数据中心动环系统、运营监控等系统也变得越发的复杂。如此多的信息系统,必定会增加日常运维的难度。因此在数据中心内实现智能化、简单化的运维管理,是数据中心未来更加迫切的需求。

在华为以“智能DC,预建未来”为主题的第五届智能数据中心基础设施技术峰会上,华为数据中心能源总裁何波从数据中心管理的维度,结合华为多年来数据中心运维的管理经验,为我们分享了数据中心的智能化运维实践。传统的数据中心在风险识别上,往往依赖于人力、经验,效率低。华为DCIM+融合了IoT、云平台、AI等算法,就像天气预报提前预报可能到来的暴风雨一样,可以提前获知潜在风险,并且把传统的被动式故障处理为主动式的风险预防。可以在数据中心故障告警数据上,智能筛查需要关键处理的告警信息,比起人工筛查减少80%时间,极大的节约的运维工程师的故障筛查时间。同时,将故障部件主动隔离,过保部件提前提醒采购,从而减少50%的告警,减少100%的重大事故风险。华为DCIM+,在智能化识别风险、提升数据中心运维效率方面,起到事半功倍的作用。

华为数据中心能源总裁 何波

DCIM+,开启数据中心运维的智能时代

如果把扁鹊对兄弟三人医术的评价,看成数据中心运维的事前预防、事中防微杜渐和事后控制和解决。那么智能化运维既需要扁鹊,更需要扁鹊的长兄与中兄,需要灵活运用三兄弟的能力来切实保证数据中心的智能化运维。

DCIM作为数据中心基础设施管理工具近年来逐渐被认知并接纳,对数据中心生命周期的管理、运维、节能会产生一定作用,但如果要实现智能化运维,传统的DCIM则无法实现。

华为数据中心智能管理系统(DCIM+)为数据中心基础设施提供高可靠运维与精细化运营方案,融合了3D、AI等先进技术,提供可视化管理、AI能效管理、数字化运维和智能化运营等,提升数据中心的管理效率,实现数据中心价值最大化。首先,确保数据中心流程遵从可靠性;其次,加强过程管理,辅助经营分析提升数据中心收益,极致优化能效而节约运营成本。最后,面对出现的问题,彻底解决问题。把握好事前、事中、事后三个节奏点,在不同的阶段运用好不同的控制手段,把数据中心的风险控制在预定范围内,确保数据中心安全运行。DCIM+,支持与安防、消防、BA、动环、电力、AI等多种系统的生态集成。统一信息,统一管理,有效避免了传统的管理割据。

首先,智能巡检运维提升效率与可靠性

传统的巡检任务需要运维人员每天到数据中心去做定期巡检,日复一日、重复枯燥的数百次或上千次抄表工作,并且要随时保持警觉性,从中发现隐患。数据中心运维工作中,人是最关键的因素,摆在我们面前的问题是运维人员如何在重复枯燥的抄表工作解脱出来。

华为希望通过DCIM+云计算、大数据、人工智能的方式,通过智能化的手段逐步减少人工巡检等例行重复工作,在运营层面超越人,提高数据中心运维效率,成为数据中心运营、投资决策的重要支撑系统。

华为DCIM+,通过打造设备和管理系统一体化的智能解决方案,实现从基础管理到智能运维的飞跃。在通过DCIM+的综合服务平台进行巡检时,对检查过程中发现的隐患,可通过平台的故障处理工具进行修复;如需要现场处理的,通过服务平台触发问题升级,并发送短信或者邮件给现场维护人员处理。在接收到平台触发的告警信息,或者收到平台触发的问题升级信息后,相应维护人员可远程登录处理告警,诊断系统发生的错误等。以便在系统发生故障后,尽快恢复错误,减少损失。

其次,基于AI的iCooling能效优化技术,助力数据中心精益运营,为消除无用能耗提供可能

除IT设备外,制冷系统的电力消耗是数据中心运营成本的重要组成,管理粗放和为保证系统可靠性而导致的制冷需求被层层放大,造成了难以估量的能源浪费。华为DCIM+,采用了通过AI大平台训练出的精确预测PUE的“神器”——基于人工智能算法的iCooling@AI能效优化技术,为消除无用能耗提供了可能。针对数据中心制冷效率提升瓶颈,系统精确监控各关键节点的能效水平,通过机器深度学习,对历史同期和同地区同类设备能效的比较,识别能效异常设备,帮助运维人员判断异常原因并提供优化建议,确保数据中心整体系统运行在能效最优状态,降低用户运营成本。在保证制冷可靠性的前提下最大限度降低制冷需求,iCooling@AI能效优化技术提升8%。

在华为廊坊数据中心,采用iCooling能效优化技术后,全年PUE由1.42降为1.30以下,每年可节省电费近千万元,实现了从“制冷”向“智冷”的转变,切实提升了效益,为未来降低数据中心能耗奠定了新方向。未来也会在更多的数据中心和场景去复制,比如说间接蒸发冷却叠加iCooling,面对中小的边缘DC,不一定是大型的冷冻水系统,可能是风冷直风系统,也可以用AI的方式智冷,在这一块必定大有可为。

搭载了iCooling@AI能效优化技术的华为DCIM+,不仅因为意味着更为智能的运维、更精细化的运营,更意味着AI技术的应用、云化的管理,释放传统DCIM更多的潜力。

最后,智能化识别风险类型,及时妥善处置关键风险

数据中心管理人员除了通过智能化巡检提高运维效率、使用有限的电力和制冷系统将计算资源在有限的空间发挥到极致之外,还要不断地与面临的风险进行斗争。这意味着需要识别和管理各种来源的风险。

传统的数据中心在风险识别上,往往依赖于人力、经验,效率低。华为DCIM+融合了IoT、云平台、AI等算法,就像天气预报提前预报可能到来的暴风雨一样,可以提前获知潜在风险,并且把传统的被动式故障处理为主动式的风险预防。可以在数据中心故障告警数据上,智能筛查需要关键处理的告警信息,比起人工筛查减少80%时间,极大的节约的运维工程师的故障筛查时间。同时,将故障部件主动隔离,过保部件提前提醒采购,从而减少50%的告警,减少100%的重大事故风险。华为DCIM+,在智能化识别风险、提升数据中心运维效率方面,起到事半功倍的作用。

面向看得见的未来:继续披荆斩棘,勇往直前

数字化、网络化、智能化让数据中心市场的进化和迭代"迫在眉睫",而华为网络能源通过技术创新,做到了真正为数据中心市场未来的持续发展贡献更高的价值。

数据显示,近几年华为的数据中心能源业绩稳健增长,取得了华为模块化UPS连续4年取得中国市场份额第一、微模块连续4年中国市场份额第一的成绩。

华为数据中心能源领域总裁何波表示:“华为网络能源能够不断突破、不断成长的关键既有外部产业环境带来的机会,也与华为的定位和创新是分不开的。华为每年将销售收入的10%-15%投入研发,持续创新。但是华为的创新不是盲目的,网络能源3000多名研发人员,围绕客户价值创新,帮助客户解决问题。”

回首过往,华为一路披荆斩棘!展望未来,华为将在智能化的道路上迈出更加坚实的步伐,继续奋勇向前,借鉴扁鹊兄弟在患者的不同阶段,及时处理、防微杜渐,尽力把故障消灭在萌芽阶段,确保数据中心以最快的故障处理速度,最少的故障率,最低的营维成本,最先进的营维技术与生态伙伴、客户、院校、研究机构和其它社会力量一起,共同助力智能化营维的发展,迎接未来数字化的时代洪流。

从扁鹊医术看华为数据中心智能化运维之道相关推荐

  1. 数据中心智能化运维之路

    在新技术层出不穷的今天,数据中心运维工作总是得不到足够的重视.数据中心在不出任何问题的情况下,对运维的工作是持默认态度的,但如果出了一系列问题,付出的工作可能毁于一旦,工作的绩效有点要拼人品的味道.其 ...

  2. 优云Monitor:开启数据中心主机运维的上帝视角

    常常有这么一句话在激励每一位运维人员,"不以故障多为耻,而以恢复快为荣."运维人员就是要快速定位问题,分析问题,排除故障,快速恢复来保障生产业务不受中断.然而,现代大型数据中心,运 ...

  3. 如何做好大型数据中心的运维

    什么叫数据中心?维基百科给出的定义是"数据中心是一整套复杂的设施.它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含 冗余的数据通信连接.环境控制设备.监控设备以及各种 ...

  4. 什么是数据中心的运维

    一个数据中心的良好运转离不开苦逼的运维人.一个数据中心运维基本涉及到了IT相关的所有专业,从机房的设计.暖通.动力.服务器.存储.网络.综合布线.系统.应用.开发.数据分析.数据挖掘,基本你能想到的相 ...

  5. 数据中心基础设施运维——设备维护

    数据中心运维服务主要负责基础设施维护,包括高低压变配电系统.发电机组.不间断直流电源系统.不间断交流电源系统.机房空调系统及电力电缆.机房环境集中监控系统.防雷及接地系统.弱电系统.消防系统等. 通过 ...

  6. 微信分享 | 大规模数据中心自动化运维实践

    大规模数据中心的运维实践 大家好,我是青云QingCloud 运维工程师朱峻华,在海关某单位任职数年,后又混迹多家外企,曾在IBM/EMC出现. 刚才粗略看了一下群成员,有我好几个曾经的同事,还有不少 ...

  7. 大规模数据中心自动化运维实践

    大规模数据中心的运维实践 大家好,我是青云QingCloud 运维工程师朱峻华,在海关某单位任职数年,后又混迹多家外企,曾在IBM/EMC出现. 刚才粗略看了一下群成员,有我好几个曾经的同事,还有不少 ...

  8. 数据中心基础设施运维是什么?

    互联网数据中心,就是在一个恒温恒湿,有空调的空间,里面有承载互联网数据的地方,有智能柜.专门的技术人员维护.数据中心可概括为五大系统: 装修系统.电气系统.通风空调系统.弱电系统.消防系统. 1.电气 ...

  9. 数据中心基础运维人员的职业规划

    毕业到如今,已经做了12年的运维工作,从一线运维到运维管理,之间不止一次有转行的想法.如今数据中心越来越多,名称也越来越高大上,从业人员也是日益增多.今天就来谈谈自己对数据中心基础运维人员职业规划的一 ...

最新文章

  1. php 图片处理类,分享php多功能图片处理类
  2. 小学计算机课计划,小学信息技术教学工作计划
  3. 64位Fedora运行32位C++程序所需的类库
  4. jquery 插件和后台模板搜集
  5. Flutter 下拉刷新花式玩法
  6. C语言强数Strong number算法(附完整源码)
  7. mysql从5.5直接升级到5.7后,执行mysql_upgrade速度很慢且执行结束后数据目录大小增加一倍及 mysqlpump备份出现1577错误...
  8. 通过Content Editor来增加页面的控制
  9. K linux 部署手机 centos6.5
  10. 程序执行的过程分析--【sky原创】
  11. 全新按摩控制板助力按摩产品发展
  12. vue组件eleme 时间选择器问题
  13. java fx 内置图标_DOC-05-01 使用内置的布局面板
  14. [ArcGIS].txt或.xlxs(Excel)格式如何转为.shp格式?
  15. 全球重力异常值和磁场异常值提取
  16. python代码实现卷积示意图快速制作
  17. 算法设计:2.向下取整、向上取整符号
  18. 益寿延年,这13种食物真是宝,能延寿10年,赶紧收藏!
  19. 35位嘉宾的“2022年元宇宙趋势研判”!丨2022元宇宙云峰会金句集锦
  20. 又上火了,每到冬天就上火,那是一个火啊……

热门文章

  1. OpenGL之NURBS曲面构建
  2. onvif规范的实现:成功实现ONVIF协议RTSP-Video-Stream与OnvifDeviceManager的视频对接
  3. linux下 open() write() read() close函数
  4. VC++ 连接SQL Server数据库(远程+本地)
  5. 用lemon测交互题
  6. JavsScript中DOM的基本操作
  7. windows下网络丢包模拟软件(Network Emulator for Windows Toolkit)
  8. 我会手动创建线程,为什么让我使用线程池?
  9. Spring 极速集成注解 Redis 实践
  10. 收藏 | 阿里云Redis开发规范