数据中心监控管理系统设计
3.1引言
数据中心经历了四个功能阶段的发展和演进,从早期的“数据存储中心”阶段,经过“数据处理中心”和“数据应用中心”两个阶段,如今已经进入“数据运营服务中心”阶段。现阶段的数据中心已经成为绝大部分企业或组织满足基本业务运营和实现业务战略的不可或缺的一部分。简单的说,无论你是什么行业,传统制造业,还是新兴服务业,你的数据中心已经紧紧地和你的主业捆绑在一起了。数据中心的运行状况、规划发展直接影响着企业或组织的业务开发和业务运营。
依据基础设施在数据中心的逻辑位置(如图1),数据中心的基础设施的运行状态也是反映数据中心运行状况的关键面之一。国内外数据中心建设规范要求数据中心基础设施进行监控;目的是确保数据中心基础设施运行状态满足数据中心所支撑和服务的各种应用系统正常运营和业务连续。如果由于数据中心基础设施故障造成数据中心发生瘫痪,将造成机构业务停顿。近几年,银行、保险、证券、民航等行业相继出现了一些数据中心故障,造成了很大的社会影响和经济损失。
图1:基础实施在数据中心架构中的定位
数据中心基础设施监控管理系统是一个以计算机软件技术为基础,利用网络技术、数据库技术、通信技术、嵌入式技术、工业自动控制技术、新型传感技术等构成的专业化、自动化、智能化的综合监控管理系统。该系统可实时收集各种被监控设备的运行参数、工作状态及告警信息、能对智能型和非智能型的设备进行监控,准确的实现遥信、遥调、遥控及遥调等功能,确保数据中心各种基础设施运行正常和快速恢复。另外,在设施监控的基础上,能够为IT服务管理提供基础数据和流程支持。
本文主要描述一般数据中心基础设施监控管理系统的建设目标、设计原则、监控范围、软硬件架构、系统组成和功能,以及监控管理系统关键技术等。
 
3.2设计目标
数据中心基础设施的监控工作是数据中心运维管理工作的一个既基础又核心的内容,这是因为一方面基础设施为数据中心运维提供基本的和底层的物理环境资源保障,另一方面,对基础设施运行的监控数据和监控信息将成为数据中心服务管理(ITSM)的某些流程的输入(如:ITIL事件管理、容量管理等)。因此,站在IT服务的高度,对基础设施监控系统进行设计是非常必要的。
(一)设计目标
设计目标来源于对用户的战略性需求和当前使用需求的平衡。不同的客户在设计目标上存在差异。确定设计目标,与其说是一个技术问题,不如说是一个管理决策问题。但是一般来讲,首先应该紧紧抓住用户面临的问题和迫切需求,确立它的最低建设(设计)目标。
根据我的经验,以下几点应该作为基础设施监控管理系统的最低设计目标:
(1)     能够对所有数据中心机房的基础设施提供实时的状态监测
要确保监控覆盖范围满足数据中心管理的要求,尽可能地全覆盖对所有支持企业或组织业务连续运行的动力、环境等系统的在线实时监测。
(2)     最大可能地降低人工监控和管理引入漏检和误报的风险
最好在监控系统上线后,人工现场监测操作从常态工作转变成非常态工作,例如:只是人工(维护人员或设备厂商)定期(月/季度)现场巡(抽)检。同时,监控事件以自动化的方式通知(分派),杜绝人工误报和延误处理。
(3)     提供一个监测-控制(管控)-再监测的闭环管理
监测不是目的,也不是监控系统的运行终点。当被监控对象处于非正常状态时,干预控制(人工或系统联动)是必须的。同时,干预控制的有效性和结果,也必须通过再监测来判断。这是一个闭环管理的过程,系统应该满足。例如:空调系统的监控。
(4)     相对提高运维团队的工作效率
数据中心的人力资源配备在绝大多数企业或组织从来都是“捉襟见肘”的。因为他“历史上”不是一线业务部门,不直接创造企业价值和利润。所以,常常面临“事多人少”的工作局面。采用集中监控管理、远程监控管理、无人值守、自动巡检等技术,可以相对地提高基础设施维护人员的工作效率。这一点是最得人心的项目收益。
(5)     能够记录被监控对象的历史运行数据
历史数据的价值之一就像病人的既往病例,它为新的问题解决提供参考。另外一方面,它可以“还原真相”,是系统安全审计的基本要求。这个设计目标将会带出大数据存储、处理与访问的问题。
(6)     定义和报告被监控对象乃至整个数据中心基础设施的运行状态指标和健康指标
数据中心的基础设施包括的子系统多,设备种类多,如果不能事先定义好(或者是可定义的)监控指标和健康指标,那么,维护人员一定会被淹没在废数据的海洋,无法准确判断基础实施的整体运行状态。
在数据中心基础设施的生命周期里,基础设施的健康指标应该被定义(比如:平均设备使用年限、平均设备故障覆盖率等等),以此来量化衡量基础设施的剩余使用能力。
(7)     最大可能地预测被监控对象的运行趋势,预防问题发生
大家可以想见,一旦数据中心基础设施出现重大故障,企业或组织的业务必然马上受到影响甚至中断,损失即刻发生。(2011年国内某保险公司因为供电系统问题,导致业务停止,损失约3个亿)。所以,监控系统如果能够根据被监控对象的历史运行情况,推演问题趋势,就可以提前采取措施排除问题隐患。从这个意义上看,最有价值的监控系统就是可以预防问题发生的监控系统。
(8)     提供基础设施突发问题的预案
现实中问题总会发生,哪怕等上几年!所以,为你的监控系统买个“保险”,开发各种问题处理预案。
(9)     监控系统自身无障碍运行
这个不说了,就像交通电子眼一旦坏了,怎么知道谁闯了红灯?
另外,近年来,随着数据中心行业的蓬勃发展和面向IT 服务的功能转变,机房数量剧增、规模扩大、结构更加复杂、监控业务增长,新的监控管理需求不断出现,因此,新一代监控管理系统还应该把以下几点作为设计目标:
(10) 满足数据中心快速扩容的要求
(11) 满足跨区域联网监控的要求
(12) 满足分级分区域管理的要求
(13) 满足异地灾备的要求
(14) 能够与数据中心其他信息系统集成
与数据中心资产管理系统的集成,或者与ITIL框架下CMDB、知识管理系统的集成。与ITIL框架下服务运维模块中的问题管理的集成。与数据中心统一的身份认证系统集成。等等。
(15) 能够对数据中心基础设施进行科学评价
在对基础设施监控的基础上,进一步对其等级和持续可用性进行评价,作为数据中心基础设施维护的依据。比如:数据中心能耗评估。通过监控系统采集的用电量计算电能使用效率PUE(Power Usage Effectiveness)。再比如:成本平均。

转载于:https://blog.51cto.com/yangruosong/1047393

数据中心监控管理系统设计(之一)相关推荐

  1. 数据中心计算机系统图,数据中心监控系统

    数据中心监控系统是一个综合利用计算机网络技术.数据库技术.通信技术.自动控制技术.新型传感技术等构成的计算机网络,提供的一种以计算机技术为基础.基于集中管理监控模式的自动化.智能化和高效率的技术手段, ...

  2. DCIM 智能化数据中心如何管理

    DCIM 智能化数据中心如何管理 随着科技,互联网.云计算的迅猛发展,数据中心管理人员面临的挑战越来越大.高科技是促进当今社会发展的重要因素,同样也是社会发展的结果,促使数据中心管理人员必须重新规划数 ...

  3. 如何处理数据中心电缆管理问题?

    大多数IT团队都非常了解电缆管理在数据中心中的作用.杂乱无章的"意大利面式"布线会导致运营开销增加.部署速度变慢.故障排除问题甚至计划外停机.处理不当的跳线还会阻碍气流,增加能源成 ...

  4. 数据中心气流管理的基础:密闭系统的比较

    在过去的十年中,许多企业都已经意识到:具备密闭系统的数据中心气流管理实践方案的相关优势.现在,人们对于"随着每台机柜的平均热负荷的增加,简单地将机柜安置在传统开放的热/冷通道中的配置方案并不 ...

  5. 基于生命周期理论的农业科学数据中心化管理模式

    基于生命周期理论的农业科学数据中心化管理模式 高飞1,2, 周国民2,3, 满芮2,4 1 中国农业科学院作物科学研究所,北京 100081 2 国家农业科学数据中心,北京 100081 3 中国农业 ...

  6. 车辆监控管理系统、GPS车辆监控系统、车辆监控管理系统技术方案 ,车辆监控管理系统设计,车载监控终端TBOX,车辆监控系统终端

    车辆监控管理系统是利用全球定位技术.通过无线数据传输,并 配合计算机软件(MIS)实现对车辆的各项静态和动态信息进行管理. 车辆监控管理系统的组成:包括车载设备,监控管理中心,无线通信网络. 车载监控 ...

  7. DCIM 系统是如何智能改善数据中心主机管理的

    数据中心是全球性的特定网络.其主要功能是在互联网上传输.加速.显示.计算和存储数据信息.数据中心的服务器数量可以很多,但它不仅包括很多服务器,还包括各种数据通信存储.各种监控和安全设备等,内部比较复杂 ...

  8. 细节决定成败,数据中心标签管理的重要性

    标签在数据中心的运维工作过程中属于比较重要的管理方式,随着数字化技术的不断深入和广泛应用,数据中心规模愈加庞大,与之配套的设施设备的数量与日俱增,而线缆数量大概是设备的8倍左右,随之产生的标签用&qu ...

  9. 数据中心现场施工管理难点案例分析

    众所周知安全是每个企业生存与发展的涵盖与前提,由此安全显得非常重要.对于数据中心现场的施工管理来说,实现安全生产所面临的难度更大,因为其施工项目安全生产有不同于其他行业的特点.数据中心中机电安装工程的 ...

最新文章

  1. LeetCode简单题之二进制矩阵中的特殊位置
  2. 360浏览器登录_360浏览器登录统一操作系统UOS国产CPU首次实现高清视频在线播放...
  3. 学生档案管理系统(续)
  4. python计算n到n+100之间所有奇数的和_Python基本操作题
  5. 让批处理文件(.bat)程序无窗口(隐藏/静默)运行
  6. api怎么写_使用Node.js原生API写一个web服务器
  7. 开发环境eclipse for Mac 下的常用快捷键汇总(基本参照Win系,将Ctrl换为Command)
  8. 成长,责任,和公司的关系
  9. 【天线的主要技术指标及其含义-带宽 】
  10. 图片怎么去底色?怎么去图片背景为透明?
  11. 一劳永逸安装程序无法继续 Microsoft Runtime DLL 安装程序未能完成安装
  12. 证明彼得森图不是平面图
  13. 5G时代的到来会对UI交互设计产生什么影响?
  14. 基因编辑最新研究进展(2022年4月)
  15. C++语言风格流变史
  16. Gtarcade的Hunger Heroes游戏马拉松即将开始
  17. 【小王的安卓之路】Android原生网络请求
  18. C语言编程技巧 --- C语言中左移右移与乘除法的比较
  19. 汉罗塔递归算法(C++)
  20. 传奇开区网站如何添加流量统计代码

热门文章

  1. java里调用Python
  2. 北斗导航 | 大规模点云地图的自动化构建(高翔:SLAM十四讲)
  3. c语言一串大写字母转小写,C语言的基础函数大小写转换
  4. 位数不足前面补0mysql语句_MySQL查询添加0到少于9位数字?
  5. 易企秀如何生成图片_易企秀可以导出图片吗
  6. php pdo 参数绑定,PDO绑定参数的其他方法
  7. js请求结果拦截机器_分享:一步一个脚印,vue入门之axios的应用及拦截封装
  8. PyQt5 笔记4 -- 多线程
  9. 机器学习实践:TensorFlow最后一个epoch训练损失函数显著增大
  10. 工业用微型计算机(28)-dos和bios功能调用(2)-int 21h