CIO:云计算数据中心运维管理要点
云计算运维管理的要点云计算在运维管理中其所涵盖的范围非常广泛,其中主要包括了对环境管理、网络管理、软件管理、设备管理、日常操作管理、用户密码管理以及员工管理等多个方面。要良好实现以上的管理目标,则应着重从云计算运维管理中的运行监控、安全性管理和自动化处理这三个要点出发。
运行监控
云计算的运维管理应从数据中心的日常监控人手,对日常维护管理、事件管理、变更管理以及应急预案管理等进行全方位的日常监控,以提前发现问题并消除隐患。通过对云计算良好的运行监控,从而实现对各个系统服务的统一管理,以及对各服务操作系统应用程序信息的统一收集,并实现对各层面信息的综合分析、归纳和总结。而且通过有效的运行监控,在系统出现问题时能及时的向系统管理员预警,从而提前解决问题,有效避免了因系统故障而导致企业蒙受经济和信誉上的损失。
IT规范化
主要是指通过对企业IT的规范化,从而有效实现对企业IT资产的管理,包括了对企业重要文件资料的跟踪与审计、对可能出现泄密或病毒蔓延的介质与设备进行有效控制、对客户端安全分级管理、恢复性操作以及非法软件的禁用等等。通过实现IT规范化,有效解决了因云服务所引发的安全问题,并且强化了服务中运营管理与安全技术保障,增强了企业和用户对使用云服务的信心。
自动化处理
随着当前IT建设的不断深入,以及云计算能力和规模的扩大,云计算运维管理的难度与复杂度也日益增加,如果只是依靠人工的运维管理将无法满足当前企业的发展需求。这些新特性都对IT管理的自动化能力提出了更高的要求,企业需要更高程度自动化处理来以此实现运维管理的专业化、流程化与标准化。自动化管理已然成为了当前云计算运维管理的一个必然发展趋势。
为促进当前云计算运维管理的优化与改进,应从打造一体化的的运维管理模式,并将业务导向放在首位,从而有效实现完善、成熟的IT运维服务体系的构建。
一体化的管理模式
一体化是指云计算的数据中心运维管理,是数据中心生命周期中最后一个也是历时最长的一个阶段,从前期应用架构设计、软硬件资源配置评估、应用服务性能瓶颈评估到安全防护和系统优化等工作,都需运维人员全程参与。因此在对云计算运维管理的改进中,应从日常监控、周期巡检、服务受理、故障处理、平台维护、配置管理、安全管理等方面着手,利用自动化运维工具,实现对物理资源、虚拟资源的统一管理,提供资源管理、统计、监控、调度、服务管控等端到端的综合管理能力,从而实现对云数据中心统一、便捷、高效、智能的一体化运维管理。
将业务导向放在首位
运行维护服务能力的四个关键要素分别是:人员、资源、技术和过程。每个要素通过关键指标反映运行维护服务的条件和能力。将业务导向放在首位,就是对人员、资源、技术和过程这四个关键要素的提升。从而有效实现云计算运维管理的改进。首先,应通过现代化与自动化的运维工具完成系统预备、配置管理以及监控报警等功能,降低故障发生率,提升故障发生后的响应处理效率,实现企业业务的快速恢复;其次,应做好在运维管理中新业务的快速部署、系统容量的平滑扩容以及资源分配等各个方面的业务项目,从而保证服务达到相应的等级标准,并能根据业务目标形成IrI‘服务的管理目标;最后,还应当通过改进运行维护服务能力与管理过程中的不足,以持续提升运行维护服务能力。
理清云计算数据中心的运维对象
数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象一般可分成5大类:
①机房环境基础设施
②数据中心所应用的各种设备
③系统与数据
④管理工具
⑤人员管理
定义各运维对象的运维内容
云计算数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。这就需要对每一个管理对象的日常维护工作内容有一个明确的定义,定义操作内容、维护频度、对应的责任人,要做到有章可循,责任人可追踪。实现对整个系统全生命周期地追踪管理。
信息化的运维管理平台系统和IT服务管理系统
云计算数据中心的运维管理应从数据中心的日常监控入手,事件管理、变更管理、应急预案管理和日常维护管理等方面全方位地进行数据中心的日常监控。实现提前发现问题、消除隐患,首先要有完整的、全方位实时有效的监控系统,并着重监控数据的记录和技术分析。
数据中心的业务可以概括为:通过运行系统来向客户提供服务。没有信息系统的支撑来运行IT系统就如超市里仍然采用手工结账一样不能让顾客满意。信息化的数据中心运维管理平台系统包括如下方面:
①机房环境基础设施监控管理系统;
②IT系统监控管理系统;
③IT服务管理系统。
定制化管理
灵活性、个性化是云服务的显着特征,用户对应用系统有着千差万别的个性化需求,云服务提供商在保证共性需求的基础上,还要满足用户个性化的定制需求,向用户提供灵活和个性化配置的云服务系统。云服务提供商要提供按需变化的服务,就要有反应敏捷的人员、流程和工具,来适应业务变化的需要。云服务下的运维需要更多的灵活性和可伸缩性,可以根据客户与合作伙伴的需要,快速调整资源、服务和基础设施。
自动化管理
IT服务根据负载变化的情况可以自动调整所需的资源,以求在及时响应和节约成本上取得平衡。同时,还考虑到计算能力和规模会越来越大,人工管理资源也会越来越复杂。这些新特性对IT管理自动化能力提出了更高的要求。企业往往希望在不失灵活性的前提下,可以得到更高程度的自动化。为此,云计算数据中心需要部署自动化管理平台,集中管理虚拟化和云计算平台,并提供自定义规则,以定制功能的自动化解决方案,用户通过使用事件触发、数据监控触发等方式来自动化管理,不但节约了人力,同时也提高了响应速度。
安全性管理
由于提供服务的系统和数据有可能被转移到用户可掌控的范围之外,云服务的数据安全、隐私保护就成为了用户对云服务最为担忧的方面。云服务引发的安全问题除了包括传统网络与信息安全问题(如系统防护、数据加密、用户访问控制、DoS攻击等)问题外,还包括由集中服务模式所引发的安全问题以及云计算技术引入的安全问题。例如防虚机隔离、多租户数据隔离、残余数据擦除以及多SaaS(SoftwareasaService)应用统一身份认证等问题。要解决云服务引发的安全问题,云服务提供商需要提升用户安全认知、强化服务运营管理和加强安全技术保障等。需要加强用户对不同重要性数据迁移的认知,并在服务合同中强化用户自身的服务帐号保密意识,这可以提升用户对安全的认知。在服务管理方面,要严格设定关键系统的分级分权管理权限并辅之以相应规章制度,同时加强对合作供应商的资格审查与保密教育。加强安全技术保障,以充分利用网络安全、数据加密、身份认证等技术,消除用户对云服务使用的安全担忧,增强用户使用云服务的信心。
流程管理
流程是数据中心运维管理质量的保证。作为客户服务的物理载体,数据中心存在的目的就是要保证服务可以按质、按量地提供符合用户要求的服务。为确保最终提供给用户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点和流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化,使得整个服务提供过程可被监控和管理,以形成真正意义上的“IT”。服务数据中心建立的管理流程,除应满足数据中心自身特点外,还应能兼顾用户、管理者和服务商与审计机构的需求。由于每个数据中心的实际运维情况与管理目标存在差异,数据中心需要建立的流程也会有所不同。
应急预案管理
应急预案是为确保发生故障事件后,尽快消除紧急事件的不良影响,恢复业务的持续运营而制定的应急处理措施。应急预案的注意事项:
①根据业务影响分析的结果及故障场景的特点编写应急预案,以确保当紧急事件发生后可维持业务继续运作,在重要业务流程中断或发生故障后,在规定时间内,要及时恢复业务运作。
②应急预案除包括特定场景出现后,各部门和第三方的责任与职责外,还应评估复原可接受的总时间。
③应急预案必须经过演练,使相关责任人熟悉应急预案的内容。应急预案应是一个闭环管理系统。从预案的创建、演练、评估到修订应是一个全过程的管理,绝不能为了应付某个演练工作,制定后就束之高阁了。而是应该在实际演练和问题发生时不断地总结和完善。
只有运维管理好一个数据中心,才能充分发挥数据中心的作用,使之能更好地为云计算提供强大的支持能力。通过有效实施云计算数据中心运维管理,减少人员工作量的同时,还要提高运维人员的工作素质和效率,保障业务人员的工作效率,提高业务系统运行状况,进而提高企业整体的管理效益,同时也提高了用户的满意度,才能实现云计算数据中心的价值最大化。
====================================分割线================================
本文转自d1net(转载)
CIO:云计算数据中心运维管理要点相关推荐
- 数据中心运维管理技能的重要性
从历史上看,数据中心行业在很大程度上是无形的,但是随着数字化转型的迅猛发展,数据中心最终被公认为是任何数字业务的关键.调研机构IDC公司预测,到2025年,全球的数据将增长61%,如何确保这一至关重要 ...
- 我的心得:数据中心运维管理(二)
续接:<我的心得:数据中心运维&管理(一)> 5:追其根源,防患未然:5Why 分析法在数据中心的应用:如何有效的解决问题,首先需要了解产生此问题的因素和最根本因素:如何寻找根本原 ...
- 数据中心运维管理社区祝大家新春快乐,虎年大吉!
今日除夕, 给您拜个早年, 祝大家新年新气象, 喜到福到好运到! 请您接福 ↓↓↓ 福寿绵绵 福寿年高 福寿齐天 福寿双全 福寿天成 福寿无疆 福孙荫子 福如东海 福 ...
- 我的心得:数据中心运维管理(一)
2016 年中国数据中心行业投资狂潮掀起了 IDC 基础设施建设狂潮,经过 2 年的建设周期,数据中心基础设施运维&管理工作紧跟其后,拉开了数据中心运维&管理人才迫切需求的大幕.然而行 ...
- 特别详细的数据中心运维管理方案
[导读]本文梳理了数据中心运维分类,各类运维所包含内容.性能监控检查列表.各主要组件巡检内容.运维优化评估.应急保障措施和组织.IT运维服务工具等.非常详细,具有实操性. 第一章 某数据中心基础运维概 ...
- NVisual数据中心运维管理之线路可视化管理
数据中心(DataCenter)顾名思义是指在一个物理空间内实现信息的集中处理.存储.传输.交换.管理的场所,数据中心的关键设备,比如计算机设备.服务器设备.网络设备.存储设备等. 规模分级 超大型数 ...
- 让数据中心运维管理高效简单
1.如何高效的适应业务的频繁更新.变更.上线.扩展? 2.如何在最低成本的前提下实现业务并发运算能力的可伸缩式扩展? 3.如何实现运维人员从被动处理故障到故障预防和故障高度自愈的转换? 4.如何通过不 ...
- 当前数据中心运维管理工作中存在的问题
教据中心建设作为一种战略投入基本上已经形成共识,但是在巨额的投入后仍面临着种种问题与风险,面临着数据量急速膨胀,场地严重不足,运营成本高昂.能耗大.安垒性差,业务连续能力低等一系列挑战. 在数据中心生 ...
- 云计算运维累不累_关于云计算运维管理要点的知识分享
通过云计算的运维管理,企业不仅能够实现对IT资源的统一,根据用户的需求提供可量化的存储服务与计算,而且还能有效将资源切换到实际需要的应用中,提高IT资源的利用率,降低系统成本. 要良好实现以上的管理目 ...
最新文章
- “后浪95后”吴尚哲的 CVPR 最佳论文:无需任何监督,即可重建三维图像
- windows 2008+Oracle 11g R2 故障转移群集配置
- aop的四种增强以及JDK动态代理、Cglib动态代理
- kmeans聚类选择最优K值python实现
- 王卡为何解封40g显示服务器开拆,腾讯大王卡40G流量用完了怎么办 腾讯大王卡解封以及解封后流量收费介绍...
- 浅析COM的思想及原理
- numpy教程:快速傅里叶变换模块numpy.fft
- android广播面试题,Android相关面试题
- Lingoes 2.8 手动去广告步骤
- 第七章 DevOps工具链
- js怎么在一个div中嵌入另一网站_好程序员web前端学习路线分享HTML5常见面试题集锦一...
- 线性序列机与串行接口ADC驱动设计与验证
- HTML行内元素、块状元素和行内块状元素的区分
- FPGA设计思想与技巧
- 我的教师生涯4:被忘却的第一节课
- 事件捕获、冒泡、绑定、赋值、委托、兼容、滚轮
- 深入浅出通信原理pdf_「PLC」精品资料包,西门子+三菱+AB+台达,50本高清PDF
- url指定服务器是什么意思,URL是什么意思?网页的URL是什么意思?
- ECCV2018 | 论文阅读CornerNet: Detecting Objects as Paired Keypoints
- 8cm等于多少像素_1寸照片尺寸是多少,对应的像素是多少
热门文章
- (cons '(〇 . 前言) 《为自己写本-Guile-书》)
- 详解uni-app项目运行在ios模拟器调试
- 保护我的web app安全-为网页加入SSL安全证书
- 计算机语言求公因子,学好PLC必须掌握的三个典型程序实例!为PLC编程积累一些实例知识吧!...
- 信息学奥赛一本通——1163:阿克曼(Ackmann)函数
- 最大打开文件数(文件句柄数)
- C语言练习-计算礼炮声响次数
- 什么是SRM?SRM包含哪些内容?
- H3C防火墙的默认配置及console
- 能提高亚马逊排名和转化的8个技巧(二)