本文转自微信公众号“IT运维之道”,原创: IT运维之道 IT运维之道

引言

前一阵,一家三口一起去了冲绳的海洋博览会纪念公园。据说那里有最大的水族馆-美之海水族馆,鲨鱼在那里自由翱翔,壮丽无比。我们一行人都是第一次前往,从那霸到海洋馆不到100公里,路程虽不长,但沿途路况复杂。我们第一次在冲绳自驾,车从那霸出来后在乡间小道中穿行,七弯八拐,中途甚至一度起雾下暴雨,严重时连道路都看不清,但我们从未担心迷路。果然,经过1小时30分钟的车程,我们顺利到达目的地。猜猜我们是如何做到的?是的,Google Maps是我们的信心的定海神针。

Google Maps极大的方便了现代人的出行,通过集成地理数据、卫星定位、实时路况和导航计算等数据和功能,人们可以精确知道自己在地图上的位置以及与目的地之间的路线和路况,人们可以去任何自己想去的地方,不论之前有没有去过。Google Maps甚至重新定义了地图,地图不再是出行前的辅助规划工具,而是行驶过程中的完美辅助工具,这种对地图的高频依赖在十年前是无法想象的。那时,由于纸质地图的信息非常有限,对出行帮助并不大。信图不如信人,只有老司机更懂路。

Google Maps解放了人们对老司机的强烈依赖,不过,在享受Google Maps带来的巨大便利的同时,你可曾想到Google Maps的幕后英雄是谁吗?是的,就是GeoDB,它精确的记录了每个城市、街道、建筑以及山川、河流的经纬度坐标和海拔,这些数据被称为Geo Data。Geo Data晦涩难懂,所以早期GeoDB的消费场景很少。Google Maps将晦涩难懂的Geo Data变得简单直观,降低了信息的理解门槛,从而使每一个普通老百姓都能够消费这些数据,一下子盘活了很多GeoDB。

运维也面临同样的问题,运维生态是由系统和人两大部分组成,系统包括了软件、硬件和环境;人包括了服务人员和客户及用户;这两者之间相互作用,相互影响,形成了动态变化的运维生态系统。而目前,整个生态的状况,往往都是各种专业数据无关联的呈现,晦涩难懂,很难让每一个人(包括服务人员和用户)完全利用好它,如果能把运维生态的这些数据有序、关联、直观地展现出来,使各工种运维人员、开发人员以及各级管理人员,甚至用户很直观地要到他们想要的信息match,并能帮助他们实时决策,成为他们的高频依赖,运维这项工作是不是变得更有意义呢!

一、运维生态概述

DevOps流行了一段时间了,有大量介绍DevOps的文章,我这里就不班门弄斧了。我以为要让开发、运维、管理、用户这四者减少摩擦,也需要一个各方都达成认可的共识,那就是达成如何建设运维生态的问题,而建设运维生态,需要两只手,即精准运维加运维质量描述。通过主动服务把精准运维工作做好,通过质量描述把运维生态的情况直观地展现出来,以运维生态的质量为基准,输出到各方,用于持续改进(PDCA)。

好了,那我们先说说精准运维,精准运维是一种IT服务方法,它是要让IT运维服务工作围绕被服务对象的业务来展开,从而进行心跳同步式的服务,最大限度地利用资源,提升业务体验,实现服务价值,而不仅仅是围绕信息系统本身(软硬件)来服务。精准运维有个核心思想就是主动服务,怎样主动服务呢?嗯,猜对了,那就是根据运维对象的特质以及客户的特别要求,对运维生态进行检测、分析,从而制定出计划与服务方案,根据计划方案展开行动,然后再检测分析运维生态的质量,不断PDCA做到更好。

那什么又是运维生态质量呢,要聊清楚运维生态质量,就得从两个方面说起,第一是系统,第二是人。先说系统,系统的质量是包括业务系统软件、基础软件、硬件以及环境(包括电力、消防、照明、机位等机房环境)的质量状况;再说人,是说在这个生态圈里人的运行状况,包括了用户(客户)-客服人员-运维人员-开发人员-管理人员等,他们的状态,涵盖了能力成熟度的范畴。把这两部分展现出来了,我们当然就清楚事情的情况、问题的重点了。

二、如何全面展现运维生态

描述系统方面的质量,我们可以用两个方面,如运行保障和风险控制,运行保障常见的是可以用系统的可靠性和可维护性等指标表示,即,MTBF、MTTR、MTRS等;风险控制可引入风控管理方面的指标。

人的方面在用户体验、服务规范、服务感受以及效益上去考量。

实际上要想做到直观展现这两点,还需要细化每一个展示分类,形成对每一类都有各种直观的关键项指标KPI,这样的展示就有了意义,如同我们的导航软件,而展现的前置条件,是服务需求分析。

展现的信息是不是有用,取决于这个信息是否满足使用人的需求,就象前面的实例中描述的那样,导航的信息是否可以帮助使用人方便、快捷、安全的到达目的地,如果可以,那么这次展现有价值的。获取不同人员对运维服务的需求,人员按照不同的视角(客户、管理者、系统用户、运维人员)进行分类

1.   监测运维生态质量

a)   设计运维质量指标:设计相应的指标,采集到对应的质量数据;

b)   数据采集方式:实时获取,定时获取。

c)   运维生态质量KPI:

2.   运维生态质量可视化展现

a)   运维质量数据处理和翻译:对质量数据进行加工、存储、整理和分析;

b)   运用直观、易于理解的方式进行展现。

3.   数据应用----PDCA

a)   客户更加合理、明确、清晰的要求;

b)   管理团队提出更有针对性的决策;

c)   行业用户更合理的开展业务;

d)   运维团队不断改进运维服务。

以下是展现运维生态系统的指标一览表(评价指标供参考):

三、实例

以某信息系统为例,我们来看看其运维生态状况是如何得到展现的。该系统是一个某制造行业的分布式系统,分别部署在全国各省市,实现对生产制造的控制和流通环节的物流跟踪。为保障该系统的稳定运行,某运维企业在全国各省均设立了运维服务团队。鉴于系统的复杂性、运维团队的数量众多,如何评价该系统的运行状况、评价各服务团队的服务质量,是一大挑战。通过运用上述运维生态展现方法,能够较为全面、客观反映系统运行情况、运维生态状况。

该系统运维状况测算按照百分制计算,反映系统运行情况的三个关键指标(MTBF、MTTR和MTRS)的平均分分别为55.4、50.1、74.3;测评时发现一次变更未及时开变更单、数据备份缺失产生2个扣分项。系统运行情况的得分情况如下表所示:

根据质量指标体系,对各指标的不同运维组整体得分情况,从指标平均分和离散程度两个方面进行分析,具体如下图所示:

(注:离散程度本次分析中用各驻场组指标得分的标准差来表示)

从上图可以看出,不同运维组普遍具备以下优势:

  • 在6个指标(重大事件处置水平、事件解决率、恢复时长达成率、汇报情况、现场服务工作完整性、到场及时性)上,所有运维组均取得了满分,说明运维组在这6个方面提供了高水准的服务,符合企业规范并得到了用户的认可。

  • 8个用户调研的主观类指标(汇报情况、现场服务工作完整性、到场及时性(用户及员工反馈)、运维策划能力、服务条理性、用户及员工反馈、服务效率、巡检情况)平均得分均在99分以上,且数据离散程度很小,说明各省用户对运维组工作情况十分认可。

  • 工单合格率和工作记录完整性这两个客观指标平均得分也在90分以上,指标离散程度适中,说明运维组在这两方面规范执行情况良好,各运维组之间水平差异不大,部分运维组还有提升空间。

此外,从上图还可以看出,各运维组在以下几个方面还有待提升:

  • MTBF、MTTR、MTRS三个指标离散程度相对较大,MTBF、MTTR两个指标平均分相对较低,说明各运维组之间系统运行保障的效果差异较大,尤其在系统可靠性保障方面,低于平均水平的小组较多,需要各运维组深入研究具体原因,提升系统运行保障水平。

  • 规范和技能水平两个指标,平均得分相对较低,离散程度适中,说明至少试卷包含的相关内容上,各运维组差别不算太大,但水平尚待提升。

  • 手机接通率指标由于本次评分以95%接通率75分为基准,从平均得分84.8上看,各运维组手机接通情况良好,但是指标数据离散程度较大,说明各组接通率差距较大,部分运维组尚有提升空间。

  • 监控执行情况指标,平均得分79,且数据离散水平为所有指标中最高,说明在监控记录上传和准确性方面,各运维组完成情况不一,大部分运维组仍需加强。

通过上述实例运用,我们发现非常复杂的运维生态状况,通过上述方式得到了全面、客观的呈现,无论对于客户,还是对于运维单位本身,均具有重要的意义。一方面,能够让客户了解系统运行状况,及时予以风险控制;另一方面,能够让运维单位针对薄弱环节予以改进和加强,提升运维服务水平。对于甲乙双方来说,能够实现双赢。

如何全面展现运维生态状况相关推荐

  1. 秒云获得阿里云首批产品生态集成认证,携手阿里云共建云原生智能运维生态服务

    近日,成都元来云志科技有限公司(以下简称"秒云")的云原生智能运维中台产品与阿里云计算有限公司(以下简称"阿里云")的阿里云容器服务 ACK 经过严格测试程序, ...

  2. 秒云获得阿里云首批产品生态集成认证,携手共建云原生智能运维生态服务

    近日,成都元来云志科技有限公司(以下简称"秒云")的云原生智能运维中台产品与阿里云计算有限公司(以下简称"阿里云")的阿里云容器服务ACK经过严格测试程序,完成 ...

  3. 数字化时代,企业运维面临现状及挑战分析解读

    云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法.算力.数据集整体的服务体系及智能运维业务场景的解决方案交流社区.该社区致力于传播 AIOps 技术,旨在与各行业客户.用户.研究者和 ...

  4. 中国IT运维O2O市场产值规模预测及发展策略建议报告2022年

    中国IT运维O2O市场产值规模预测及发展策略建议报告2022年 --------------------------------------------------- <出版单位>:鸿晟信 ...

  5. 中国IT运维O2O市场发展研究及十四五前景规划分析报告2022-2027年

    中国IT运维O2O市场发展研究及十四五前景规划分析报告2022-2027年   第1章:IT运维O2O的概念界定与内涵1.1 IT运维的概念界定与内涵 1.1.1 IT运维的概念 1.1.2 IT运维 ...

  6. 如何让公安监控系统运维变简单?

    想要实现社会面视频监控全覆盖,"天网监控系统"在其中扮演着举足轻重的角色,作为公安机关打击街面犯罪的一项法宝,"天网"是利用设置在大街小巷的大量摄像头组成的监控 ...

  7. 智慧的数据中心运维风险管理

    什么是智慧?<辞海>上解释为"对事物能认识.辨析.判断处理和发明创造的能力.作为世界上最成功的高科技企业之一和创造新概念的高手,IBM公司在2009年伊始提出了智慧地球的概念,以 ...

  8. 乔安监控云存储_智能运维丨全栈监控,护航云上业务

    自2006年至今,云计算商用领域已经历了十余载的发展.云也从概念普及进入到广泛应用阶段,云服务变成了像水电一样的基础服务,已经是行业共识. 云发展速度快.成长空间大,监控场景复杂 最新Gartner的 ...

  9. 龙蜥社区成立系统运维SIG,开源sysAK系统运维工具集

    简介:系统运维SIG致力于打造一个集主机管理.配置部署.监控报警.异常诊断.安全审计等一系列功能的自动化运维平台. OpenAnolis 龙蜥社区(以下简称"龙蜥社区")正式成立系 ...

最新文章

  1. 以及其任何超类对此上下文都是未知的_ECCV'20 |OCRNet化解语义分割上下文信息缺失难题...
  2. 10.基于Tomcat的SmartUplaod文件上传
  3. 详解DNS的常用记录(上):DNS系列之二
  4. css常用属性初总结:伪元素和伪元素
  5. C语言中怎么将变量名转换为字符串 -转
  6. AcWing 2058. 笨拙的手指(暴力枚举)
  7. linux赋权限2770,Linux权限:SUID,SGID以及粘滞位
  8. blob类型视频测试(blob加密视频源地址)
  9. 员工培训与开发实训心得体会_人力资源实训个人总结
  10. linux ls 配色方案,vim自定义配色方案,图文并茂
  11. 求曲线面积的原理(微积分入门)
  12. python+opencv代码给证件照换底色(别再用PS啦)(转载)
  13. 解决Can't locate Time/HiRes.pm in @INC问题
  14. 解决Visio中Mathtype公式插入Word或复制后变形
  15. IDM UEStudio 19中文版
  16. 图片的角如何弄成圆角?
  17. Matlab学习日记(2)输入与输出
  18. DXP_protel2004_原理图设计基础_集成运放原理图设计_原理图后期处理
  19. 什么是项目管理?范围、时间、成本、质量
  20. 用Unity写一个12306验证器的恶搞图生成软件

热门文章

  1. Linux搭建各种常用服务器(详细)
  2. cmake:ESP32交叉编译工具链定义
  3. 思科网络安全 第一章测验答案
  4. Python学习笔记——一些函数
  5. RationalDMIS 检具的测量
  6. 怎么用计算机打出cpdd,网络语cpdd是什么梗啥意思 cpdd出处来源哪里常见用法介绍...
  7. 联想E480被锁频到0.89Ghz解决办法
  8. python实现字符串数据类型转List列表数据类型
  9. 人类群星网站收集计划--Michael Kerrisk
  10. Python爬虫——爬取某网站新闻