01 背景介绍

随着云计算、 5G 等新型信息通信技术应用深入,电信行业在面临网络转型及重构挑战的同时也在探寻通过 IT 运维提升效率、优化成本的解决方案,以提升企业竞争力。因此,电信行业正在面临架构容器化演进、自动化向智能化转型、构建企业级能效中台、一体化运营体系以及内化 IT 研发能力等应用现状。

目前运营商都有要求应用部署在指定 PaaS 平台的趋势,基于以上背景提出研发轻量级运维平台的思路,通过运维平台把微服务管控(SCP)、调用链跟踪(iTracing)等核心运维能力集成到一起,提供全息监控能力,实现运维过程中异常现象“事先预警”、问题过程中能够“事中缓解”、问题发生后能提供手段还原问题场景辅助“事后分析”的全流程覆盖。

轻量级智慧运维平台目标

篇幅所限,本次先介绍智慧运维平台中全息监控相关内容。

02 全息监控

>>>>需求场景

系统问题的事前预警、事中缓解、事后分析是问题发展过程的“三段论”,希望通过将产品运行的关键环节进行显性化的展示,在此基础上辅助一定的运维手段,尽量在问题的事前阶段捕捉到相关的预警信息并告知对应责任人,将问题消弭于无形,“系统无障”是我们的终极目标。这些要求,意味着需要随时掌控系统自身运行状态以及业务承载信息。因此,对系统实时监控并以可观测的方式进行展示,就成了基础架构的必备“技能”。

>>>>解决方案

全息监控的根本原理是利用全息数字建模技术,对海量信息提取真正有价值的部分,实现主屏、业务屏、组件屏、服务探测屏的多维度分析,通过提供丰富图形模板进行展示,设置各类型告警任务、异常情况,方便快速发现问题、解决问题。

全息监控技术方案示意

在本方案中,可从业务、应用、接口服务、技术组件、虚拟资源等多层面进行全栈式监控,快速接入各业务系统,协助业务系统沉淀行业指标规范,适配各类 paas 环境,支持轻量级部署。具备业务健康度分析能力,能定期输出运营报表,实现业务生产流程数据透明化大屏展示,为运营决策提供依据,从业务维度感知系统运行态势,持续优化服务,提升系统性能,改进业务流程,提升用户满意度。

>>>>业务目标

全息监控的应用场景广泛,可以对单个应用/组件、业务流程、业务场景进行监控展示。

全息监控大屏业务目标规划流程

全息监控大屏应用流程如上图,在该流程中,核心步骤为“2、明确监控目标”,其它所有步骤都为它服务。通常来说,监控目标大概有这几种:

1) 展示形象,着重点在说明应用/组件建设效果,可通过全息监控大屏提供先进的可视化运维管理能力。

2) 展示业务承载状态,着重点在对业务数据的观测,通过实时呈现应用业务指标数据以了解业务开展情况、业务运行是否发生异常(业务请求数/业务成功率/业务失败率等出现剧烈波动),以便在必要的时候及时进行人工介入。这个目标适合业务时效性要求高的场景,比如线下受理类业务、实时生效类业务等。

3) 展示技术支撑能力,着重点在对技术能力的观测,通过实时呈现组件当前技术指标,以说明被监控对象当前处于什么状态(空载/空闲/忙碌/过载/瘫痪等),业务支撑能力是否发生变化(主机 CPU/内存使用率过高、数据库慢查询数变多/表空间空闲率极低、Redis 连接数过高/被阻塞的连接个数大于 0 等),以便在必要的时候及时进行人工介入。这个目标适合对硬件设备、数据库、分布式组件等的监控,比如主机、Mysql、Redis、MQ、ZK 等。

在实际项目落地过程中,可以根据实际情况确定希望通过全息监控大屏实现的监控目标,目标可以是上述的一种,也可以是数种的组合,具体的以可投入预算和资源决定。

>>>>系统亮点

全息监控组件优点总结

整体来说,全息监控在实际生产应用过程中起着重要作用,大致总结了它的几个特点:

  • 交付简单,使用方便

极简部署:提供极简部署工具,部署进度可视化。

开箱即用:应用、组件屏、接口服务屏等无需过多配置,无需修改业务代码即可接入使用,非侵入式数据采集。

  • 业务接入速度快

内置指标体系丰富:根据业务系统提供的指标体系,提供指标图表库,通过一键部署快速生成各类通用监控屏,开箱即用。

指标配置简单:通用指标(主机容器、IaaS 资源指标、组件指标、应用健康指标、应用所依赖组件健康探测指标、通用服务监控指标等)无需配置,既取即用;特定业务指标少量配置即可满足。

大屏配置简单:自带组件屏、服务监控探测屏,开箱即用;监控主屏、业务屏少量配置即可展示。

  • 展示能力多元化

图表展示:提供折线、柱状、饼图、雷达、地图等丰富图形组件,支持各类指标的展示。

流程展示:提供可视化流程配置,包括流程节点、数据来源(url)、流程布局、告警参数等,支撑各类业务流程。

自定义报表:除提供 Oracle、Mysql、Redis、MQ 等通用组件运行情况报表外,还可根据业务要求快速定制个性化报表。

  • 监控范围全

立体全业务监控:提供从前端、应用服务、中间件到云资源的一站式立体运维监控,运维更高效。

全流程可视化监控:汇总业务各环节信息,端到端展示业务流程。

  • 诊断报告输出效率高

业务系统接入监控后,从 IaaS 资源、PaaS 组件、应用、服务等多层维度诊断,快速输出诊断报告。

03 应用实战

以某项目为例,按照不同的角色和关注点建设“家宽交付流程监控大屏”。系统主要分为前端与后端,前端进行数据展示,后端进行数据采集、加工清洗、指标统计。支持数据实时采集、实时加工、实时展示,业务流程出现问题进行实时告警,对数据的展示进行时间段的偏移,实时偏移量最多不超过 1 小时;支持数据按照月数据进行展示环比比较分析。

>>>>业务指标采集

指标采集数据流

在本案例中,监控大屏所需指标由大数据平台汇总各业务系统数据后生成,并通过实时接口提供给大屏使用。

>>>>业务效果

业务端到端全流程说明:业务受理->网络数据制作->安装工单调度->首响预约->现场施工->竣工确认->归档计费。

家宽交付流程大屏视图

1) 圆圈里的是本环节的总量,本环节的总量=蓝色图示(流出工单)+红色图示(卡单量),例如业务受理总量为 18650,流出工单量为 18600,卡单量为 50(卡单量为本环节的卡单量,未流入到下一环节里)。

2) 圆圈显示的是主要指标中的部分指标,圆圈的流出工单量用蓝色标识,卡单量用橙色标识,卡单量、超时首响工单、待安装工单、超时工单的数值当大于配置的阈值时流程箭头变黄色,当大于更高的阈值则流程箭头变红色同时出现透明的三角感叹号。

3) 各个业务流程环节下的柱状图为 120 柱,是以当前时间按照每 5 分钟一个时间单位向前偏移 120 个 5 分钟的数据进行展示,柱状图的上部红色区域代表的是主流程下的红色图例,蓝色区域代表的是主流程下的蓝色图例,以现场施工为例,柱状图红色区域表示待安装工单,蓝色区域表示已安装工单,柱状图默认为从左到右进行滚动。

4) 左下角显示各主要指标和辅助指标,各指标间可切换,每个指标都有配置一个基准值,如果当前值大于基准值则当前值显示为红色,指标后有小箭头表示该指标可往下钻取,查看指标明细,没有小箭头的指标无数据钻取功能。

5) 右下角分对指标分地域和时间维度展示,地域维度展示指定地域的下级地域,例如选择全省,则地域下对应各个地市,选择某个地市则对应地市下的区县;时间纬度展示主要是按照开始时间和结束时间进行选择,时间维度下不展示具体的时间刻度,只展示量的刻度,量的刻度可配置。

6) 鼠标移动到维度趋势图上可以看到当前的量(需要移动到对应的柱状上或折线点上),如果时间刻度选择一天,则折线图上只展示一个点。

7) 点击下载按钮可下载当前指标全量明细数据,数据筛选条件为“地域”或者“选择的时间+地域”。

8) 指标数据统计周期默认为 5 分钟。

>>>>系统间业务拉通

对于业务相关的大屏,考虑到要纵向打通业务系统、横向拉通各业务环节,相对复杂一些,需要运维平台和业务系统一起参与、共同建设。在共建过程中,运维平台提供数据采集方案和工具,业务指标展示工具;业务系统提出业务大屏展示要求,业务场景涉及到的业务模块及模块间的关系,业务指标数据源等。

网格配送业务监控大屏

>>>>平台及组件

针对底层平台和公共组件的监控大屏基本属于集成运维平台后开箱即用,比如 JVM、Druid、Zookeeper、RocketMq、Redis、Oracle、主机(CPU/内存)、主机网络等的监控,这些组件的指标采集和展示大屏都已经内置在运维平台产品里面,项目部署的时候只需要修改相应的配置即可。

全息监控内置的 NGINX 组件监控大屏

04 智慧运维平台后续演进思路

智慧运维平台后续演进思路

智慧运维平台产品研发不是一锤子买卖,需要紧跟技术升级、业务演进的脚步,不断对运维能力进行增补和完善以适应各种新生事物出现。

运维,永远在路上。

智慧运维平台之全息监控相关推荐

  1. AR远程协助智慧运维平台解决方案

    1.系统简介 通过运用新兴的智能穿戴设备以及成熟的互联网技术为客户综合打造一款可穿戴式的智能远程协助系统,即通过现场工程师与远程专家的语音.视频.AR等技术进行交流,从而提高现场设备维修工程师与后方专 ...

  2. 业务上云后,58到家运维平台的演进之路(含成本规划与监控建议)

    本文根据杨经营老师在[Deeplus直播第216期]线上分享演讲内容整理而成. 杨经营 58到家运维专家 多年互联网运维经验,2015年加入58到家,精通Linux操作系统,见证了58到家运维体系从0 ...

  3. 观2021年公安监控运维项目,察智能运维平台必不可少

    一.2021公安监控运维项目特点 2021年只余下一个小尾巴了,2021年相对2020年来好了很多,无论是疫情的遏制,还是项目的机会.12月作为年度冲刺的最后一个月,应该还是有不少项目即将落地.最近趁 ...

  4. 京东数据库智能运维平台建设之路

    运维自动化来源于工作中的痛点,京东数据库团队面对的是商城成千上万的研发工程师,这种压力推动我们不断变革,然而变革不是一蹴而就,也经历过从手工到脚本化.自动化.平台化.智能化的艰难转变,所以说是需求在驱 ...

  5. 开源版本_TDengine开源版本在电力运维平台的应用

    小 T 导读:上海嘉柒智能科技有限公司致力于电力行业线下线上一体化运维,为此提供整体解决方案.业务包含电力运维,智慧路灯,隧道一体化等.其电力运维平台数据库使用的是TDengine,采用TDengin ...

  6. 企业级IT运维平台的发展趋势与规划要点

    在IT运维平台建设中常见四个阶段,发现IT运维平台与我们社会生产发展阶段居然有着极其相似的地方,大致分别对应为IT运维的"农耕时代"."工业时代"." ...

  7. 小米自动化运维平台演进设计思路

    嘉宾 | 孙寅 编辑 | 张婵 小米自动化运维平台建设大致分为三个时期,整体建设的规划比较清晰,能够一以贯之.本文介绍了小米自动化运维平台的演进思路. 现如今,随着云计算和分布式的落地和发展,越来越多 ...

  8. Apsara Stack 技术百科 | 浅谈阿里云混合云新一代运维平台演进与实践

    简介:随着企业业务规模扩大和复杂化及云计算.大数据等技术的不断发展,大量传统企业希望用上云来加速其数字化转型,以获得虚拟化.软件化.服务化.平台化的红利.在这个过程中,因为软件资产规模持续增大而导致的 ...

  9. AI和大数据结合,智能运维平台助力流利说提升核心竞争力

    简介: 简介:本文整理自数智创新行--智能运维专场(上海站),流利说最佳实践演讲:<基于SLS千万级在线教育平台统一监控运营实践> 作者: 孙文杰 流利说运维总监 元乙 阿里云智能技术专家 ...

  10. 一站式云原生智能告警运维平台——SLS新版告警发布!

    简介: 本文介绍什么是云原生可观测性需求以及告警限制,介绍一站式云原生智能告警运维平台--SLS新版告警. 前言 本篇是SLS新版告警系列宣传与培训的第一篇,后续我们会推出20+系列直播与实战培训视频 ...

最新文章

  1. Kotlin for Android
  2. python ocr中文识别库 tesseract安装及问题处理
  3. 前端性能优化—js代码打包
  4. Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器
  5. AAAI2021论文合集汇总!(持续更新)
  6. 几个常见的 slice 错误
  7. [计组]寄存器和存储器的区别
  8. c# 利用AForge和百度AI开发实时人脸识别
  9. DevExpress v18.1新版亮点——WPF篇(五)
  10. huffman树_笃学不倦|c语言构造哈夫曼树哈夫曼编码
  11. linux网络编程 华清,Linux网络编程之套接字
  12. 【转】TeXmacs:一个真正“所见即所得”的排版系统
  13. jdk 反汇编工具—— javap
  14. Kafka配置4--Windows下配置Kafka的SSL证书
  15. 从零基础入门Tensorflow2.0 ----七、35. 文本生成之---1.数据处理
  16. 浙江理工考研c语言程序设计,浙江理工大学C程序设计期末试卷A卷
  17. 8 个经典的 HTML5 游戏及源码
  18. IIS5.1完整安装包使用指南(详解版)
  19. android tf卡及u盘_android8.1系统修改第三方app无法读写U盘或者内部SD卡的问题
  20. 关于Linux下C语言编程execvp函数的一个问题

热门文章

  1. 《Two-Archive Evolutionary Algorithm for Constrained Multiobjective Optimization》阅读笔记
  2. 陈晨-证券交易系统架构设计_挑战与实施经验分享
  3. 手机APP开发常用工具有哪些
  4. Python的seek函数
  5. java+rabbitMQ实现一对一聊天
  6. c语言窗体编辑框框函数,请教:下面c语言是创建口的小程序,函数MessageBox(NULL,,,,MB_OK);中的4个参数各起什么作用?...
  7. 使用 HTML、CSS 和 JS 的简单倒数计时器
  8. 深度清理电脑垃圾软件 如何深度清理电脑垃圾
  9. S3-s3cmd命令行工具使用
  10. Python个性化定制二维码之 qrcode