对于互联网公司来说,系统复杂化导致的人工运维成本激增已经是普遍现象,采用智能运维是行之有效的应对策略。智能运维的核心思想是利用算法来处理海量运维数据,积累运维经验,从而代替人工思考判断,以自动化的过程实现风险的预防、发现、定位和处理。而智能运维系统是其中的重中之重,但建设企业应用智能运维系统,不是应用运维部独立规划设计就可以完成的,它需要业务、产品、开发、基础设施运维多部门协同才能顺利实施。

那么,作为运维人员,您是否了解智能运维系统的架构?如果参与规划建设智能运维系统,该怎么着手呢?下面我们立足实际需求,对应用智能运维系统的落地方案规划进行简要介绍,希望能给大家一些启发。(*文末有赠书福利)

前期准备

前期准备过程中需要详细地调研,并讨论以下四个需要完成的内容:需求准备、应用准备、人员准备和技术准备。

(1)需求准备:理解企业现有的应用运维过程。

需求准备阶段核心的工作内容是理解企业现有的应用运维过程,定义应用运维场景,并基于实际需求规划建设目标。开展这项工作,首先需要应用运维团队和企业内部负责应用系统开发的产品/项目团队沟通,了解当前应用系统的现状,对应用画像。

在前期沟通工作中,最关键的是对目标用户场景进行梳理,从中找出用户的关键需求点。

另外,需求调研人员要对对标产品有足够深入的理解,能够透彻地分析优势和劣势,并总结目标场景。

图1 典型用户角色需求总结

(2)应用准备:为目标应用的运行状态准确画像。

在应用准备阶段,要做的是对运维目标应用的运行状态进行画像;对应用所处的生命周期阶段、服务目标用户群、用户接入方式和系统架构进行调研;通过定性和定量分析方法找到应用特点,制定与其匹配的运维智能化策略。

(3)人员准备:组建技术和管理专家团队。

在通常情况下,制定应用智能运维系统建设的验收目标,需要进行需求调研的目标团队主要有:应用运维团队,其主要关注日常应用的稳定性、性能保障;产品/项目团队,其主要对上线系统的代码问题进行定位分析;数字运营团队,其关注应用的稳定性、性能对数字营销效果和用户转化率的影响。

图2 应用智能运维系统建设团队的人员角色

(4)技术准备:储备运维智能化的关键技术。

落地智能化的运维算法难度较大,解决实际应用场景问题,要求应用运维团队不但要有应用性能工程、APM、应用链路追踪、日志分析等传统运维技术,还要有大数据存储、索引、清洗、统计等方面的经验,能够熟练使用机器学习和人工智能算法。企业需要在建设前期积累的技术能力如图3。

图3  应用智能运维的关键技术

设计规划

(1)围绕运维现状,规划建设愿景。

做好了需求、应用、人员和技术的准备,就可以围绕企业当前的运维现状,规划设计应用智能运维系统的建设目标和愿景了。行业、规模和经营模式的差别导致企业运维模式大相径庭。充分考虑企业当前的运维现状、应用系统状态和目标用户特点,制订分阶段可行的目标愿景,可以大幅度提高系统建设成功的概率。

(2)多部门协作,规划服务质量目标。

对于依赖信息系统直接面向用户提供服务的企业,服务质量目标(SLO)是运维、运营、开发等多部门关注的关键KPI。运维部门要通过SLO判断故障的严重程度,以及是否需要立即介入;运营部门要依据SLO判断数字营销效果是否会受应用稳定性的影响,分析用户转化率与应用性能之间的关系,需要提出对SLO的保障要求;开发部门则要根据SLO量化监控的需要,提供应用程序监控埋点,获取对应业务流程的点击次数、请求响应时间等指标的支持。

(3)制订监控策略,设计SLO计算算法。

制订SLO,首先要考虑相关指标的量化,并且找到聚合计算需要的原始监控指标,否则就需要人工统计计算。其次,对真实用户访问过程进行被动监控追踪。有了原始监控指标,还需要根据经验设计对应的SLO聚合计算算法,并在上线运行过程中不断修正和调整,这样才能适应真正监控的需要。

(4)专注过程,规划有效的风险管理机制。

运维的关键任务是管理风险,管理风险是关联工具、数据和人的过程。在实践过程中,过程经常采用自动化工作流管理工具。

图4  IT运维阶段及能力层级模型

概念验证

不同于CMDB、ITOM、APM等系统建设有成熟的工具平台和方法学指导,应用智能运维系统建设更贴近用户和应用场景,数据采集、存储和使用人工智能算法解决问题都可能需要针对具体需求定制,很难做到标准化。加上当前数字信息技术的演进速度加快,互联网应用的迭代更新也随之加速,导致对应用运维保障需求的变化更加频繁。因此,应用智能运维系统建设需要基于高度开放、容易扩展且能力相对完备的数据采集、存储分析和展现平台来开展概念验证,然后基于验证结果,结合实际需要制订实施计划。

图5应用全景监控可视化仪表盘的体系结构

以上就是规划应用智能运维系统落地的大概流程,更多细节及更多智能运维经验干货,尽在《应用智能运维实践》,运维大咖带你高效做运维。

看完本文,对于智能运维你有什么想说的?

欢迎在评论区留言

我们将在3 月 12 日精选出 3 条优质留言

赠送《应用智能运维实践》纸质书籍一本哦!

赠书 | 十年运维经验总结出的智能运维系统落地方案,不得不赞相关推荐

  1. 老杨说运维 | 2023,浅谈智能运维趋势(二)

    (文末附视频,一键观看精彩内容) 前言: 上文提到了智能运维现状中的变化趋势以及 上文提到了智能运维现状中的变化趋势以及过往误区,老杨认为智能运维的体系化建设还需从抓牢数据治理为起点,以终为始做好规划 ...

  2. 北京智和信通受邀出席2022IT运维大会,荣获“2022智能运维星耀榜最具影响力企业”

    9月8日,由IT运维网.<网络安全和信息化>杂志社联合主办的"2022(第十三届)IT运维大会"在北京辽宁大厦成功举办.大会以"智慧先行,运维有术" ...

  3. 老杨说运维 | 2023,浅谈智能运维趋势(三)

    文末附有视频回顾 前言: 在回顾(一)中,老杨提到的智能运维发展趋势中,面对国际化形势不确定的情况,信创部分的比例要求正在递增.作为国家经济发展的新动能,信创发展已步入深水区,智能运维信创化已成为必行 ...

  4. 云呐智能电力运维云平台,电力系统智能运维管理系统

    公司运维人员可远程运维,构建智能运维系统,开发运维管理系统应用,完成电力智能分析.故障预测.智能巡视.智能派单.配电室的运维更加智能合理,具有故障知识库建设的功能,为电力运维公司提供变电站运维云平台. ...

  5. 请写出一个智能排班系统的前端页面

    下面是一个简单的智能排班系统的前端页面示例: 页面顶部: 标题栏:显示系统名称 "智能排班系统" 导航栏:包括首页.员工管理.排班管理等链接 主要内容: 排班表:以日历形式显示每个 ...

  6. 本人32岁,转行做运维经验分享

    32岁,才选择入行做LINUX运维,以前是销售,每天上班基本就是玩,也没有什么追求,记得有一年过春节回家,跟我一起玩大的朋友说月薪上万了,然后我的工资才5K,真心把我打击到了.很自悲. 过完春节,来公 ...

  7. 什么是网络智能运维?如何保障业务7x24小时在线?

    华为推出了网络智能运维方案,一方面,可以实现各类运维数据的可视化:一方面,实现故障快速发现.定位以及恢复:另一方面,提供健康度全面评估.故障预测等智能化能力,实现基于异常检测和风险预测的主动性防护,保 ...

  8. 从国务院机构改革看智能运维行业未来趋势【必示说:第六期】

    近日,十四届全国人大一次会议表决通过了关于国务院机构改革方案的决定.新一轮国务院机构改革作为新一届中央政府运转前奏的惯例,引起政届.学届和社会各界的广泛关注.国务院机构的调整方向往往预示着未来经济模式 ...

  9. ccf 智能运维 裴丹_裴丹:智能运维算法需要工业界

    裴丹:智能运维算法需要工业界 学术界密切合作实现技术突破 ■商灏 清华的计算机系,国内一流,而其智能运维研究,据业内人士透露,近两年已超越美国同行,为世界最顶尖水平.本篇可能是国内财经媒体首次触及此类 ...

最新文章

  1. android 判断横竖屏的方法
  2. 使用管道符在PowerShell中进行各种数据操作
  3. LOL手游超燃测试好评如潮,没拿到资格不用急,期待一手不删档
  4. LeetCode题库第1题 两数之和
  5. python spangt_python怎么爬去spanlt;/span中间标签的内容
  6. java dna框架_DNA (Java代码)
  7. 事件选择WSAEventSelect
  8. I.MX6 gpio-keys driver hacking
  9. SAP License:做系统要关注业务过程
  10. Windows 7 Ultimate + Ubuntu 12.04 LTS双系统完美走起
  11. 深入理解redis复制原理
  12. mysql_fetch_array详解
  13. 手把手教你写一个RPC
  14. Turbo编码原理及基本概念
  15. EWM 创建包装物料
  16. android平板投屏,安卓手机投屏到平板
  17. 【2023秋招】网易雷火游戏研发工程师笔试
  18. matlab 巴特沃斯滤波器频率响应,巴特沃斯滤波器matlab实现
  19. python输入一个数字n、计算1到n的和_python用户输入一个整数N,计算并输出1到N相加的和,请问这个程序错在哪里了?...
  20. python 破解字体加密实战

热门文章

  1. 字节提出TRT-ViT:面向TensorRT的视觉Transformer,加速显著!
  2. 排查OOM流程,直播界面
  3. 上次的问题解决啦,重新送上Go ORM 单元测试全流程讲解
  4. 键盘突然失灵-解决方法:卸载->重启
  5. 【JAVA】-JAVA简介
  6. Linux性能优化全景指南(建议收藏)
  7. Windows 故障恢复控制台应用详解
  8. jsp+tomcat+mysql配置全过程nbsp;和mys…
  9. Compose 横竖屏切换时状态如何保存?rememberSaveable 实现原理分析
  10. 是时候让你的程序有点春节的味道了