对于互联网公司来说,系统复杂化导致的人工运维成本激增已经是普遍现象,采用智能运维是行之有效的应对策略。智能运维的核心思想是利用算法来处理海量运维数据,积累运维经验,从而代替人工思考判断,以自动化的过程实现风险的预防、发现、定位和处理。而智能运维系统是其中的重中之重,但建设企业应用智能运维系统,不是应用运维部独立规划设计就可以完成的,它需要业务、产品、开发、基础设施运维多部门协同才能顺利实施。

因为工作需要不停充电,前阵子买了《应用智能运维实践》这本书,读过之后受益匪浅,书里详细讲解了智能运维系统的架构,分享了规划建设智能运维系统的简要方案,这里做个总结记录,算是写给我自己的阅读笔记,也给大家做个分享~

前期准备

前期准备过程中需要详细地调研,并讨论以下四个需要完成的内容:需求准备、应用准备、人员准备和技术准备。

(1) 需求准备:理解企业现有的应用运维过程。

需求准备阶段核心的工作内容是理解企业现有的应用运维过程,定义应用运维场景,并基于实际需求规划建设目标。开展这项工作,首先需要应用运维团队和企业内部负责应用系统开发的产品/项目团队沟通,了解当前应用系统的现状,对应用画像。

在前期沟通工作中,最关键的是对目标用户场景进行梳理,从中找出用户的关键需求点。

另外,需求调研人员要对对标产品有足够深入的理解,能够透彻地分析优势和劣势,并总结目标场景。

(2) 应用准备:为目标应用的运行状态准确画像。

在应用准备阶段,要做的是对运维目标应用的运行状态进行画像;对应用所处的生命周期阶段、服务目标用户群、用户接入方式和系统架构进行调研;通过定性和定量分析方法找到应用特点,制定与其匹配的运维智能化策略。

(3) 人员准备:组建技术和管理专家团队。

在通常情况下,制定应用智能运维系统建设的验收目标,需要进行需求调研的目标团队主要有:应用运维团队,其主要关注日常应用的稳定性、性能保障;产品/项目团队,其主要对上线系统的代码问题进行定位分析;数字运营团队,其关注应用的稳定性、性能对数字营销效果和用户转化率的影响。

(4) 技术准备:储备运维智能化的关键技术。

落地智能化的运维算法难度较大,解决实际应用场景问题,要求应用运维团队不但要有应用性能工程、APM、应用链路追踪、日志分析等传统运维技术,还要有大数据存储、索引、清洗、统计等方面的经验,能够熟练使用机器学习和人工智能算法。企业需要在建设前期积累的技术能力如图所示。

规划设计

(1) 围绕运维现状,规划建设愿景。

做好了需求、应用、人员和技术的准备,就可以围绕企业当前的运维现状,规划设计应用智能运维系统的建设目标和愿景了。行业、规模和经营模式的差别导致企业运维模式大相径庭。充分考虑企业当前的运维现状、应用系统状态和目标用户特点,制订分阶段可行的目标愿景,可以大幅度提高系统建设成功的概率。

(2) 多部门协作,规划服务质量目标。

对于依赖信息系统直接面向用户提供服务的企业,服务质量目标(SLO)是运维、运营、开发等多部门关注的关键KPI。运维部门要通过SLO判断故障的严重程度,以及是否需要立即介入;运营部门要依据SLO判断数字营销效果是否会受应用稳定性的影响,分析用户转化率与应用性能之间的关系,需要提出对SLO的保障要求;开发部门则要根据SLO量化监控的需要,提供应用程序监控埋点,获取对应业务流程的点击次数、请求响应时间等指标的支持。

(3) 制订监控策略,设计SLO计算算法。

制订SLO,首先要考虑相关指标的量化,并且找到聚合计算需要的原始监控指标,否则就需要人工统计计算。其次,对真实用户访问过程进行被动监控追踪。有了原始监控指标,还需要根据经验设计对应的SLO聚合计算算法,并在上线运行过程中不断修正和调整,这样才能适应真正监控的需要。

(4) 专注过程,规划有效的风险管理机制。

运维的关键任务是管理风险,管理风险是关联工具、数据和人的过程。在实践过程中,过程经常采用自动化工作流管理工具。

概念验证

不同于CMDB、ITOM、APM等系统建设有成熟的工具平台和方法学指导,应用智能运维系统建设更贴近用户和应用场景,数据采集、存储和使用人工智能算法解决问题都可能需要针对具体需求定制,很难做到标准化。加上当前数字信息技术的演进速度加快,互联网应用的迭代更新也随之加速,导致对应用运维保障需求的变化更加频繁。因此,应用智能运维系统建设需要基于高度开放、容易扩展且能力相对完备的数据采集、存储分析和展现平台来开展概念验证,然后基于验证结果,结合实际需要制订实施计划。

以下是从电商平台上下载的详情页O(∩_∩)O哈哈~

读书笔记|智能运维系统落地方案相关推荐

  1. 赠书 | 十年运维经验总结出的智能运维系统落地方案,不得不赞

    对于互联网公司来说,系统复杂化导致的人工运维成本激增已经是普遍现象,采用智能运维是行之有效的应对策略.智能运维的核心思想是利用算法来处理海量运维数据,积累运维经验,从而代替人工思考判断,以自动化的过程 ...

  2. 清华教授解密AIOps:智能运维如何落地?

    随着 AI 技术在各个应用领域的落地及实践,IT 运维也将迎来一个智能化运维的新时代.算法的效率提升了 AIOps 的价值,通过持续学习,智能运维将把运维人员从纷繁复杂的告警和噪音中解放出来. 那么, ...

  3. 中车*IoTDB | 构建城市轨道交通车辆智能运维系统,应对日百万人次客流量

    本文整理自:IoTDB 物联网数据库在城市轨道交通车辆智能运维系统中的应用, 城市轨道交通研究, 2021 原论文作者:姜仕军;徐晓晨;徐燕芬;杜广林 城市轨道交通(以下简称"城轨" ...

  4. 智能运维监管系统终端_城市轨道交通关键设备智能运维系统初步建构

    城市轨道交通中关键设备的诊断和智能运维管理系统可为城市轨道交通关键设备构建预测性维修体系和全员自主维修制度提供全面的技术支持.分析城市轨道交通关键设备智能运维系统的需求及其构建思路,分析结果表明,该系 ...

  5. 【金猿案例展】某大型电机公司——水电机组智能运维系统建设

    昆仑数据案例 本项目由昆仑数据投递并参与"数据猿年度金猿策划活动--2021大数据产业创新服务企业榜单及奖项"评选. 数据智能产业创新服务媒体 --聚焦数智 · 改变商业 水力发电 ...

  6. 上海轨道交通车辆智能运维系统: 大数据+人工智能科技解决方案解决地铁运维新难题 |百万人学AI评选

    2020 无疑是特殊的一年,而 AI 在开年的这场"战疫"中表现出了惊人的力量.站在"新十年"的起点上,CSDN[百万人学AI]评选活动正式启动.本届评选活动在 ...

  7. 储留香:一个智能运维系统就是一个中枢神经系统,我说的!

    简介: 运维系统可以像神经系统一样,首先,做到数据的统一汇总:其次,可以对数据进行识别筛选输出有效信息:再次,可以预先感知到异常风险,并进行有效规避.而日志服务SLS凭借出色的数据统一采集.智能分析告 ...

  8. 运维-系统监控方案:基于Grafana的TDengine零依赖监控解决方案

    作为基础组件,TDengine本身的平稳运行至关重要,所以在实际应用过程中,我们也需要监控它的各项运行指标. TDengine启动后,会自动创建一个监测数据库log ,并自动将服务器的CPU.内存.硬 ...

  9. 智能运维监管系统终端_智能运维系列(十三)| 面向智能化运维的CMDB系统构建...

    经过两年多的努力,在 2020 年微众银行智能化运维建设终于取得了明显成效,在智能监控领域的异常识别及根因定位方面发挥了巨大作用,甚至可以做到了秒级异常发现与定位.CMDB 系统(配置管理平台 Con ...

  10. 智能运维监控管理平台技术方案

    目 录 1 项目概况 7 1.1 项目背景 7 2 现状概述 7 2.1 当前现状分析 7 2.2 当前面临的运维问题 7 3 需求分析 8 3.1 传统运维工具局限性 8 3.2 具体需求分析 8 ...

最新文章

  1. 用 .Net WebBrowser 控件获取POST数据
  2. c程序设计语言 练习1-6,C程序设计语言:第一章练习
  3. 读完这10本书,“大数据”对你来说,或许就是小菜一碟
  4. docker 虚拟化_如果没有虚拟化,Docker将提供什么?
  5. leetcode探索哈希表(一)
  6. kubernetes [ERROR Swap]: running with swap on is not supported. Please disable swap
  7. 安装服务器系统提示加载驱动程序,启动sqlserver服务时,总是出现“系统错误(126),指定驱动程序无法加载,...
  8. AcrelEMS-IDC综合能效管理系统在某大型数据中心的应用方案
  9. canvas绘制图片时宽高2倍
  10. 数位板软件测试工资,一位强迫症患者对板子的深度剖析,绘王H950P数位板测评...
  11. NeuSE: A Neural Snapshot Ensemble Method for Collaborative Filtering(阅读论文笔记)
  12. 30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述
  13. I/O流(万流齐发、万流归宗) 本章目标: 掌握 讲  解:★★★★★ http://kuaibao.qq.com/s/20200527A0LR3000?refer=spider 1.I/O流概
  14. 2022年玻璃包装容器行业市场发展环境分析预测及下游需求规模增长率研究预测
  15. hihocode——#1498 : Diligent Robots
  16. mysql error1205 博客_mysql主从复制Error1205
  17. linux 内存容量换算,Hi3516A开发--内存换算
  18. 雷库兹韦尔量子计算机,人物 | 他说,再挺11年,送你长生不老,要不要?
  19. JS的重绘(repaints)和重排(reflows)
  20. 产品经理02_竞品分析

热门文章

  1. 数据库常用的sql语句大全--sql
  2. 小区物业管理系统--数据库应用开发
  3. .Net Frame安装心得
  4. 说说命令提示符:tcping命令、tcp协议和ping命令
  5. LSD-SLAM笔记之DepthMap
  6. 吴恩达机器学习入门(配合吴恩达机器学习视频篇)
  7. 人工智能专业就业有哪些岗位方向
  8. Dism++ 一款传说中的系统工具,使用简介
  9. up能不能应急启动计算机,启动盘 提升电脑的性能
  10. Qt QDialog简介