作者 | WenasWei

一 AIOps智能运维

早在2016年之前,著名IT研究机构Gartner在其词库就添加了AIOps1这一词条,彼时AIOps是Algorithmic IT Operations的缩写,按照字面理解,AIOps是一种基于算法的运维方式。

清华大学裴丹教授对AIOps的定义是:AIOps将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。AIOps 不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据中不断地学习,不断地提炼并总结规则。

智能运维(AIOps),根据 Gartner 的最新阐释,意指整合大数据和机器学习能力,通过松耦合、可扩展方式去提取和分析数据量(volume)、种类(variety)和速度(velocity)这三个维度不断增长的 IT 数据,进而为 IT 运维管理产品提供支撑。

云智慧: AIOps与其说是产品,不如说是一种理念和策略。通过以数据为基础、算法为支撑,场景为导向的AIOps平台,为企业现有运维管理工具和管理体系赋予统一数据管控能力和智能化数据分析能力,全面提升运维管理效率。现阶段AIOps的目标不是NoOps,而是BetterOps,通过更高效的运维帮助企业快速洞察人力难以企及的故障和问题,准确预测风险,化被动运维为主动运维。

二 AIOps智能运维的出现

在过去二十年里,人工智能技术的发展间歇性影响了ITOM2的进步,而AIOps只是这种影响的最新例证。因此,对于传统企业来说,智能运维并不是一个全新的理念,而是IT运营分析/运维管理(ITOA3/ITOM)体系与大数据和人工智能技术结合的产物。AIOps智能运维平台以ITOM/ITOA系统所采集的运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深入分析,涵盖IT监控,应用性能管理、外网监控、日志分析,系统安全等方面。

通过如下一张图就可以看到运维发展的几个阶段,早期的手工运维,到流程化、标准化运维,再到平台化、自动化运维,最后到近十年的 DevOps4(研发运营一体化)和 AIOps(智能运维)。

市面上流行的ITOM平台,其核心组件缺少大数据采集、分析和机器学习的能力,需要AIOps平台予以完善。AIOps智能运维平台能够接入不同业务系统、监控系统、管理系统的海量IT数据,并运用各种算法进行快速分析、学习甚至预测。立足于AIOps,IT部门可以获得强大的IT决策和运营管理能力,并能对业务质量和用户体验进行准确检测和持续优化。

三 AIOps智能运维构建

3.1 AIOps能力

AIOps平台主要通过整合分析IT基础设施、APM5、NPM6、日志、数字化体验监测数据,来提升IT运维流程的效率,而AIOps平台能力的ROI多是基于平均故障接手时间(MTTA)和平均故障修复(MTTR)时间这两个指标的降低进行评估的。

目前 AIOps 的主要应用场景有异常告警、告警收敛、故障分析、趋势预测、异常检测、根因分析等

现阶段,数字化转型的IT挑战在于一方面要控制IT成本,另一方面又要提供支持更高复杂度的运维管理能力。传统ITOM产品在处理海量、多种类和高速数据时常常会遇到极大的压力。更重要的是,这些监控工具无法提供横向业务追踪和根因定位所需的多系统数据。

数字化业务要求IT运维提供更快的响应速度和更高的处理效率,因此AIOps智能运维平台需要提供如下能力:

  • 提供独立、开放的历史/实时数据采集、算法分析平台,整合IT数据和业务指标数据;
  • 提供告警消噪(包括告警抑制、告警收敛等),消除误报或冗余事件;
  • 提供跨系统追踪和关联分析,有效进行故障的根因分析;
  • 设定动态基线捕获超出静态阈值的异常,实现单/多指标异常检测;
  • 根据机器学习结果,预测未来事件,防止潜在的故障;
  • 直接或通过集成启动解决问题的动作;

AIOps将基于自动化运维,将AI和运维很好地结合起来,这个过程需要三方面的知识:

  • 行业、业务领域知识,跟业务特点相关的知识经验积累,熟悉生产实践中的难题。
  • 运维领域知识,如指标监控、异常检测、故障发现、故障止损、成本优化、容量规划和性能调优等。
  • 算法、机器学习知识,把实际问题转化为算法问题,常用算法包括如聚类、决策树、卷积神经网络等。

AIOps具体的能力框架如下所示:

3.2 团队建设

AIOps团队内部人员根据职能可分为三类团队,分别为SRE团队、开发工程师(稳定性保障方向)团队和算法工程师团队,他们在AIOps相关工作中分别扮演不同的角色,三者缺一不可。

  • SRE能从业务的技术运营中,提炼出智能化的需求点,在开发实施前能够考虑好需求方案,产品上线后能对产品数据进行持续的运营。
  • 开发工程师负责进行平台相关功能和模块的开发,以降低用户的使用门槛,提升用户的使用效率,根据企业AIOps程度和能力的不同,运维自动化平台开发和运维数据平台开发的权重不同,在工程落地上能够考虑好健壮性、鲁棒性、扩展性等,合理拆分任务,保障成果落地。
  • 算法工程师则针对来自于SRE的需求进行理解和梳理,对业界方案、相关论文、算法进行调研和尝试,完成最终算法落地方案的输出工作,并不断迭代优化。

各团队之间的关系图如下所示:

四 AIOps演变路线

在质量保障方面的诉求最迫切,服务运维部先从故障管理领域探索AIOps实践。在故障管理体系中,从故障开始到结束主要有四大核心能力,即故障发现、告警触达、故障定位、故障恢复。故障发现包含了指标预测、异常检测和故障预测等方面,主要目标是能及时、准确地发现故障;告警触达包含了告警事件的收敛、聚合和抑制,主要目标是降噪聚合,减少干扰;故障定位包含了数据收集、根因分析、关联分析、智能分析等,主要目标是能及时、精准地定位故障根因;故障恢复部分包含了流量切换、预案、降级等,主要目标是及时恢复故障,减少业务损失。

故障管理体系核心能力关系图:

其中在故障管理智能化的过程中,故障发现作为故障管理中最开始的一环,在当前海量指标场景下,自动发现故障和自动异常检测的需求甚为迫切,能极大地简化研发策略配置成本,提高告警的准确率,减少告警风暴和误告,从而提高研发的效率。除此之外,时序数据异常检测其实是基础能力,在后续告警触达、故障定位和故障恢复环节中,存在大量指标需要进行异常检测。所以将故障发现作为当前重点探索目标,解决当前海量数据场景下人工配置和运营告警策略、告警风暴和准确率不高的核心痛点。

整个AIOps体系的探索和演进路线如下图所示。每个环节均有独立的产品演进,故障发现-Horae(美团服务运维部与交易系统平台部共建项目)、告警触达-告警中心、故障定位-雷达、故障恢复-雷达预案。

参考文档:

  • [1] zsfruyi.个人图书馆: http://www.360doc.com/content/19/0418/18/29088297_829711343.shtml ,2019-04-18.
  • [2] 王雅琪
    ,陈思.智能运维系列(一)| AIOps 的崛起与实践: https://www.infoq.cn/article/fqUfkjhecOla1zKUKycN ,2020-6-24
  • [3] 胡原,锦冬,俊峰,长伟,永强.AIOps在美团的探索与实践——故障发现篇:https://tech.meituan.com/2020/10/15/mt-aiops-horae.html ,2020-10-15

  1. AIOps: 智能运维, Algorithmic IT Operations ↩︎

  2. ITOM: 运维管理, IT Operation Management ↩︎

  3. ITOA: IT运营分析, IT Operations Analytics ↩︎

  4. DevOps: 研发运营一体化, Development和Operations ↩︎

  5. APM: 应用性能管理, Application Performance Management ↩︎

  6. NPM: 网管系统, Network Performance Management ↩︎

带你认识AIOps智能运维相关推荐

  1. AIOps智能运维2018全解析

    AIOps智能运维这个公众号,从2017年7月27日开篇,已经陪伴大家度过了500多天.我们的路走了十八个月,希望技术遍布运维各处:文章每周一篇,每个文字都是呕心沥血:关注屡创新高,感谢却也颇觉欣慰: ...

  2. AIOps智能运维学习资料汇总

    本文转载自GitHub: https://github.com/linjinjin123/awesome-AIOps White Paper <企业级 AIOps 实施建议>白皮书 Cou ...

  3. SLO、SLI、SLA是什么?【AIOps智能运维的方向会是SLO吗】

    1. SLO.SLI.SLA名词解释以及关系 2. Why SLO? SLO的目的 SLO 量化客户对可靠性的期望,找到客户对服务的可靠性感到满意的点(额外的可靠性价值微乎其微,此时新功能更加重要) ...

  4. 智能运维 | 我们不一样!告诉你百度云如何做智能流量异常检测

    流量,是系统的黄金指标之一,它直观反映系统的运行状态.健康的系统流量通常平稳波动变化,当流量突然上涨或者下降时可能预示系统中存在故障.例如系统的外部网络链路出现故障时,外部用户的访问流量无法到达我们的 ...

  5. 【观察】智能运维从拓荒走向深耕,云智慧领跑的升势和胜势

    申耀的科技观察 读懂科技,赢取未来! 2016年,Gartner首次定义了智能运维(AIOps)的概念,并指出到2022年全球50%的企业将会部署AIOps平台进行数字化转型. 正是对AIOps智能运 ...

  6. 传统负载均衡助力AIOps优化智能运维

    摘要:如今AIOps已经比较火热,然而整个行业仍都处于探索的初级阶段,针对预感未来的运维需求需要通过AI进行解决,如何将传统的IT架构改造成智能运维的架构更值得人们思考.本文主要对传统业务的变化.应用 ...

  7. 智能运维 VS 传统运维|AIOps服务管理解决方案全面梳理

    云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法.算力.数据集整体的服务体系及智能运维业务场景的解决方案交流社区.该社区致力于传播 AIOps 技术,旨在与各行业客户.用户.研究者和 ...

  8. 优维科技加入信通院“AIOps标准工作组”,智能运维之路更进一步

    2018年9月14日,第十届GOPS全球运维大会在上海开幕.优维科技受邀参加了AIOps标准工作组成员单位的授牌仪式.AIOps标准组由中国信息通信研究院旗下云计算开源产业联盟(OSCAR联盟).高效 ...

  9. 智能运维(AIOps)系列之一:个人对智能运维的理解

    前序 本人从事了 5年 的智能运维开发,把这几年的想法和思路在此跟大家分享一下,主要是为了起到抛砖引玉的作用.该序列总共5部分: 智能运维系列之一 - 概述:主要是讲述自己对智能运维的理解: 智能运维 ...

最新文章

  1. hadoop3.2.1和java1.7版本不兼容解决方案(virtualBox下ubuntu环境linux系统)
  2. 数据结构与算法--二叉树第k个大的节点
  3. android客户端下载图片的方法
  4. Node-ES6模块化
  5. 境内银行卡磁条信息格式
  6. 24. jQuery 细节
  7. matlab 输入矩形序列,从python调用Matlab函数:“初始值设定项必须是矩形嵌套序列”...
  8. Python期末考试编程题
  9. 一个三维四翼混沌系统混沌吸引子——MATLAB实现
  10. webworker应用场景_聊聊webWorker
  11. 用户验收测试要求目标
  12. 对称算法与非对称算法
  13. 计算机控制系统生产现场应用,浅析计算机控制系统在工业现场生产中的应用.doc...
  14. 变换模型——仿射变换和透射变换
  15. 《2019腾讯区块链白皮书》全文发布,13次提及Facebook加密项目Libra(附下载)
  16. linux带gui的服务器和gnome,请求指点:Server with GUI 和 GNOME Desktop 的区别是什么?...
  17. 推荐系统-推荐引擎的架构
  18. oracle expense po,ORACLE ERP中PO/INV/AP/GL流程对应那些关键基表、接口表?
  19. flutter 显示表情
  20. android view硬件加速,Android TextureView和硬件加速

热门文章

  1. 视频教程-shiro权限安全管理框架-Java
  2. 全国各地区怎么注册公司????
  3. golang时间戳转换
  4. 一位博士的返乡笔记,深刻入骨!
  5. 数据分析师的职业规划
  6. CSS:margin-right:auto左右边距
  7. jstree文档简介
  8. 请问为什么我的el-input 标签不能设置高度呢?
  9. 支付渠道网关设计2.0版本
  10. 支付渠道对接验签失败