近年来,企业业务规模的急剧上升,导致运维场景的复杂性也呈指数性上升,原本依靠人工经验的运维工作难度也变得更具有挑战性,而基于机器学习的智能运维(AIOps)开始得到企业 IT 人员的关注。

AIOps(Algorithmic IT operations platforms),即基于算法的 IT 运维平台,也是 DevOps 未来发展的一个趋势。简言之,AIOps 将机器学习算法引入运维中的监控和故障分析领域,如通过算法、建模、推理等方法,以辅助 DevOps 提升效率,降低业务及系统出现的风险故障系数。我们发现,常见的如时间序列异常检测、故障根因分析、业务调度等工作均是当下运维人员所面临的挑战。

那么,智能化运维(AIOps)如何在真实业务场景中落地?Gartner 为用户指出了三点建议:

一是通过增量方法确保成功部署 AIOps 的各项功能。

二是选择能够支持广泛的历史和流数据类型的 AIOps 平台。

三是选择能够在 IT 运营导向的分析和机器学习的四个阶段系统进步的工具。

为此,我们整理了Gartner 最新公布的 《AIOps 平台市场指南》,以帮助用户快速了解当前新兴 AIOps 市场情况。

主要发现

  1. AIOps 在企业 IT 运营中的应用正逐渐升温,其中,一些更为成熟的组织则正利用该技术为企业领导者提供洞察力。

  2. AIOps 技能和 IT 运营成熟度是确保其快速实现价值的常见因素,此外,数据质量成为更为成熟部署架构时的新挑战。

  3. 企业采用 AIOps 平台以增强应用性能监测工具(APM)和网络性能检测与诊断工具(NPMD)。

  4. 供应商正制定使用机器学习的战略,以分析 IT 运营在数量、种类及速度等方面遇到的数据挑战。与此同时,他们也在构建数据存储和人工智能实践定制化的能力。

定义

AIOps 平台利用大数据和机器学习,通过可扩展性和对不断增长的数据进行分析,以达到对所有主流 IT 操作功能的支持。该平台支持同时使用多个数据源、数据收集方法以及分析和演示技术。

AIOps 可以增强广泛的 IT 运营流程和任务,包括性能分析、异常检测、事件关联和分析、IT 服务管理和自动化。其核心功能包括:

  1. 从多个数据源中获取数据

  2. 数据分析:获取数据时的实时分析;存储数据时的历史分析

  3. 提供对数据的访问

  4. 使用机器学习

  5. 根据分析结果进行下一步操作。(注意:分析是为了用于预测可能发生的事件,并及时回顾以确定引发当前系统行为的根本原因。)

市场分析

迄今为止,很少有供应商能提供全面、集成化的 AIOps 平台。然而,许多供应商提供了广泛且可内置集成的 AIOps 功能。为更清楚描述市场发展及供应商所处水平,Gartner 将当前可用的 AIOps 功能划分为数据管理和分析结果两大部分:

数据获取与处理

历史和流数据管理——软件或设备允许数据获取、索引,以及存储日志数据、互联网数据、指标、文档数据,由此产生的数据库大部分是非结构化或多结构化的,而存储的数据集以高容量累积,以高速变化的格式构建。这种历史数据管理功能可被称之为 “大数据管理”。

为了给 IT 运营人员提供帮助,这种工具必须将人类感知的数据以时间尺度呈现,并直接提供数据无需访问存储数据库。此外,它必须跨多个实时和历史数据流提供连贯的分析。

分析结果

  • 基础及高级统计分析——单变量和多变量分析组合,包括相关性、聚类、分类和推断的使用。

  • 模式发现及预测自动化——使用上述一种或多种类型的历史数据或流数据,以引出可从数据集本身推断但不立即存在相关性的数学或结构模式。这些模式可用来及时执行不同概率的事件预测。

  • 异常检测——先确定正常系统行为,再辨别出与正常系统行为的偏差。

  • 确定根本原因——对由模式发现和预测自动化组件建立的相关性网络进一步修正,以隔离代表真正因果关系的依赖性连接,从而提供有效干预。

  • 规定性建议——对问题进行分类,将其分类为已知类别。然后,挖掘先前解决方案,分析这些解决方案的适用性并以优先级形式让其以用于修改。最终,这些将使用闭环方法,并在使用后对其有效性进行投票。

  • 拓扑——对于 AIOps 检测到的相关且可操作的模式,必须围绕所获取的数据,形成的即为拓扑。使用拓扑作为因果关系确定的一部分可以大大提高其准确性和有效性。

发展方向

在过去二十年里,人工智能技术间歇性地影响了 ITOM 的发展,而 AIOps 平台只是这种影响的最新例证。IT 运营一方面受到成本降低的压力,同时又增加了运营的复杂性。关于后者,可以从数量、种类、速度三个维度进行定义:

数量,IT 基础架构和应用程序产生的数据量快速增长(每年增长 2 至 3 倍);

种类,机器和人生成的数据种类越来越多,如指标、日志、网络真实数据(wire data)、知识管理文档;

由于采用了云原生或其他架构,数据生成速度不断提高,IT 架构也在不断变化。

考虑到现代企业所需的洞察力,以上不同维度的运营复杂性带来的成本是非常高的。在处理大量、多样化且快速增长的数据时,现有的监控工具承受了不少压力。更重要的是,监控工具不会跨平台挖掘其他多种数据,特别是用户的情感数据、业务交易数据、传感器遥测以及各种系统的日志,以获得更多洞察。

为此,非 IT 团队如业务 Leader 和 IT 运营团队,对 AIOps 技术产生了越来越浓厚的兴趣。正如他们探索正探索的通用平台,其部署时最大的问题在于IT运营实现不同用例时的 AIOps 平台的性能和成熟度。

迄今为止,AIOps 主要用于支持 IT 操作流程,以便监控或观测 IT 基础架构、应用程序表现或数字体验。此外,无论是采用机器学习对事件管理环境中的重复数据进行删除,还是在APM中结合基于字节码检测的分布式跟踪数据来分析应用程序的日志数据,这都是合理的。

AIOps 平台正扩展其能够获取的数据种类的范围。在过去,供应商仅支持提供日志数据,而现在,数据种类已延伸到互联网真实数据。

因此,考虑到供需方面的趋势和技术差异,Gartner 预计,在未来五年内,AIOps 平台将成为 AIOps 功能交付最为广泛的形式,而不是仅仅将 AIOps 功能嵌入 APM、NPMD、ITIM 等监测工具中。

与此同时,IT 组织也开始在 DevOps 环境中探索这种方式,以预测部署前的潜在问题并监测潜在的安全问题。

Gartner 认为,AIOps 将会演变成双向解决方案,不仅可以获取数据进行分析,还可以根据分析启动操作。这些操作最有可能通过与其他 ITOM/ITSM 工具集成,将采取多种形式,包括:

  • 警报

  • 问题分类

  • 配置管理数据库(CMDB)

  • 日志运行自动化

  • 应用程序发布编排

AIOps 工具在监控的四个阶段:数据采集、聚合、分析、行动,具有数据聚合和分析的核心功能。目前一些企业用户利用开源技术进行数据采集,从而绕过 APM 并使用 AIOps 作为监控功能的主要方式。

可以看到,关于监控工具与 AIOps 的争论才刚刚开始。从长远来看,APM 将主要应用于专用领域,而 AIOps 将适用于更为广泛的 IT 运营场景。

未来

随着市场的发展,Gartner 还观察到 AIOps 功能的一些主要变化:

一是提供与数据源无关的 AIOps 平台的供应商进入市场。这些产品往往是通用的,可满足最为广泛的使用案例。

二是具有关键组件但数据源往往受限的供应商,他们通常专注于一个域(如网络、端点系统、APM)。这些工具往往只有一组有限的用例,针对于某些IT运营部门。

三是一些供应商现有的监控解决方案将数据源限制在自己的监控产品中,或扩展到有限的合作伙伴。

四是一些用户通过开源项目能够通过提供数据获取的工具、大数据平台、机器学习、可视化技术来组装自己的 AIOps 平台,最终可混合或匹配多个供应商的组件。

目前,市场中存在一种声音:AIOps 是否会取代 APM、NPMD、ITIM、DEM 为主的以域为中心的监控工具?其实,

这是一种混淆。AIOps 不会取代监控工具,相反,它增强了分析能力和更具可操作性的数据。以域为中心的监控工具将继续存在,为专家提供其域的数据获取、分析和可视化。只不过,数据将流转到 AIOps 平台,该平台充当的是一个将数据集中到连贯跨域分析的作用。

来源:雷锋网

原文:https://tinyurl.com/y2y6qf8b

题图:来自谷歌图片搜索

版权:本文版权归原作者所有

投稿:欢迎投稿,邮箱: editor@hi-linux.com

你可能还喜欢

点击下方图片即可阅读

5 分钟玩转史上最强大的自动发布工具 GitHub Actions

用上这门黑科技,运维从此不背锅!相关推荐

  1. OSChina 周六乱弹 —— 运维狗的背锅日常

    2019独角兽企业重金招聘Python工程师标准>>> Osc乱弹歌单(2017)请戳(这里) [今日歌曲] @冬天之雪  :@小小编辑 好久没给你发过歌了,因为竟然还有这么特别的音 ...

  2. 让这家有12万名员工、1.7万种产品的钢铁厂平滑上云的黑科技是什么?

    2020年8月里一个再平常不过的双休周末,河钢集团供应链五大核心业务系统悄然迁移到了华为云上.接下来是一个繁忙而平静的周一,河钢集团的业务人员根本无法从业务系统的使用中,体会到些许异样.只有华为云与河 ...

  3. it招聘上说熟悉linux系统,运维入门:细说Linux,做IT必看

    原标题:运维入门:细说Linux,做IT必看 Linux进程和系统.任务管理 一.基本概念 程序:一组指令的集合 进程:程序的具体实现,执行程序的具体过程 子进程调用:fork-and-exec流程: ...

  4. 亚信科技运维实习生(笔试)

    感觉还行,最起码还能做 文章目录 数据库部分 1.使用内部连接和外部连接,连接条件可以使用聚合函数吗? 左连接.右连接.内连接 聚合函数 2.含有分组视图(使用GROUP BY和having)可以进行 ...

  5. 小米科技-运维工程师-面试经验

    小米面经一(运维工程师) 小米笔试好像是19笔试,在谈面试之前,我先给大家说一下小米笔试的笔试题有哪些吧.小米运维也有编程题的,刚开始我以为没有编程题,后来一座笔试,心都凉了,三道编程题呀.第一题是判 ...

  6. 史上最全的sqlserver运维分析工具,汇总都在这里了,适合sqlserver的dba人员

    比较常用的sqlserver运维分析语句 SELECT TOP 2000 ST.text AS '执行的SQL语句',QS.execution_count AS '执行次数',QS.total_ela ...

  7. 服务器运维系统哪个好用,可以说宝塔是史上最好用的服务器运维控制面板

    一.宝塔简介 宝塔,让运维简单高效.面板支持Linux与Windows系统. 一键配置:LAMP/LNMP.网站.数据库.FTP.SSL,通过Web端轻松管理服务器. 二.官方注册 三.宝塔优势 1. ...

  8. 史上最全数据中心运维工具清单!

    一.测量仪器仪表 1    电子显示试电笔 2    万用表 3    兆欧表 4    钳形电流表 5    相序表 6    热成像仪 7    红外线测温仪 8    温湿度测量仪 9    电 ...

  9. 地铁WIFI值28亿?运营商终于不用背锅了

    据说,一家地铁WiFi运营商上市了,价值28亿,仅仅是计划在上海.广州.深圳等7个城市的地铁上,向乘客提供免费WiFi信号. 运营WIFI能挣钱?好像以前也有过不少的尝试,甚至还得到过大资本的青睐,但 ...

最新文章

  1. 双11背后的技术力量,阿里云神龙治愈云计算阿克琉斯之踵
  2. SQL server的with的用法(一)
  3. [Golang] struct Tag说明
  4. Debian7 apt源设置
  5. idea中使用osgi_OSGi环境中的Servlet基本身份验证
  6. java join yield_Java多线程中join、yield、sleep方法详解
  7. 小米这个系列绝了!7款之后再添新机,完全分不清
  8. jsp页面播放服务器视频
  9. C++ lock 加锁,解锁
  10. 一个比较隐蔽热门的微信解封项目
  11. laravel 30分站搭建迷你博客
  12. s数据结构替换子表java版,数据结构(Java版)-习题解答与实验指导
  13. 提高系统开发效率的“银弹”——X-series可视化大规模应用开发工具集
  14. STM32F407使用SPI读写SD TF卡(不能读取 会卡死)
  15. 51nod题解 1006 最长公共子序列LCS
  16. 安卓开发:使用手机拍照功能
  17. 安全审计与安全管理平台的区别与联系
  18. PHP 是最好的语言吗?
  19. 7.计算机病毒损坏某些硬件,区别计算机病毒与故障
  20. Spring Boot Maven聚合工程 打包部署教程

热门文章

  1. SQL数据库的组合查询和统计查询
  2. winform textbox行间距调整
  3. 用Windows live writer在blogbus写博客
  4. 公司担心 DDoS 攻击对客户的挫败感和品牌损害
  5. 使用layui做数据表格使用下拉菜单并实现删除功能和时间选择器
  6. 医疗项目 开源_开源医疗IT的未来
  7. 示例代码-Matlab绘制高斯分布曲面图(1)
  8. 在华清远见学习嵌入式开发的总结
  9. jQuery 用click() 失效,不起作用,直接父级使用on事件委托不好使
  10. 京东推了两款无人店产品,是“狼来了”还是“纸老虎”?