得益于IT外包服务的发达,现在的运维已经不包括搬机器上架、接网线、安装操作系统等基础工作,运维人员一般会从一台已安装好指定版本的操作系统、分配好IP地址和账号的服务器入手,工作范围大致包括:服务器管理(操作系统层面,比如重启、下线)、软件包管理、代码上下线、日志管理和分析、监控(区分系统、业务)和告警、流量管理(分发、转移、降级、限流等),以及一些日常的优化、故障排查等。

随着业务的发展、服务器规模的扩大,才及云化(公有云和混合云)、虚拟化的逐步落实,运维工作就扩展到了容量管理、弹性(自动化)扩缩容、安全管理,以及(引入各种容器、开源框架带来的复杂度提高而导致的)故障分析和定位等范围。

听上去每一类工作都不简单。不过,好在这些领域都有成熟的解决方案、开源软件和系统,运维工作的重点就是如何应用好这些工具来解决问题。

传统的运维工作经过不断发展(服务器规模的不断扩大),大致经历了人工、工具和自动化、平台化和智能运维(AIOps)几个阶段。这里的AIOps不是指Artificial Intelligence for IT Operations,而是指Algorithmic IT Operations(基于Gartner的定义标准)。

基于算法的IT运维,能利用数据和算法提高运维的自动化程度和效率,比如将其用于告警收敛和合并、Root分析、关联分析、容量评估、自动扩缩容等运维工作中。

在Monitoring(监控)、Service Desk(服务台)、Automation(自动化)之上,利用大数据和机器学习持续优化,用机器智能扩展人类的能力极限,这就是智能运维的实质含义。

智能运维具体的落地方式,各团队也都在摸索中,较早见效的是在异常检测、故障分析和定位(有赖于业务系统标准化的推进)等方面的应用。智能运维平台逻辑架构如图所示。

智能运维平台逻辑架构图

智能运维决不是一个跳跃发展的过程,而是一个长期演进的系统,其根基还是运维自动化、监控、数据收集、分析和处理等具体的工程。人们很容易忽略智能运维在工程上的投入,认为只要有算法就可以了,其实工程能力和算法能力在这里同样重要。

智能运维需要解决的问题有:海量数据存储、分析、处理,多维度,多数据源,信息过载,复杂业务模型下的故障定位。这些难题是否会随着智能运维的深入应用而得到一定程度的解决呢?我们会在下一篇文章中逐步展开这些问题,并提供一些解决方案。


本文选自《智能运维:从0搭建大规模分布式AIOps系统》,作者彭冬、朱伟、刘俊等,电子工业出版社2018年7月出版。

本书结合大企业的智能运维实践,全面完整地介绍智能运维的技术体系,让读者更加了解运维技术的现状和发展。同时,帮助运维工程师在一定程度上了解机器学习的常见算法模型,以及如何将它们应用到运维工作中。

图书详情:https://item.jd.com/12403162.html

智能运维(AIOps)时代开启,一文帮你快速了解其定义与发展现状相关推荐

  1. 智能运维AIOps,aiops对比传统运维工具的优势

    在智能化.智能化时代,IT从手工制作到完全自动化,从传统的运维流程管理到智能化."运维智能"这将是行业的发展趋势. 目前,许多用户机房选择传统运维模式.日常运维服务.检查维护工作需 ...

  2. 智能运维AIOps能力成熟度模型

    智能运维AIOps能力成熟度模型 2021年7月5日至16日期间,国际电信联盟第十三研究组(简称ITU-T SG13)召开全体会议,由中国信通院主导的智能运维国际标准由参会代表尚梦宸经过多轮小组会议讨 ...

  3. 值得一看的智能运维AIOps关键核心技术概览

    作者:Neeke Gao,云智慧企业效能高级总监 前言 传统运维管理的人工及被动响应方式,已经无法支撑数字化业务灵活.快速的发展,要靠智能运维(AIOps)能力来获得数据分析和决策支持.而从传统ITO ...

  4. 云呐|智能运维AIOps综合解决方案

    大型金融机构通常有相当多的数据监控和分析系统,运维大数据日增量超过1TB,总数据超过100TB. AIOps平台,集中管理中台架构的运维数据,实时分析. 由于定位,将异常发现和故障控制在几分钟内. 区 ...

  5. AIOps智能运维2018全解析

    AIOps智能运维这个公众号,从2017年7月27日开篇,已经陪伴大家度过了500多天.我们的路走了十八个月,希望技术遍布运维各处:文章每周一篇,每个文字都是呕心沥血:关注屡创新高,感谢却也颇觉欣慰: ...

  6. AIOps智能运维学习资料汇总

    本文转载自GitHub: https://github.com/linjinjin123/awesome-AIOps White Paper <企业级 AIOps 实施建议>白皮书 Cou ...

  7. 云呐|智能运维管理系统平台,可视化运维系统管理

    在智能制造的时代,预测和维护设备的重要性是不言而喻的.因为大数据.云计算.物联网.移动互联网.人工智能等新兴技术的快速发展,基本形成了企业智能运行和维护的技术架构,提升了系统运行水平和设备的健康水平. ...

  8. 什么是网络智能运维?如何保障业务7x24小时在线?

    华为推出了网络智能运维方案,一方面,可以实现各类运维数据的可视化:一方面,实现故障快速发现.定位以及恢复:另一方面,提供健康度全面评估.故障预测等智能化能力,实现基于异常检测和风险预测的主动性防护,保 ...

  9. 擎创动态 | 十天拿下12项信创认证,入选2022智能运维企业TOP50榜单,这个公司到底什么来头

    随着国内金融行业信创发展进入深水区,银行.保险.证券等金融机构越来越重视IT信息系统的国产化建设.数据显示,自2018年以来,我国信创产业规模连续四年上涨,2021年中国信创产业规模达13758.8亿 ...

  10. GAIA:智能运维领域通用公开数据集

    ​​ # 技术黑板报 # 第二期 推荐阅读时长:10min ​ 为了进一步推动智能运维(AIOps)行业产学研协同发展,通过产业实践反哺学术研究,吸引学者共同探索.挖掘.解决AIOps领域问题,云智慧 ...

最新文章

  1. Nginx开启gzip压缩解决react打包文件过大
  2. linux7怎么查看rsync状态,linux – Rsync显示单个文件的进度
  3. CowNew开源-sql解析引擎和cownewsql阶段成果汇报
  4. [SQL基础教程]1-4 SQL 表的创建
  5. DOS 网络命令之 ipconfig
  6. 动手实现一个适用于.NET Core 的诊断工具
  7. Protobuf语言指南
  8. java数组初始化的三种方式
  9. TCMalloc : Thread-Caching Malloc
  10. MacOS如何设置多任务桌面
  11. centos7安装tree命令
  12. 经典怀旧:VirtualBox安装Win95 - 详细图片展示
  13. 概率统计笔记之 “数学期望和方差”
  14. STM32F103的DAC实现播放WAV音乐
  15. MongoDB3.2 - 4.2 新特性解读
  16. 复选框判断是否选中及获取值
  17. jvm原理与性能调优
  18. Android device supports but apk only supports armeabi,x86,x86_64
  19. 网络毕业设计--基于华为ensp防火墙双出口负载拟真实验
  20. Backbone,Bottlenect,Head等术语

热门文章

  1. for XML path 转义
  2. Go_认识golang
  3. VMware 12PRO安装Mac OS X 10.10.5
  4. 读《Node入门》笔记
  5. Eclipse调试时Application XXX is waiting for the debugger to attach的提示
  6. 题目1088:剩下的树(小端快排+大端判断边界)
  7. 记某站被搜索引擎入侵
  8. RocketMQ开发指导之一——RocketMQ简介
  9. python 第一章 基础语法
  10. 操作Zookeeper