尹元,现任“勤智运维”京津冀区域技术经理,曾大量参与企事业单位运维需求调研与规划工作,在运维监控、流程处理等方面有丰富经验。

人工智能是当下最火爆的前沿技术,是计算机科学最值得期待的一个分支,目的是研制出模仿人类思考逻辑和行动的智能化机器。科研人员尝试用各种方式让机器人替代人类从事不同类型的工作,从最开始的重体力劳动到繁复的精密加工到未来替代人类进行逻辑思考。智能化将大大减轻人的劳动,以最少的人工干预完成复杂的工作。

如果将智能化概念引入运维领域将会发生什么变化呢?我们可以想象一下,用智能化程序代替运维人员,能够在最少的人员干预下使用故障探测技术寻找业务运行中的故障点,发生故障时通过问题分析引擎快速定位故障根源寻找解决方案,并能够自动运行预制脚本与工具尝试进行故障的修复,最后还能够根据暴露出来的问题进行深入的关联分析,找出潜藏的隐患并制定解决预案。智能化运维的终极目标,就是将运维人员从繁琐的工作中解放出来,提高整体运维效率,降低运维成本,实现业务系统的高可用性。

运维环境的异构和复杂化,导致日常运维工作需要付出的人力、时间成本越来越高。2015年智能化运维开始被大家广泛关注,随着大数据分析、APM、智能异常检测、自动学习等技术的兴起和逐渐成熟,运维需求也逐渐向智能化和自动化过渡。从最初级运维发展到现在智能化运维,可以划分为4个阶段:

脚本时代
运维人员通过手工的方式做设备巡检,尝试着用SSH脚本等方式进行系统维护。

工具时代
运维人员使用各厂商推出一些管理工具,通过使用这些运维工具进行系统管理。

平台时代
随着运维工具逐步增多、网络环境异构、信息孤岛逐渐产生等情况,需要一套统一的运维平台将工具进行整合。

智能化时代
异构化环境,对数据分析和自动化的要求越来越高,借助海量的运维数据优化改进当前工作方法,日常工作实现无人值守的机器运维。建立在大数据分析和自动化运维基础上的智能化运维时代。

运维的精细化要求越高,就需要积累更多的能力辅助智能化运维场景和策略,实现更多管理途径的扩展。下面,简单举例来畅想下一步趋势。

在平台化运维系统的基础上,想要进行多系统、多业务的整合,仅仅通过接口远远不够,还需要更加深入的数据关联,模糊业务系统与运维平台之间的边界。

更强大的故障探测能力,能够深入业务多个层次进行故障挖掘,逐层检索业务运行数据,分析业务运行情况,关心业务关键节点,快速发现问题,及时通知运维人员并启动紧急预案。

故障紧急预案针对发现隐患、异常、告警、故障、预测等多种运维场景,并提供相对应的解决预案,可以通过自动或者手动的方式快速执行。

紧急预案失效时可以提供大数据的强力支持,实时分析问题根源与可能的故障隐患,提供更加快速、正确的故障判断能力。同时,提供自动学习的可能,将现在发生的故障场景记录下来生成新的解决预案。

与流程的结合,能够实现整体运维事件的闭环,提供事件的记录、跟踪、处理、反馈等关键节点,保障运维工作高效运行。

以往的简单运维,都是通过相互独立的运维工具或网管软件来实现日常管理,通过不标准的数据和不统一的告警进行人工分析。智能化运维能够将割裂的系统进行整合,并提供标准接口。运维整合,体现在数据的采集、分析、汇总、处理、总结、预案等几个层面。

那么,这些又将如何落地呢?一直从事“一体化智能运维”研究的勤智运维,给出了自己的初步研究成果。

勤智运维以“让运维更智能,让业务更高效”为理念,在业界率先提出基于运维大数据的智能化解决方案,通过OneCenter平台中的ITBA运维大数据分析系统,帮助运维人员预防故障发生和快速解决故障,也可为运维决策提供预测依据。

ITBA运维大数据分析系统是一套可跨平台整合和分析多种业务运维数据的通用性大数据平台。通过对运维过程中每分每秒产生的亿万条海量数据挖掘,它可以获取更多有价值的运维关联信息,从而帮助企事业单位用户找到问题根源和优化改进的关键点。

基于大数据系统的数据采集接入。ITBA运维大数据分析系统内部整合了Hadoop、Speak、Kafka、MongoDB、Solr、Flume等多种大数据架构技术,提供多种类型数据接口的采集方式,实现多平台/多业务的监控、流程等运维工具的数据整合和统一管理。同时,提供对于其他业务平台的数据展现、数据统计、告警分析和业务分析功能,可以将多个系统在门户内进行统一登录展现;也可以与其他系统对接,从第三方系统登录至运维系统平台。

系统提供多种数据接入方式,除传统的数据接口方式接入外,还提供文件批量导入、网络端口同步、数据库脚本抓取、Kafka通道监听等多种便捷的接入方式,也可录入告警数据、性能数据、日志数据、工单数据等不规则格式的动态数据,以实现运维数据的海量存储和集中化检索分析。

通过平台提供的运维操作脚本库,能够在故障发生时自动获取故障设备相关的各项指标数据及指标状态,针对不同类型的告警配置不同的快照以获取脚本和故障恢复脚本,确保相应告警和事件发生时的状态能够详细记录并关联,在必要时能够实现自动恢复、自动化巡检、批量操作作业等运维自动化场景。

运维大数据系统提供构建运维指数评估分析的模型,根据历史数据变化规律,挖掘业务、指标、故障等关联信息,为用户真正建立一套完整的运维数据分析和数据挖掘展现平台。通过运维大数据系统,用户可以轻松管理全网各业务资源状态、告警及运维和资产,并根据数据分析模型了解运维工作整体情况和资源运行使用情况,为用户运维工作优化和IT业务发展提供依据。

在不久的将来,相信通过“勤智运维”及业界的不断努力,终将解放运维人员的双手,告别繁复的操作流程,每个人都能把精力投入到更深领域的研究,喝杯咖啡管理IT。

思考:智能化运维的发展相关推荐

  1. ChinaSoft 论坛巡礼 | 泛在计算时代的智能化运维

    2022年CCF中国软件大会(CCF ChinaSoft 2022)将于2022年11月25-27日在上海国际会议中心举行.预期将有林惠民.陈左宁.邬江兴.何积丰.梅宏.吕建.柴洪峰.王怀民.郑纬民. ...

  2. 2022 CCF中国软件大会(CCF Chinasoft)“泛在计算时代的智能化运维”论坛成功召开...

    2022年11月27日,2022 CCF中国软件大会(CCF ChinaSoft)泛在计算时代的智能化运维论坛成功举办.本次大会由中国计算机学会(CCF)主办,CCF软件工程专委会.系统软件专委会.形 ...

  3. 迈向智能化运维的第二步:自动化运维

    企业数字化转型,科技先行.国际知名咨询机构如麦肯锡.埃森哲.IDC.IBM等,都在解读数字化定义时提及智能化运营.但要实现智能化,我们还有很长的路要走. 运维部门作为企业科技部门的一部分,在信息化时代 ...

  4. 从扁鹊医术看华为数据中心智能化运维之道

    根据典记,魏文王曾求教于名医扁鹊:"你们家兄弟三人,都精于医术,谁医术最好呢?"扁鹊:"大哥最好,二哥差些,我是三人中最差的一个."文王又问:"那为什 ...

  5. 智能运维监管系统终端_智能运维系列(十三)| 面向智能化运维的CMDB系统构建...

    经过两年多的努力,在 2020 年微众银行智能化运维建设终于取得了明显成效,在智能监控领域的异常识别及根因定位方面发挥了巨大作用,甚至可以做到了秒级异常发现与定位.CMDB 系统(配置管理平台 Con ...

  6. 数据中心智能化运维之路

    在新技术层出不穷的今天,数据中心运维工作总是得不到足够的重视.数据中心在不出任何问题的情况下,对运维的工作是持默认态度的,但如果出了一系列问题,付出的工作可能毁于一旦,工作的绩效有点要拼人品的味道.其 ...

  7. 对AIOps智能化运维的基础理解

    AIOps 自从 Gartner 于2016年提出至今已有一段时间,虽然在顶级互联网及电信企业,已有较多落地,但至今仍无基于生产实践的理论体系及实施指南.AIOps,即 Artificial Inte ...

  8. 智能化运维最佳实践-自动化

    伴随着互联网以及大数据时代的到来,IT信息系统已经成为最重要的数据载体和信息来源, IT系统在企业内部的重要性日益突出:但是随着企业信息化程度的提高.IT环境规模的扩大和IT环境复杂度的增加.行业内服 ...

  9. 活动预告 | 智能化软件开发微访谈·第二十一期:可观测性与智能化运维

    CodeWisdom 智能化软件开发沙龙是复旦大学CodeWisdom团队参与组织的专注于代码大数据与智能化软件开发的学术和技术沙龙,面向相关领域的学术界研究者和工业界实践者,通过各种线上和线下交流活 ...

最新文章

  1. 3D惯导Lidar SLAM
  2. 字典占内存大吗_微博热搜稳占第一!「美团大数据杀熟」是真的吗?
  3. Java猿面试_猿灯塔:关于Java面试,你应该准备这些知识点
  4. HA:HADOOP高可用机制
  5. 【题解】Luogu P2147 [SDOI2008]洞穴勘测
  6. Android Studio如何查找和替换
  7. win10系统下第三方软件字体大小调整
  8. 逆向分析CrackMe系列——CrackMe001
  9. docker安装nessus
  10. pandas数据处理
  11. 微信公众平台之模拟登录
  12. 关于(C++)数据结构复数计算器作业的拓展
  13. 行列视(RCV)生产数据应用系统在碳核查工作中的应用
  14. 学python历程中
  15. wechatExtension老助手提示无法安装
  16. 恢复系统自带的office软件
  17. 基于JAVA家装建材网计算机毕业设计源码+系统+mysql数据库+lw文档+部署
  18. 计算机软件与硬件的关系及软件的分类
  19. 简历:精通 熟练 熟悉 了解
  20. 报错:attributes are not compatible with the provided attributes

热门文章

  1. 2015以色列物联网创业地图
  2. 如何用java 写简单的网络ddos攻击(黑客)
  3. springboot+考研教室管理系统 毕业设计-附源码221757
  4. Java方法重写(Overriding)和方法重载(Overloading)
  5. 唐僧西行并不是公派出国学习
  6. 听云重磅发布 [2014中国移动应用性能管理白皮书]
  7. Linux的压缩指令zip,tar,gzip
  8. Affinity Designer for Mac(强大的矢量图设计软件)
  9. SPI message 基础 Part 2
  10. MVC的Model层验证(非空,手机号验证)