继续运维的话题。软件硬件日益复杂,运维人员压力山大,那么几十年以后,数字化世界会变成什么样子呢?看张图:
这是电影《异型:契约》的画面,飞船Covenant搭载2000名乘客飞往外星球,行程几十年,只有一个机器人船员。这是人类的理想,在未来世界里,庞大的系统不再需要人肉运维,硬件和软件都能自己照料自己,出了什么故障自我诊断、自我修复,世界大同。可是现实却是:

好吧,理想还是要有的,早晚能实现。为了理想,我们要努力再努力!

浪迹IT江湖三十年的融哥,今天带大家修炼九阳神功的最高三重。

九阳神功第七重:诸毒不侵

这一役中,凡赴水阁饮宴之人,除了张无忌有九阳神功护体、诸毒不侵之外,所有明教首脑,无不中毒。——《倚天屠龙记》

无论硬件还是软件,不出故障是不可能的,农民伯伯一锄头就可能挖断光缆,造成大片系统故障。程序员的一次粗心,也会造成软件系统在某种情况下失灵。所以关键不是不出故障,而是怎样预先做好充分准备,在故障出现时迅速解决,不让故障给系统造成太大的毒害,所谓练就内功、百毒不侵也。

某天早晨,银行接到客户投诉,大量客户在使用APP转账时出现交易失败,问题在哪里?是网络有问题?还是转账系统有问题?随着IT架构越来越庞杂,一次请求往往涉及到多个服务,有可能分布在几千台服务器上,横跨多个数据中心。为了看清交易整个流程每个环节的性能表现,以业务为中心、端到端部署的全链路性能监控需求由此产生。

举例,上面是华青融天EZSonar(鹰眼)系统一个典型的银行应用全链路图。

我们可以看到,这里有手机银行WEB、手机银行App、手机银行F5、ESB前置(只聚焦手机银行的内容),包括后面的ESB、核心、理财、数据库,都是手机银行相关板块。

从这张图可以清晰地看到,故障是因为理财平台的延时过大导致的,整个业务路径上,都出现了告警。可见,有了全链路视图的帮助,判断分析问题时就可以顺藤摸瓜、一目了然。

九阳神功第八重:金刚不坏

这人是崆峒五老中位居第四的常敬之。他一拳命中对方要穴,见张无忌浑如不觉,大感诧异,冲口而出:“你⋯⋯你已练成‘金刚不坏体’神功。——《倚天屠龙记》

练成金刚不坏功,就像悟空的铁头经过八卦炉的锻造,任你刀砍火烧岿然不动,这当然是运维人员的最高追求。

如前文所说,既然故障的发生不可避免,运维人员的最大任务就是当故障出现时,尽快定位和解决问题,恢复生产,尽可能缩短MTTR(Mean time to repair,平均修复时间)。简言之,就是快定位。

很多运维产品在设计时,缺乏对运维工作的深入理解,结果在使用中变成了花架子,不出事时看看大屏挺漂亮,一旦出事却无法快速解决问题。所谓快定位,关注的是能否真正帮助运维人员缩短MTTR、提高效率,这才是衡量运维产品是否有用的金标准。

要做到快定位,练成金刚不坏之身,需要综合运用前面所修炼的各项武功:

通过轻告警,准确而及时地向用户发出警报,提示系统发生了性能劣化或者故障,让用户第一时间听风辨器,启动处理流程。

通过全链路,快速定位故障发生的部位,并掌控故障影响的范围和路径。

通过微监控,深入钻取故障出现的参数和场景,准确发现哪些系统或部门需要采取措施处理故障,及时通知有关人员处理问题,启动应急响应流程,排除故障,恢复系统。

通过完备的日报系统,观察每天系统运转情况,全面掌控业务运行的整体态势。

正所谓运用之妙存乎一心,当你修炼到第八重,八重功力已经在体内锻成一体,达到统合综效的境界,各种手段信手拈来运用自如,再复杂的系统也可以从容应对了。

九阳神功第九重:反噬金刚

那胖僧运劲于臂,猛击张无忌胸口,正打在“膻穴”上。张无忌的九阳神功……不但将敌人打来的拳劲反弹了回去,更因对方这么一击,引动了他体内九阳真气,劲上加劲,力贯力,那胖僧立时便即毙命。——《倚天屠龙记》

这九阳神功的最高一重境界,就不是一般人能达到的了。

从目前基于人力的运维到未来机器人开飞船,当然相隔千山万水,需要科技方面的飞跃和无数人的努力,短期还做不到,但有一个领域已经有了巨大的突破,初步成果已经显现,那就是当前热点话题——AIOps,或者叫智能运维。

回顾历史,早期的运维工作大部分是由运维人员手工完成的,被称为手工运维或人肉运维。这种方式在互联网业务快速扩张、人力成本高企的时代,难以维系。

自动化运维因此应运而生,基于用可被自动触发的、预定义规则的脚本,执行重复性的运维工作,从而减少人力成本、提高效率。

但随着IT系统日益复杂,以及服务类型的复杂多样,基于人为制定规则的专家系统逐渐变得力不从心。

AIOps随之横空出世,它不依赖于人为制定规则,主张由机器学习算法自动地从海量运维数据中学习,不断提炼规则。基于机器学习的大脑,指挥监测系统采集大脑决策所需的数据,做出分析、决策,并指挥自动化脚本去执行,从而达到运维系统的整体目标。

不是由人设置规则处理数据,而是由算法自动从数据中学习规则,就像乾坤倒转、反噬金刚。当然我们不希望有一天AI太聪明了反噬了人类。

如图,AIOps系统的建设当然不是一蹴而就的,目前还处于初期阶段,要不断进阶,逐步达到减少甚至取代人力的目标。

很多企业已经开始尝试在系统运维中引入AIOps的理念,在一些环节上利用机器学习来提高效率,降低对人力的要求。

以华青融天的EZSonar(鹰眼)系统举例,它的告警维度推荐功能就应用了AI技术。通常告警是对一组交易指标异常的反映,但具体是什么因素引起的,例如是某个渠道、某种业务、还是某个主机异常,还需要人为定位分析,在处理告警的应急状态下,人为排查非常费时费力。

EZSonar提供的维度智能推荐功能,就可以从历史运维数据中自动发现规律,自动向用户推荐可能的告警维度,大大减轻人的工作量。

上图就是一个真实故障发生时,系统自动推荐的告警维度,自动发现了对方系统和交易类型,整个故障从告警发生到验证,只用了30秒,对方也在20分钟内解决了此故障。

此外,在动态告警基线、日志智能解析、日志降噪等方面,EZSonar也实现了基于AI的算法,在AIOps之路上迈出了第一步,未来有机会融哥给大家细说。

至此,融哥带大家游历了九阳神功的九重境界。

最后多说两句,无论九阳神功还是倚天宝剑,都必须在内功深厚的人手中才能发挥效力。运维管理系统只是工具,必须与经验丰富的人、完善的管理制度相结合,才能保障IT系统稳健运行。人在不断使用运维系统的过程中,也会反哺运维系统,让它日益强大。内修武功,外磨利器,人剑合璧,方能立于不败之地。

这,才是九阳神功的真谛。

华青融天主力产品线

华青融天自2007年成立,一直致力于IT智慧运营的产品研发和技术服务,以AI驱动IT智慧运营,发展出一个平台、三个业务线产品:业务运维EZSonar、安全运营EZAccur、业务洞察和行为分析EZUBA,全力为用户打造一个高粘度的实时大数据平台。

目前,公司拥有数十项发明专利、技术资质、软件著作权以及多项自主知识产权产品,并与清华、北大、北航等院校开展产学研合作,共建“人工智能综合实验室”“大数据与智能安全管理联合实验室”。

拥有包括招商银行、中信银行、国开行、平安集团等在内的众多客户,行业遍及金融、保险、税务、医疗、航空、军工等十多个领域。

说明:文中电影剧照

来自93版《倚天屠龙记之魔教教主》

内外双修,人剑合璧——IT运维人员的九阳神功(大结局)相关推荐

  1. 从一个运维人员的角度看微盟的这次删库跑路的节奏

    从一个运维人员的角度看微盟的这次删库跑路的节奏 这二天,微盟运维人员删库的事件刷屏了,造成的影响特别的大. 回顾整个事件,本人从15年的运维人员的角度来分析一下这个事件: 1. 为什么一个运维人员会有 ...

  2. 运维人员日常工作(转自老男孩)

    1)运维人员要谨记的6个字: 运维人员做事需遵循:简单.易用.高效 (2)运维人员服务的3大宗旨: 1.企业数据安全保障. 2.7*24小时业务持续提供服务. 3.不断提升用户感受.体验. (3)初中 ...

  3. 云计算与linux运维哪个好,为什么很多人要学习Linux云计算运维进入IT行业呢?

    现在有越来越多的小伙伴进入IT的互联网行业,其实,it圈儿的薪水还是很具有吸引力的.许多小伙伴选择了Linux运维的学习方向.但有些人认为学习是困难的,看到那多的人选择Linux行业,自己也想尝试.实 ...

  4. DevOps之旅:运维人员阅读源代码的实用技巧

    作者简介 陈晨,基础架构工程师,目前就职于中国银联.主要负责IaaS平台.容器平台以及运维管理平台的建设工作.本文将着重介绍运维人员学习源代码的一些技巧. 一.准备阶段 1.制定计划 读源码和读书一样 ...

  5. 请大佬们多给运维人员思考和决策的权利

    老男孩想说: 1)请大佬们多给公司的运维人员一些思考.说话和决策的权利,他们一定是最棒的运维. 2)运维部门不光是技术服务部门,更是运维制度.规范及各种运维管理流程的制定部门. 3)多数情况,开发人员 ...

  6. 运维人员的补丁盛宴 四月修复微软Adobe漏洞合计过百!

    运维人员的补丁盛宴 四月修复微软Adobe漏洞合计过百! 文/图 王文文 北京时间2010年4月14日,微软发布了四月安全公告,共11个,用于修复Windows操作系统及Office等软件的大约92个 ...

  7. 为运维人员插上腾飞更远的翅膀!

    1 为什么要学C编程? 大家(尤其是有经验的运维人员)都知道学好C有很多好处,但是都有哪些好处,这个是仁者见仁智者见智的,不同的人有不同的体会.那么,从我自身经历来谈谈我对这个"好处&quo ...

  8. 【运维人员应该掌握哪些常用技术】

    [运维人员应该掌握哪些常用技术]作者:蚁巡运维平台 一.微软系统 对于Windows的熟悉是最基本的.当然,作为一个运维经理,可不是整天玩个Windows7或XP就可以交差的.你得掌握微软Active ...

  9. 云原生的浪潮下,为什么运维人员适合学习Go语言?

    本文旨在为使用Go语言提供一个新的视角.你不要指望在这篇文章里看到代码或者学到什么新东西,我只是提供了一个开放的新视角,并将它分享给正在寻找新解决方案的系统运维/DevOps/Observabilit ...

  10. 老鸟谈画图能力对运维人员的重要性

    老鸟谈画图能力对运维人员的重要性 高级运维一定要会随时根据生成的数据出图 老男孩老师当初就是靠这个发展起来的 例如:亿图.VISIO.PPT等软件手绘逻辑图必须行 给大家一个例子:老男孩11月份web ...

最新文章

  1. SharePoint 2013 中如何使用Silverlight
  2. android栈和队列
  3. boost::signals2模块实现多线程信号调用基准的测试程序
  4. Linux Makefile
  5. 某外企招聘程序员部分面试题,求作答!!!
  6. 7-28 猴子选大王 (20 分) 最易理解的方法
  7. spring boot: 一般注入说明(五) @Component, application event事件为Bean与Bean之间通信提供了支持...
  8. 福州大学数学与计算机科学学院 地址,福州大学数学与计算机科学学院导师介绍:陈神灿...
  9. PyTorch搭建AlexNet模型(在CIFAR10数据集上准确率达到了85%)
  10. VC6.0+XT库+OPENCV1.0调试笔记
  11. fastjson list转json
  12. vba_1《考勤表》
  13. linux ubuntu 联网问题
  14. RC522(RFID模块)实践总结
  15. 软件质量属性的两个模型(Software Quality Attributes)—中英文对照
  16. 野蛮成长的健身行业何时能迎来春天?
  17. 顶点从观察空间变换到裁剪空间
  18. 智慧船舶带来港口革命,可视化成为主力军
  19. 基于asp.net172电影视频点播分享网站
  20. java计算机毕业设计师资管理系统源码+系统+数据库+lw文档+mybatis+运行部署

热门文章

  1. 2022年济南市施工员(市政工程)考试练习题及答案
  2. 联想计算机设置恢复出厂,联想电脑恢复出厂设置还原系统攻略
  3. 数据统计分析用什么软件(目前最好的7个数据分析软件)
  4. 元素的显示、隐藏、遮罩
  5. RC电路 波形分析
  6. flink 滚动窗口、滑动窗口、会话窗口、全局窗口
  7. Selenium 打开新标签页获取元素
  8. [Asp.net Core]局部视图
  9. 分页抓取链家房源信息 xpath selenium
  10. FOC——18.单片机CPU内核框图