机器智能的前提是需要有数据,AIOps的数据从哪里来?如何利用数据代替机器决策、分析?如何利用机器学习算法与基于大数据的业务运维管理平台整合,在告警过滤、异常监测、自动修复等环节发挥效用,真正能把运维同学解放出来提高整体运维效率,降低运维成本。我们认为AIOps是一个长期演进的过程,这也是我们区别于业界,在通往AIOps征途上增加DataOps阶段建设及沉淀的重要原因,而我们接下来聊一聊DataOps时代——运维人才的能力要求。

人肉/脚本运维时代(Human/Scripts Ops)

运维工作本身其实是一个需要具备高度综合技能掌握的工种,需要涉及的广度相对别职业属性的要求会更高,以前很多时候大家对运维的认识都停留在发布、变更、接报警、搬机器……其实这个很好理解,所有的互联网大公司都是从小公司成长起来的,在还是小公司的时候,你需要面对的是不停地解决各种奇怪的问题,而由于有公司生存的压力,追求短平快的结果使得大家会沦为一个搬来主义者,从各类技术论坛,甚至是个人blog上去搜索各种各样的解决方案,以求快速workrun解决问题,但对于原理、系统全局上的东西,可能完全不会去深究。

工具化运维时代(Tools Ops)

做过运维的人都知道,运维同学比较喜欢编写各种各样的脚本,比如一键批量发布软件,一键清理、交互式向导执行等等,他们很喜欢通过黑屏上操作刷屏带来成就感。每当我们的运维同学交接工作的时候,新来的运维同学基本上会照着自己的理解重新实现一套。人肉/脚本时代的运维存在大量的效率低下,以及各种各样重复的脚本工具,同时也会带来很多安全风险,回顾互联网的发展史,几乎每隔一段时间就有一些严重事故发生,而每次事故的背后却是一些低级错误,甚至是手误敲错字符带来的巨大代价。这时候大家都意识到,不能再任由运维同学随意发挥了,需要将各式各样的功能脚本收敛到工具里来,通过集成的运维工具迭代来实现复用和能力交接,这体现在DevOps的初级阶段,此时还没有延伸到Dev阶段。

平台型运维时代(DevOps)

随着公司商业上的成功,随之带来的规模的发展,这个时候量变引起质变,今天对大厂的运维来说已经远远不仅仅是上述这些工作,同时这些工作也不仅仅是靠加人手能解决得了的,例如说应用从原来的一个应用变成了几千个、上万个、几十万个,平台规模从原来的几百台扩充到上万&几十万台,硬件由简单的CPU,mem,机械硬盘增加到Gpu,Fpga,Asic,Optan等各类异构硬件平台,软件架构变化,大数据分布式等等,当面对海量的各类汇总数据,需要快速判断业务止损,全局资源优化运营等工作时,人工将会面临非常大的挑战,甚至是不可能完成的任务。这个时期运维的工作职能更多转变为:

● 全局架构规划
● 资源运营与成本优化
● 自动化平台开发
● 稳定性保障
● 海量数据分析
● …….

数据化运维时代(DataOps):

对我们来说由于业务的需求对目前运维能力的要求越来越高,技能的要求上来说不光除了面上的广度还需要一定方向的精度,甚至某些点的深度要非常专深。同时需要通过软件工程化,数据化的运维的思路,围绕数据链建设起整体运维智能化工具链,来解决超大规模分布式集群运维管理问题,提升整体产品的稳定性,效率,成本。这样对现在整个运维人员的综合技能要求会有很大的挑战。

业内随着运维的发展逐步从Ops发展到今天大家业内都比较火热的AIOps,现在运维界现放眼望去大家都太大谈特谈AIOps,认为只要有强大的算法,就能够轻松实现不需要人为干预的智能化,当然这是个理想化,终局化的情况,最终的目标是要做到完全智能化,但这个难度不低于完全自动无人驾驶。在我们看来如果算法是kernel,那么工程化的程度就决定了能否把kernel发挥到极致,能否做到易用和高可靠是我们要着力解决的问题,我们内部我们认为目前还处于DataOps阶段,数据化一切运维对象,以数据驱动运维,工程化落地。与自动化驾驶分级类比:

随着大数据时代的逐步发展促进运维人员的技能转型需要具备更为复合性能力:

● 架构能力
● 研发能力
● 运维知识&业务理解
● 基本工程算法
● TPM(技术项目管理能力)

AIOps发展最终本质上还是要落地在公司的各类运维平台&运维产品上,在完成初步构建后仍然需要持续的人力投入以及参与,而在目前的探索发展的投入阶段,有大量的工需要去做,仍然需要专家或者分析师,从不同的维度,从不同的业务口径,组合合适的可视化技术,机器学习技术,大数据分析技术,制定分析场景,平台落地才能够为运维产生持续的洞察,提供最终的业务价值。

在不同阶段对于运维团队的技术能力要求及转型是必须历经的过程,同时也是一个痛苦的过程,能力要求的变化自然会带来组织变革,对原有人员的冲击也会比较大,整个部门从维护性部门转变为研发创新型部门,最先带来的冲击是思想上的,在研发思维先有原理,然后逐步工程实现落地,而传统运维是反过来很多东西都是已经存在去维护它的稳定。

这种阵痛也是团队转变需要去面对的,从被动救火式运维向主动精细化转型,从问题驱动向价值驱动转型,从操作运维向运维开发转型,从依靠经验向智能化驱动运维转型,这不仅是技术能力的转型而且是运维系统化思路的转型。时代在变化,唯一不变的只有拥抱变化!

原文发布时间为:2018-09-11

本文作者:大舞

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”。

从人肉到智能,阿里运维体系经历了哪些变迁?相关推荐

  1. 应对双11挑战,阿里巴巴智能化运维体系演进与建设

    导读:DevOps 的概念提出接近10年了,提升协作效率,降低开发成本,更稳健可持续的业务运营是DevOps的主旋律.根据2016年DevOps调查报告显示,一个低效的IT组织跟一个高效的IT组织相比 ...

  2. 阿里云周宇:神龙计算平台智能运维体系建设

    嘉宾 | 周宇   整理 | 吴林锋 出品 | CSDN云原生 2022年4月12日,在CSDN云原生系列在线峰会第1期"SRE与智能运维峰会"上,阿里云高级技术专家.神龙计算平台 ...

  3. 阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设

    导语:在2018年开放数据中心峰会(Open Data Center Summit 2018)开幕式上阿里巴巴研究员刘国华发表了<阿里巴巴智能运维体系建设>的主题演讲.演讲中,刘国华介绍了 ...

  4. 阿里巴巴超大规模 Kubernetes 基础设施运维体系介绍

    简介:ASI 作为阿里集团.阿里云基础设施底座,为越来越多的云产品提供更多专业服务,托管底层 K8s 集群,屏蔽复杂的 K8s 门槛.透明几乎所有的基础设施复杂度,并用专业的产品技术能力兜底稳定性,让 ...

  5. 阿里巴巴超大规模Kubernetes基础设施运维体系解读

    简介:ASI:Alibaba Serverless infrastructure,阿里巴巴针对云原生应用设计的统一基础设施.ASI 基于阿里云公共云容器服务 ACK之上,支撑集团应用云原生化和云产品的 ...

  6. 运维体系建设(第一章)

    一.前言 运维的基础工作通常是针对现有系统及项目的,例如服务器.各类云产品,正在运行的项目.监控.账号权限管控,项目上线等等,是宽泛而繁琐的,少有建设性的内容. 那当我们接手一套新的系统,就有必要将它 ...

  7. 高效研发运维体系构建的流程和方法论

    简介: 云计算产品大多都会与云原生发生关联,云原生正在重塑整个软件的生命周期.但到底什么是云原生?云原生带来的最大技术创新和未来机会是什么?围绕云原生,是否可以构建出一套云上的开发&运维体系, ...

  8. 不信你不来!周老师带你用ArkControl实现自动化运维体系建设

    数据技术嘉年华等你来 活动预告:本周五,周六,北京市东三环中路61号富力万丽酒店,相聚数据技术嘉年华,(99元票务)免费购票倒计时,点击查看大会详情. 周彦伟老师带来主题"ArkContro ...

  9. 金融业运维体系指南-嘉为蓝鲸

    为加快数字经济建设,推动金融高质量发展,金融行业正大力推进数字化转型.IT运维管理作为企业运营中的环节,在数字化浪潮下,应主动出击,进行数字化能力升级,发挥自己独特的价值. 银保监会下发的<关于 ...

最新文章

  1. iOS - OC PList 数据存储
  2. linux proc 占用空间,一种诡异的Linux磁盘空间被占满问题
  3. pool python 传参数_Python-爬虫-多线程、线程池模拟(urllib、requests、UserAgent、超时等)...
  4. RTP/RTCP中的Jitter
  5. 微课|中学生可以这样学Python(2.2.3节):in和is
  6. 如何看待0.5元可买到身份匹配的人脸数据?
  7. linux怎么修改内存缓存,Linux内存、缓存、Swap等修改
  8. Oracle form培训资料,Oracle ERP FORM开发学习操作手册
  9. GPS坐标与UTM坐标的转换
  10. Cool_gamesetup.exe山寨版熊猫烧香病毒
  11. 北理珠计算机专业在广东排第几,【我们的珠澳】再破纪录!北师珠、吉珠、北理珠这几天要在全国出名了!...
  12. JetBrains PyCharm免费版
  13. “应版权方要求,文件无法下载”的解决方案
  14. 腾讯云人脸识别 活体检测 人员库管理
  15. 浅浅分析滤波器截止频率
  16. php.ini error reporting,解决PHP.ini中的error_reporting不起作用
  17. Android 高德地图计算 Circle 计算上下左右四个点经纬度,Circle和Polygon是否全部包含,计算地图中点到线的最短距离
  18. 使用python(matplotlib)打开图片
  19. bean覆盖 springboot_如何在@SpringBootTest中使用Mock覆盖bean?
  20. 基于单片机(AT89C51)的进制转换及进制计算器

热门文章

  1. 新手java五子棋完整代码判断落子落在线上_Java初学者,编写小游戏五子棋的问题?...
  2. JavaScript语言基础4
  3. fastdfs上传文件_SpringBoot+FastDFS搭建分布式文件系统
  4. 大学生创新创业大赛案例_第五届“南博杯”大学生创新创业大赛决赛举行
  5. uniapp中slot插槽用法
  6. 每日站立会议12/23
  7. GridView学习记录(一)
  8. AttributeError:module 'numbers' has no attribute 'Integral'.
  9. 加载静态文件,父模板的继承和扩展
  10. 20162311 算法复杂度-3