2018 年接近尾声,InfoQ 策划了“解读 2018”年终技术盘点系列文章,希望能够给读者清晰地梳理出重要技术领域在这一年来的发展和变化。本篇文章是运维领域 2018 年终盘点,分析了一些有代表性和影响力的技术,也展望了未来的发展。

过去一年的是各种新的运维技术和理念交相辉映的一年。技术和理念落地的过程中,也就是理想和现实碰撞的时候,往往具有戏剧性。有的技术破壳而出,迎来快速发展。有的则遇到了瓶颈,在艰难的爬坡。这里仅选择最具有代表性和影响力的技术来进行分析,作为对过去一年的总结,也希望能够看清楚未来运维领域的发展之路。

DevOps

运维方面最重要的技术理念就是DevOps。传统的软件组织将开发、质量保障和IT运营设置为分离的部门。在分布式和云计算的潮流之下,这种开发模式明显地不能满足软件快速迭代的需求和模式。DevOps则把他们有机的结合在一起,以更好的提高软件交付的效率。

在DevOps潮流之下,单独讨论运维已经是没有意义的事情了。自从DevOps理念提出之后,运维从边缘重新回到人们的视野。DevOps所代表的打破开发、测试和运维之间的壁垒,利用技术实现自动化的理念深刻影响了运维,被证实也被广泛接受,对提高软件生产质量、安全、软件发布周期等都有非常非常明显的推动作用,已经成为一种不可抵挡的趋势,对整个信息技术领域产生了深远的影响。每一项IT技术和理念的变革,背后都会和运维技术和DevOps理念产生千丝万缕的联系。

对于DevOps的理解有一个逐步深入的过程。初期人们对于DevOps常见的错误观念是把DevOps认为是一个组织、一个职位或者一套具体的解决方案,或者简单把CI/CD当做DevOps。经过DevOps社区的不断宣传,大家都认识到DevOps代表一种理念和文化。在具体落地时需要根据自己公司的文化、规模等来采取不同的形式。谷歌的SRE手册作为一种有代表性的DevOps实践,给出来一个非常具有指导意义的示范,是对DevOps的CAMS理念:文化(Culture)、自动化(Automation)、测量(Measurement)、共享(Sharing)最好的总结。

DevOps在开发团队具体落地时,一般都是从CI/CD开始,通过采用一些开源软件,解决基本的自动化问题。但是这种组装的解决方案逐渐不能满足更加高效的开发要求,所以转向自己开发一些关键的流程和平台。这是因为每个公司的基础设施和解决的问题都有其特殊性。开源虽然提供了一些关键的组件,但是还是需要根据自己的需求进行定制。从这个意义上讲,对于致力于提供DevOps解决方案的公司既是挑战,也是机会。其平台一方面要具有通用性和可扩展性,又需要能够对于不同行业的灵活的定制化的能力。

近年来,DevOps的意义也是不断扩展。从字面上理解,DevOps主要是为了消除开发和运维团队之间的隔阂,让软件的交付和维护过程更加流畅。如今,DevOps已经扩展为一个通用名词,把敏捷开发、精益开发等方面的核心理念也包括进来,成为软件全生命周期的概念。这是因为很多事情,例如安全、监控、部署、故障处理等问题,在软件设计和开发的阶段考虑得越全面,后面所付出的代价就越小。最新的DevSecOps成为一种趋势就非常明显说明这个问题。

虽然DevOps已经被广泛接受和认可,但是其在设计应用中的成熟度还有待进一步提高。在一份关于DevOps的调查报告中,把DevOps进化分为三个级别,80%被调查的团队处于中等评级,而处于高级阶段和低级阶段的都在10%左右。报告分析,这是因为通过实现自动化以达到中等评级是相对比较容易,而达到高等评级则需要在文化和共享方面的努力,这相对来说更加难以掌握和实施。这也符合组织文化变革中的J型曲线。在经过了初期的效率增长之后,自动化的深化进入了瓶颈期。更进一步的效率提升需要对组织、架构进行更加深入的调整。这段期间可能还会有效率下降、故障攀升的问题。从这一方面讲,实际DevOps的落地和深化还有很长的路要走。

Kubernetes \u0026amp; CNCF

说到DevOps,就必须提到Kubernetes和CNCF。容器技术和Kubernetes的结合,解决了自动化、标准化、配置化的问题,顺应了DevOps的理念,生逢其时,所以成为了时代的弄潮儿。由于Kubernetes背后谷歌强大技术力量的支持,容器编排技术中和Docker的竞争在2018年初毫无悬念的结束了,以Kubernetes的完胜告终。

Kubernetes解决了发布\u0026amp;服务管理的问题。通过把容器、编排技术完美结合在一起,为Cloud Native技术提供了一个良好的基础,所以过去的一年也是CNCF快速发展的一年。CNCF的生态发展壮大,形成了一个具有压倒优势的开源生态。CNCF一方面成为很多公司和厂家都急着要搭上的开源之车,一方面又打破了平台建设的壁垒。CNCF平台的提出,使建设跨平台的应用成为可能,成为事实上的应用开发平台的标准,极大简化了多云部署,也让云平台的竞争到了另一个级别上。云厂商要么在IaaS层提高效率,要么在SaaS层提高价值,而以前的PaaS层则成为一个没有商业机会的平地。Kubernetes在改变技术生态的同时也深刻影响了云计算的商业生态。竞争需要向更深层次,和更高价值链维度进行。仅仅靠平台壁垒和技术优势来摘取商业红利的设想成为了泡影。

微服务和Serverless

开发人员对于效率的追求是没有止境的。所以在DevOps的CI/CD之后,新的技术理念不断涌现,要进一步降低运维的成本。微服务、Service Mesh、Serverless、FaaS、Lambda等新的理念和技术让技术人员眼花缭乱。不过这些新的技术可以分为两类:以微服务为代表的架构派,和以Serverless为代表的NoOps派。

每一种新的技术和理念的提出,都是针对运维中的一些痛点而给出的解决方案。但是在落地的过程中,微服务、Service Mesh在解决一方面问题的时候,也带来了新的挑战。微服务减少了服务间的耦合性,让部署更加便捷,但是同时对于架构设计和业务梳理要求更高,而对于可能的微服务爆炸的情况,如果没有一个强大的管理系统,则运维的整体复杂性实际上是升高的。Service Mesh刚出来时,所提出的解决问题的思路确实让人眼前一亮,通过Sidecar技术剥离所有的安全、服务发现、负载均衡等问题,让服务开发人员只用关注业务逻辑,可以完美支持多语言。但是这个解决方案是以性能的损失为代价的。如果要把现有业务迁移到Service Mesh的架构上,要完美保持Service Mesh的架构和理念就比较困难了。看到一些实际落地的解决方案,例如蚂蚁金融的SOFAMesh,都是进行了一些折中来提高性能。

Serverless的目标是完全让运维对开发透明,也是过去的一年中的热门之一。在AWS的推动下,以Lambda为代表的Serverless产品得到广泛关注,进入云计算的舞台。在这个领域,技术的演化也是非常快的。对于Serverless计算来说,首先要解决安全隔离的问题。同时由于每个业务的寿命周期短,所以需要平台技术启动快、开销小,能够快速水平扩展。AWS开源的Firecracker和谷歌的gVisor技术都致力于让Serverless计算场景下的容器安全沙箱更加精简、安全。

FaaS是Serverless的另一个场景。一般是在某一个业务平台上提供一个可扩展的编程环境,为支持前端场景的多样性提供更加快速的开发环境。很多国内的业务场景比较复杂的公司都有实践,通过定制化的IDE环境让开发人员专注于业务。无论哪一种Serverless场景,实际上后台的运维工作都是不可以缺少的,只是通过自动化技术让扩容容错等技术对于开发人员透明。它们所面对的场景来说目前来说还是有限的,但是随着技术的成熟,越来越多的场景可能会利用其FaaS来实现快速开发和迭代。FaaS就类似于Python等脚本语言,和Java/C++这些语言相比,以一部分的性能换来快速开发的优势。

AIOps

AIOps利用智能化技术解决运维问题。一经提出就影响深远。经过几年的努力,智能化技术在一些基本的运维场景落地,例如故障预测、根因分析、智能报警灯场景上已经确实极大地提高了系统的自动化程度,但是同时也碰到了一些瓶颈。

理想和现实之间的差距是有原因的。清华大学的张钹院士对于人工智能技术的分析可以对这个现象给出比较合理的解释。根据张钹院士的总结,目前的人工智能技术水平,要应用到具体场景,必须要满足下面的五个限制:有丰富的数据或者丰富的知识、完全信息、确定性信息、静态与结构性环境、单任务与有限领域。目前取得较大进展的图像识别、语音识别、推荐、搜索、下棋几个领域都满足这几个限制条件。深蓝和AlphaGo都以下棋作为突破口就是因为下棋是完全符合这些条件的问题。满足这 5 个条件的工作,总有一天会被计算机取代。这五个条件也可以我们帮助我们检验某个问题是否可以采用人工智能技术。

对于AIOps来说,数据丰富性和准确性是最大的限制条件。要想利用好智能算法,就必须要花很大的精力来清晰和整理数据。业界人士的估计是80%的时间花在数据上,20%的时间花在算法上。这是因为很多系统最开始设计时,并没有考虑智能化运维的需求和场景。关键信息不全,关键的依赖和关联关系要通过机器学习的思路来抓取出来的话,往往是事倍功半。所以智能化的出路,还是要通过对系统的改造,在深入理解运维场景的基础上,通过提高数据和信息的完整性、准确性来实现运维的自动化和智能化。从这个意义上讲,我们需要在设计开发阶段就考虑到系统智能运维的需求,方便数据积累和建立关于系统的知识。

总体来说,AIOps应该还是非常有意义的理念随着系统的规模越来越大、复杂性越来越高,AIOps将是必然的趋势,不过我们需要保持冷静和客观的态度来建设。

展望

可以预期的是,新的一年DevOps将会得到更加广泛的接受,其含义和范围会继续扩大和深化。最近推出的DevSecOps就是一个例子,把安全作为一个关键考虑因素放入软件全生命周期管理之中。基于Kubernetes的生态会更加丰富多彩。CNCF的影响力会更加巨大。开放、标准化仍然是趋势。所有人,都努力在大的生态中占有一席之地。

Firecracker和gVisor技术非常具有象征意义。开始是容器和容器编排技术促进了运维自动化,而现在无服务器计算又对容器技术的安全、效率提出了更高的要求,推动了容器技术方面更多的创新和变革。计算机核心技术能力直接影响到在运维效率上的竞争力。运维和计算机核心技术相互促进,相互融合,我想才是将来技术发展的大的趋势。DevOps正如一个硬币的两面,已经完全无法分割开来了。可以期待的是新的一年里会有更多深层的技术架构上的创新,让开发和运维更加高效智能。

每一个理论和模型、架构都有它的优势和缺点,有其适用范围,也有其局限性。我们不能指望一种技术解决所有的问题。人工智能、大数据将越来越重要,但是人的创造性、主动性仍将是最宝贵的资源。《人月神话》中预言没有可以解决一切问题的银弹,而人工智能看来也不是我们预期的银弹。但是通过积累对于整个系统更加完备的拓扑、依赖等更方面的信息,然后和AI技术相结合,我们还是有希望一步一步地接近我们期望达到的智能运维的目标的。


作者简介

赵艳标(花名:燕标) 阿里巴巴资深技术专家。2015年加入阿里巴巴,现任阿里巴巴基础设施事业部天基平台架构师,主要从事大规模集群和应用运维、运维数仓、智能化和安全生产方面的研发工作,着力于建设面向未来的智能化运维体系。之前曾在微软公司的必应搜索、Office、SQL Server等部门工作多年。

解读 2018 之运维篇:我们离高效智能的运维还有多远相关推荐

  1. 解读 2018之Go语言篇(下):明年有哪些值得期待?

    2018年接近尾声,InfoQ 策划了"解读 2018"年终技术盘点系列文章,希望能够给读者清晰地梳理出重要技术领域在这一年来的发展和变化.本篇文章是Go语言2018年终盘点的下篇 ...

  2. 解读 2018之Go语言篇(上):为什么Go语言越来越热?

    2018年接近尾声,InfoQ 策划了"解读 2018"年终技术盘点系列文章,希望能够给读者清晰地梳理出重要技术领域在这一年来的发展和变化.本篇文章是Go语言2018年终盘点,分为 ...

  3. 中国智能变电站运维行业调研与发展前景报告(2022版)

    内容简介: 智能变电站是采用先进.可靠.集成和环保的智能设备,以全站信息数字化.通信平台网络化.信息共享标准化为基本要求,自动完成信息采集.测量.控制.保护.计量和检测等基本功能,同时,具备支持电网实 ...

  4. 数据中心linux运维学习_云计算时代数据中心运维三大要点

    在当前企业IT系统向云架构转型的时刻,运维系统再一次面临着新的挑战.所以在数据中心运维的时候,运维人员应该注意哪些问题? 在云计算时代,IT系统建设越来越成为企业发展至关重要的一环.业务系统,以及支撑 ...

  5. 「实战篇」开源项目docker化运维部署-后端java部署(七)

    原创文章,欢迎转载.转载请注明:转载自IT人故事会,谢谢! 原文链接地址:「实战篇」开源项目docker化运维部署-后端java部署(七) 本节主要说说后端的部署需要注意的点,本身renren-fas ...

  6. 蚂蚁金服 Service Mesh 大规模落地系列 - 运维篇

    <蚂蚁金服 Service Mesh 大规模落地系列>将会从核心.RPC.消息.无线网关.控制面.安全.运维.测试等模块对 Service Mesh 双十一大规模落地实践进行详细解析,文末 ...

  7. centos7 如何安装部署k8s_架构运维篇(五):Centos7/Linux中安装部署RocketMQ

    上一篇 架构运维篇(四):Centos7/Linux中Tomcat安装SSL证书实践 这一篇讲一下在Centos7/Linux安装RocketMQ,MQ的具体应用场景和使用就不再啰嗦了.我在没有使用过 ...

  8. 视频教程-Prometheus+Grafana企业级监控实战(运维篇)2020年视频教程-Linux

    Prometheus+Grafana企业级监控实战(运维篇)2020年视频教程 资深DevOps工程师,曾经在华为,乐逗游戏工作,目前就职于知名物流公司工作 希望结合工作实践 给大家带来很多干货 周龙 ...

  9. java安装不上有关故障排除,Java有关问题排查(运维篇)

    Java问题排查(运维篇) 每一位开发想必都会遇到线上服务告警,而导致这样原因的肯能有流量增加或是代码中bug异常没有抓住导致,而此刻我们就需要去排查问题. 1:业务增加,导致FGC频繁发送,如果不知 ...

最新文章

  1. Android面试宝典
  2. Android应用程序模块:应用、任务、进程和线程
  3. jvm_虚拟机参数讲解(一)
  4. 了解如何通过Python使用SQLite数据库
  5. 求1!+2!+3!+....20!的值
  6. 世界大了,啥子都有,全球最大中文搜"人"引擎
  7. 开源版多用户博客系统
  8. 解决easy ui 1.4datebox控件不能清空的问题
  9. [数据结构 算法] 2015年蓝桥杯A组C/C++第三题奇妙的数字
  10. KMP实现圆周率PI中找字串
  11. Java五子棋全代码
  12. mysql类exadata功能_Exadata:Smart Scan(一)
  13. android 各类开源项目整理 包括 个性化控件 工具库 完整优秀项目
  14. 用计算机画对称图形,CAD画对称图形快捷键
  15. 如何建立地球上任何一个区域的地形3d模型,并添加卫星或地貌贴图
  16. 嵌入式工程师应该知道的C语言
  17. electron之坑addon
  18. Android与鸿蒙系统安全(一)
  19. 取消confirm和自动确认
  20. 干燥机是什么,作用是?

热门文章

  1. Java编译那些事儿【转】
  2. php 计算一个字符串在另一个字符串中出现的次数
  3. 企业×××远程接入的优劣分析
  4. MVC验证05-自定义验证规则、验证2个属性值不等
  5. Linux 空格转换行
  6. NFS: Mac OS X (server) and Mac OS X (clients)实现思路
  7. 八百客CRM:微信提现收费,仅仅用户钱包受了伤?
  8. 安装Autodesk Vault Server 总提示需要重启计算机?
  9. Excel和数据库的导入与导出
  10. IIS负载均衡-Application Request Route详解第一篇: ARR介绍