作者 炯思(钟炯恩) 雪尧(郭耀星)

这是我们的《Kubernetes资源编排系列》的第四篇——CRD+Operator篇。在前面的文章中,常常会提到CRD和k8s operator,但并没有对此进行深入的探讨。作为k8s中的一大亮点,在本篇文章中,我们会详细展开讲讲。

1. 什么是CRD

如果 K8S 中的自带资源类型不足以满足业务需求,需要定制开发资源怎么办?自定义资源(Custom Resource)由此产生。那么,如何让Kubernetes认识这些自定义的资源呢?CRD(Custom Resource Definition)就承担了一个说明书的角色,让Kubernetes 来认识这个自定义资源CR。

那么CRD是怎么来的呢?最早是谷歌提出Third Party Resource的概念,希望开发者以插件化形式扩展 K8s API 对象模型,以增强整个k8s的生态。基于Third Party Resource这一概念,Kubernetes 社区在 1.7 版本中提出了CRD 的概念。

随便打开一个CRD的YAML可以看到,其主体部分是使用 OpenAPI v3 schema 来描述CR的字段结构,类似编程语言中的强类型声明。

apiVersion: apiextensions.k8s.io/v1
kind: CustomResourceDefinition
metadata:name: humans.human.sreworks.io
spec:group: human.sreworks.ionames:kind: Humanplural: humansscope: Namespacedversions:- name: v1served: truestorage: trueschema:openAPIV3Schema:description: ...type: objectproperties:spec:type: objectproperties:company:type: string...

有了CRD之后,我们可以自由地增加各种与Pod平级的资源,很多之前需要落在CMDB中的数据,也可以被放在k8s集群中。这极大地拓宽了我们的想象力,什么交换机、作业、路由等各种关联的资源都一股脑地放进集群里面去。

在各种自定义资源被放进去之后,就会有人问,这放进去是挺方便的,但是放进去就会生效吗?是的,资源的生效就是Operator的功劳。下面我们就开始介绍Operator。

2. 什么是Operator

首先随便翻看一本词典看一下operator这个词的定义:操作员/运算符,是个名词。那么,operator描述的应该是一个围绕"操作、控制"概念的东西。为了让大家有个更直观的认识,我们来举一个例子,比如 1 + 2 = 3,这个 "+" 就是一个operator(运算符),这个 "+" 让两个数字发生了一些互动(相加)。

有了词典里的概念铺垫后,我们继续往下分析,既然是一种操作或运算,那么在k8s中,是谁来操作?而被操作的对象又是什么呢?让我们来看一下OperatorFramework官网上对于Operator的解释:

WHAT IS AN OPERATOR AFTER ALL?

An Operator represents human operational knowledge in software, to reliably manage an application. They are methods of packaging, deploying, and managing a Kubernetes application.

从这个定义中,我们可以看到,这个operator是指由人发出的,对k8s应用(Kubernetes application)展开的操作。一般围绕应用的操作有哪些?部署、升级、扩缩容、卸载等等。我们可以先这样理解,operator应该就是一个类似控制器的东西,里面含有一些运维操作(后面会继续展开,其实不仅仅是这些)

较真一点的读者可能会问,既然这样,这东西叫controller是不是会更贴切一点呢?事实上,问出这个问题的读者,和真相很接近了,每个operator基本都会有个控制器,但又不仅仅只有一个控制器,还会有前面提到过的资源定义: CRD (CustomResourceDefinition) 。每种自定义资源背后都会有一个或多个控制器,让这些资源看起来像活的一样,如下面的YAML样例:

这个叫Bob的人,生日和性别是不可变属性,无法修改;而位置是可以修改的,可以从家改到公司,但是改完之后会有一段时间处于不Ready的状态,因为他正在去上班的路上。去哪个公司上班呢,他在helloworld公司工作,所以他是去这家公司上班。

apiVersion: v1
kind: Human
metadata:name: Bob
spec: birth: 648489237sex: malelocation: homecompany: helloworld
status:- lastProbeTime: nulllastTransitionTime: "2022-07-20T08:41:04Z"status: "True"type: Ready

通过上面这段YAML我们可以发现,当我们关注于对象终态的时候,我们就不太关注这个控制过程,这个Bob怎么去上班的,是开车还是地铁去的,其实我们并不关心。如果类比到普通的日常实践,也是这样:做一个应用的存储位置迁移,我们只需要设置这个应用新的存储位置,至于怎么迁移过去,是用网络命令传输过去的还是物理上用硬盘拷贝过去我们不关心,迁移过程中数据一致性我们也不关心,只知道会有operator把这些都给搞定。

所以,operator其实是一种架构理念,它区别于常见的shell等运维脚本方案:operator希望应用能够自己管理自己,而不是由运维人员写一堆脚本从外围来控制他们。不过,如果仅仅是这样,可能operator也只能叫controller了,只是一些自控制的逻辑而已。从最前面提到的operator的概念可以看出,operator能够让两种以上的资源产生一些互动关系,那么这是如何实现的呢?

我们继续用上面Human的例子再加个YAML:

这个helloworld公司也可以用一个资源对象来描述。如果我们把这个公司的isOpen改成true,这个company会有个控制器来遍历所有的Human资源,把spec.company="helloworld"的人(比如Bob)的location全改成公司,这样就会让每个公司的人都动起来,想各种办法来公司上班。

apiVersion: v1
kind: Company
metadata:name: helloworld
spec: startTime: 932488234isOpen: false

从上面的例子可以看出,每个控制器只负责自己的那部分,但从顶层往下看,已经实现了级联控制,能够实现牵一发而动全身的效果。这个就是上面所提到的operator的更深一层的机制:能够像运算符一样,让几种资源产生某种互动关系,一起协作完成一些复杂的工程动作。

3. 如何实现K8S Operator

不管是原生 YAML / Helm 还是 Kustomize,都是通过配置来搞定各类事情。然而 CRD + Operator 就不一样了,它们让你直接接入 apiserver,作为 K8S 的一部分监听所有你关心的对象,并通过代码进行状态维持及管理。因为 CRD 的开发是非常复杂的,除了业务逻辑之外,还需要做很多基础的工作,非常不便,所以有了 Operator 的开发框架(常见的有 KubeBuilder 和 Operator-SDK),让开发人员专注于 CRD 的业务代码开发。

我们可以来看一下operator的架构实现,这个有助于我们理解operator的工作原理:

虽然有了 KubeBuilder 或 Operator-SDK 开发框架,但 Operator 的开发在当前所有的几类组件托管方案当中仍然是最为复杂的。前前后后需要 CRD 设计及安装,编译 Operator 及部署到集群,最后再下发 CR,外围为了配套这些内容可能还需要上面 Helm 或 Kustomize 的协助,配合对应的 CICD 流程及工具。

Spark Operator

Spark Operator是大数据分布式系统在k8s场景一次经典的实践。原本Spark的作业提交是需要通过spark-submit命令,但有了Spark Operator之后,我们可以直接向k8s提交作业YAML,然后Spark Operator监听CR,将这一作业提交给控制器。实现了我们前文提到的,将作业资源放在k8s集群进行管理这一目标。

4. 大数据通用Operator设计与实践

上文讲述了operator实现的复杂性。不过,我们发现,越是这样复杂的应用,越是会有一些共通性:因为这些复杂应用基本都是分布式应用,只是在某些状态或部署顺序上的有些特殊需求。于是,我们针对这个现状,开发了一款通用的大数据Operator。

这个通用Operator的架构设计如下:

与市面上常见的golang编写的operator不同的是,我们鼓励用户不编写代码,而是直接用yaml来描述控制逻辑,按照 感知/决策/执行 三大环节来进行控制器的逻辑分解和编排设计。同时,因为有这几个环节抽象的辅助,用户在设计operator的时候能够更有目的性,对于复杂场景,不引入过多的复杂逻辑流,尽量用无状态的方式解决问题。

同时,我们还借鉴了前端框架React中的VirtualDOM的设计,在云原生场景下,引入了VirtualResource这样的一个概念。VirtualResource能够将云原生对象资源映射进行Operator的内存数据库中,让控制器能够用SQL语法快速查询和操作这些资源对象,简化Reconcile(调和)场景的逻辑复杂性。对照React框架中生命周期的概念,VirtualResource也存在生命周期的概念,用户能够控制在资源变化的不同阶段,追加一些自定义的运维描述动作。

我们在大量使用helm的情况下,发现golang template语法在进行模板渲染的时候,还是不够灵活。于是我们把整体架构栈切换到python,采用jinja2进行控制器的语法渲染,同时我们也保留helm在渲染框架中,用户能够无缝切换两种渲染引擎。

这个通用Operator的控制器将原本需要golang编写的控制层逻辑,简化成使用 cmd(指令) + yaml(资源) 的方式进行描述。控制器的描述示例如下:通过helm将vvp这个应用的所有yaml下发,监听service的状态变化,同步更新ingress资源的状态。

default:def: crd.yamldeploy:- cmd: helmchart: vvp/vvpvalues: vvp/values.yamlmaintain:- watch:category: ResourceDidChangekind: ServiceapiVersion: v1action:- cmd: kube-patchfile: ingressUpdate.yaml

5. 总结

对于承载组件 (Component) 这个概念而言,CRD+Operator 可以说是最为复杂的,但是又是最万能的,如果 Helm 或者 Kustomize 无法满足需求,Operator 基本上是唯一的选择。另一方面来说,CRD+Operator 一般又会和 Helm / Kustomize 相辅相成一起出现,最难搞的事情通过 Operator 与 apiserver 交互解决,剩下的胶水粘合,各种 YAML 拼接之类的交给 Helm / Kustomize 搞定。

同时,我们也可以看出,CRD+Operator是云原生演进时期的方案,特别适合原本非k8s的软件架构上k8s。那些原本就在k8s架构下出现的软件方案,会逐渐淡化Operator这个概念: 所有的工作负载都有能力和k8s apiserver交互。

对于承载SREWorks中的应用 (Application) 这个概念而言,Operator 是不合适的,无他,太复杂了。一般来说,Operator 只要管好自己这个独立功能在 K8S 中的生命周期就已经足够了。从目前的社区方向来看,Operator 不会作为一整个业务场景应用解决方案去裸提供,而是与 Helm / Kustomize / KubeVela / AppManager 等集成并作为一个整体 (组件 or 应用) 对外发布。

后续文章我们会分享更多的Kubernetes组件和应用管理工具,均会发布在我们的公众号“阿里智能运维”上,请大家持续关注~也欢迎大家在公众号后台留言想了解的内容和感兴趣的相关话题,与SREWorks团队进行交流。

Kubernetes资源编排系列之四: CRD+Operator篇相关推荐

  1. Kubernetes 资源编排系列之四:CRD+Operator 篇

    1. 什么是 CRD 如果 K8S 中的自带资源类型不足以满足业务需求,需要定制开发资源怎么办?自定义资源(Custom Resource)由此产生.那么,如何让 Kubernetes 认识这些自定义 ...

  2. Kubernetes资源编排系列之五: OAM篇

    作者 雪尧(郭耀星) 炯思(钟炯恩) 前文我们提到了 Helm / Kustomize / CRD+Operator 这些方式,都可以在各自的领域很好的承载一个组件 (Component) 的概念.但 ...

  3. Kubernetes系列之Helm介绍篇

    本次系列使用的所需部署包版本都使用的目前最新的或最新稳定版,安装包地址请到公众号内回复[K8s实战]获取 介绍 Helm 是 Deis 开发的一个用于 Kubernetes 应用的包管理工具,主要用来 ...

  4. 云运维拓扑图_云原生架构之【Kubernetes(K8s)】第四部分:资源编排部署和运维管理...

    kubectl 是 K8s 集群的命令行工具,通过 kubectl 能够对集群本身进行管理,并能够在集群上进行容器化应用的安装部署. kubectl 工具已包含在 K8s 的 Server.Node ...

  5. Kubernetes更优雅的监控工具Prometheus Operator

    Kubernetes更优雅的监控工具Prometheus Operator [TOC] 1. Kubernetes Operator 介绍 在 Kubernetes 的支持下,管理和伸缩 Web 应用 ...

  6. 我的编程奋斗历程[四部曲之四]-决定创业篇

    [作者] 网名: 猪头三 站点: http://www.x86asm.com Email: 643439947@qq.com QQ: 643439947 编程生涯: 2001-至今[15年] 职业生涯 ...

  7. mldonkey系列之四──Mldonkey命令解释[zt]

    mldonkey系列之四──Mldonkey命令解释2007-10-27 周六, 21:16 MLDonkey拥有一个简单的内部命令解释器.多数如telnet.Web或GUI这样Mldonkey的界面 ...

  8. 进程——Windows核心编程学习手札系列之四

    进程 --Windows核心编程学习手札系列之四 进程是一个正在运行的程序的实例,有两个部分组成:一个是操作系统用来管理进程的内核对象,内核对象是系统用来存放关于进程的统计信息的地方:另一个是地址空间 ...

  9. 减少运维工作量,如何通过 ROS 轻松实现资源编排新方式

    在日常工作中,我们一定遇到过需要快速构建系统的工作情形: 作为资源管理人员,需要接收一定数量以及配置的资源申请,这些申请要求网络.存储设备按需到位: 作为开发人员,需要将一套开发环境,复制一份测试环境 ...

最新文章

  1. XScroll.js更新:加入交错切换效果,附思路
  2. Android 6.0.1 Location Service 分析
  3. java proxy
  4. 校验用户登录手机端还是PC端,是否微信浏览器打开
  5. iPhone 13系列相机有大升级:全系支持光学防抖功能
  6. Java面向对象之抽象方法抽象类、接口的使用
  7. Color Table
  8. 因 URL 意外地以“/HelloWorld”结束,请求格式无法识别。
  9. 滨江机器人餐厅_滨江机器人的视觉效果好吗?
  10. Visio画图如何保存高质量图片供论文使用
  11. 网站所在服务器查询方法
  12. 服务器主控芯片,物联网主控芯片6大架构分析 谁能独当一面
  13. yolov5之魔化修改
  14. Window10设置图标名、文件名的字体大小方法
  15. SpringBoot+Beetlsql代码生成
  16. 小米,苹果,百度,三星等公司的智能语音识别功能如何测试?
  17. 为有梦青年插上助力的翅膀 魅族开发者大赛取得圆满成功
  18. 我是郭敬明小说里手握信用金卡的银行客户,但并没有变成有头有脸的社会土豪
  19. 初学Python出现EnvironmentLocationNotFound: Not a conda environment: /anaconda3/envs/anaconda3
  20. 题解 | Coffee Chicken-2019牛客暑期多校训练营第十场B题

热门文章

  1. C语言static和const的区别
  2. C6000 DSP优化技术入门
  3. RTThread SPI 读取 W25Q16 设备ID 返回 0XFF,已解决
  4. 我的毕业设计---家庭点歌系统
  5. python爬取关注度高股票,Python爬取股票数据,让你感受一下什么是一秒钟两千条数据...
  6. 0.1、Aviator 的使用
  7. 一个人最重要的投资就是投资自己
  8. 如何构建自己的AI助理
  9. 2021年山东省安全员C证考试报名及山东省安全员C证考试试卷
  10. 数据库SQL综合分析题