文章目录

  • 01 引言
  • 02 案例
    • 2.1 污点与容忍设置
      • 2.1.1 Node设置污点
      • 2.1.2 Pod声明容忍
      • 2.1.3 小结
    • 2.2 特殊情况
  • 03 应用场景
    • 3.1 独占节点
    • 3.2 具有特殊硬件设备的节点
    • 3.3 定义Pod驱逐行为,以应对节点故障
  • 04 文末

01 引言

声明:本文为《Kubernetes权威指南:从Docker到Kubernetes实践全接触(第5版)》的读书笔记

在前面的博客《k8s教程(15)-pod之亲和性与互斥性调度》讲解的NodeAffinity节点亲和性,是在Pod上定义的一种属性,使得Pod 能够被调度到某些Node上运行(优先选择或强制要求)。

Taint(污点) 则正好相反,它让Node拒绝Pod的运行。简单地说,被标记为Taint的节点就是存在问题的节点,比 如磁盘要满、资源不足、存在安全隐患要进行升级维护,希望新的Pod不会被调度过来。

但被标记为Taint的节点并非故障节点,仍是有效的工作节点,所以仍需将某些Pod调度到这些节点上时,可以通过使用Toleration属性来实现。

02 案例

2.1 污点与容忍设置

在默认情况下,在Node上设置一个或多个Taint之后,除非Pod明确声明能够容忍这些污点,否则无法在这些Node上运行。

2.1.1 Node设置污点

可以用kubectl taint命令为Node设置Taint信息:

kubectl taint nodes node1 key=value:NoSchedule

描述:这个设置为node1加上了一个Taint,该Taint的键为key,值为valueTaint的效果是NoSchedule,这意味着除非Pod明确声明可以容忍这个Taint,否则不会被调度到node1

2.1.2 Pod声明容忍

Pod上声明容忍的例子如下,下面的两个Toleration都被设置为可以容忍(Tolerate)具有该TaintNode,使得Pod能够被调度到node1上:

tolerations:
- key: "key"operator: "Equal"value: "value"effect: "NoSchedule"

或者

tolerations:
- key: "key"operator: "Exists"effect: "NoSchedule"

2.1.3 小结

PodToleration声明中的keyeffect需要与Taint的设置保持一致,并且满足以下条件之一:

条件
key 空的key配合Exists操作符能够匹配所有键和值
operator 值是Exists(无须指定value), operator的值是Equal并且value相等, 如果不指定operator,则默认值为Equal
effect 空的effect匹配所有effect,在上面的例子中,effect的取值为NoSchedule,还可以取值为PreferNoSchedule,这个值的意思是优先,也可以算作NoSchedule的软限制版本 - 一个Pod如果没有声明容忍这个Taint,则系统会尽量避免把这个Pod调度到这一 节点上,但不是强制的

系统允许在同一个Node上设置多个Taint,也可以在Pod上设置多个Toleration

Kubernetes调度器处理多个Taint和Toleration的逻辑顺序为:首先列出节点中所有的Taint,然后忽略Pod的Toleration能够匹配的部分,剩下的没被忽略的Taint就是对Pod的效果了

2.2 特殊情况

下面是几种特殊情况:

  • 如果在剩余的Taint中存在effect=NoSchedule,则调度器不会把该Pod调度到这一节点上;
  • 如果在剩余的Taint中没有NoSchedule效果,但是有PreferNoSchedule效果,则调度器会尝试不把这个Pod指派给这个节点;
  • 如果在剩余的Taint中有NoExecute效果,并且这个Pod已经在该节点上运行,则会被驱逐;
  • 如果没有在该节点上运行,则也不会再被调度到该节点上。

例如,我们这样对一个节点进行Taint设置:

kubectl taint nodes node1 keyl=valuel:NoSchedule
kubectl taint nodes node1 keyl=valuel:NoExecute
kubectl taint nodes node1 key2=value2:NoSchedule

然后在Pod上设置两个Toleration:

tolerations:
- key: "key1"operator: "Equal"value: "valuel"effect: "NoSchedule"
- key: "key1"operator: "Equal"value: "valuel"effect: "NoExecute"

结果:

  • 这样的结果是该Pod无法被调度到node1上,这是因为第3个Taint没有匹配的Toleration
  • 但是如果该Pod已经在node1上运行了,那么在运行时设置第3个Taint,它还能继续在node1上运行,这是因为Pod可以容忍前两个Taint。

一般来说,如果给Node加上effect=NoExecuteTaint,那么在该Node上正在运行的所有无对应TolerationPod都会被立刻驱逐,而具有相应TolerationPod永远不会被驱逐。不过,系统允许给具有NoExecute效果的Toleration加入一 个可选tolerationSeconds“字段,这个设置表明Pod可以在Taint添加到Node之后还能在这个Node上运行多久(单位为s):

tolerations:
- key: "key1"operator: "Equal"value: "valuel"effect: "NoExecute"tolerationSeconds: 3600

上述定义的意思是,如果Pod正在运行,所在节点都被加入一个匹配的Taint,则这个Pod会持续在这个节点上存活3600s后被逐出。如果在这个宽限期内Taint被移除,则不会触发驱逐事件

03 应用场景

TaintToleration一种处理节点并且让Pod进行规避或者驱逐Pod的弹性处理方式,下面列举一些常见的用例。

3.1 独占节点

如果想要拿出一部分节点专门给一些特定应用使用,则可以为节点添加这样Taint

kubectl taint nodes nodename dedicated=groupName:NoSchedule

然后给这些应用的Pod加入对应的Toleration,这样,带有合适TolerationPod就会被允许同使用其他节点一样使用有Taint的节点

通过自定义Admission Controller也可以实现这一目标。如果希望让这些应用独占一批节点,并且确保它们只能使用这些节点,则还可以给这些Taint节点加入类似的标签dedicated=groupName,然后Admission Controller需要加入节点亲和 性设置,要求Pod只会被调度到具有这一标签的节点上。

3.2 具有特殊硬件设备的节点

在集群里可能有一小部分节点安装了特殊的硬件设备(如GPU芯片),用户自然会希望把不需要占用这类硬件的Pod排除在外,以确保对这类硬件有需求的Pod能够被顺利调度到这些节点上

可以用下面的命令为节点设置Taint

kubectl taint nodes nodename special=true:NoSchedule
kubectl taint nodes nodename special=true:PreferNoSchedule

然后在Pod中利用对应的Toleration来保障特定的Pod能够使用特定的硬件。

和上面独占节点的示例类似,使用Admission Controller来完成这一任务会更方便,例如:

  • Admission Controller使用Pod的一些特征来判断这些Pod,如果可以使用这些件,就添加Toleration来完成这一工作;
  • 要保障需要使用特殊硬件的Pod只被调度到安装这些硬件的节点上,则还需要一些额外的工作,比如将这些特殊资源使用opaque-int-resource的方式对自定义资源进行量化,然后在PodSpec中进行请求;
  • 也可以使用标签的方式来标注这些安装有特别硬件的节点,然后在Pod 中定义节点亲和性来实现这个目标。

3.3 定义Pod驱逐行为,以应对节点故障

前面提到的NoExecute这个Taint效果对节点上正在运行的Pod有以下影响:

  • 没有设置Toleration的Pod会被立刻驱逐;
  • 配置了对应Toleration的Pod,如果没有为tolerationSeconds赋值,则会一直留在这一节点中;
  • 配置了对应Toleration的Pod且指定了tolerationSeconds值,则会在指定的时间后驱逐(注意,在节点发生故障的情况下,系统将会以限速(rte- limiting)模式逐步给Node设置Taint,这样就能避免在一些特定情况下(比如
    Master暂时失联)有大量的Pod被驱逐)。

注意,Kubernetes会自动给Pod添加下面几种Toleration:

  • key为node.kubernetes.io/not-ready,并配置tolerationSeconds=300;
  • key 为node.kubernetes.io/unreachable,并配置tolerationSeconds=300。

以上添加的这种自动机制保证了在某些节点发生一些临时性问题时,Pod默认能够继续停留在当前节点运行5min等待节点恢复,而不是立即被驱逐,从而避免系统的异常波动。

另外,Kubernetes从1.6版本开始引入两个与Taint相关的新特性,TaintNodesByCondition及TaintBasedEvictions用来改善异常情况下的Pod调度与驱逐问题,比如在节点内存吃紧、节点磁盘空间已满、节点失联等情况下,是 否自动驱逐某些Pod或者暂时保留这些Pod等待节点恢复正常。这个过程的完整逻 辑基本如下。

  1. 不断地检查所有Node状态,设置对应的Condition;
  2. 不断地根据Node Condition设置对应的Taint;
  3. 不断地根据Taint驱逐Node上的Pod。

其中,检查Node的状态并设置NodeTaint就是TaintNodesByCondition特性,即在Node满足某些特定的条件时,自动为Node节点添加Taint,目前主要有以下几种条件:

条件 描述
node.kubernetes.io/not-ready:节点未就绪 对应NodeCondition Ready为False的情况
node.kubernetes.io/unreachable:节点不可触达 对应NodeCondition Ready.为Unknown的情况
node.kubernetes.io/out-of-disk 节点磁盘空间已满
node.kubernetes.io/network-unavailable 节点网络不可用
node.kubernetes.io/unschedulable 节点不可调度
node.cloudprovider,kubernetes.io/uninitialized 如果kubelet是由"外部"云服务商启动的,则该污点用来标识某个节点当前为不可用状态。在云控制器 (cloud-controller-manager)初始化这个节点以后,kubelet会将此污点移除

自Kubernetes 1.13开始,上述两个特性被默认启用,TaintNodesByCondition 这个特性只会为节点添加NoSchedule效果的污点,TaintBasedEviction则为节点添加NoExecute效果的污点。

在TaintBasedEvictions特性被开启之后,kubelet会在有资源压力时对相应的Node节点自动加上对应的NoExecute效果的Taint,例如 node.kubernetes.io/memory-pressure、node.kubernetes.io/disk-pressure。

如果Pod没有设置对应的Toleration,则这部分Pod将被驱逐,以确保节点不会崩溃。

04 文末

本文主要讲解了pod的污点与容忍的概念、案例及应用的场景,希望能帮助到大家,谢谢大家的阅读,本文完!

k8s教程(pod篇)-污点与容忍相关推荐

  1. k8s资源控制(污点和容忍)

    文章目录 一: 污点 1.1 污点的作用 1.2 污点的组成 1.3 设置,查看,去除污点 1.4 示例 二:容忍 2.1 容忍的作用 2.2 示例 2.2.1 将两个节点都设置污点 2.2.2 在p ...

  2. k8s serviceaccount pod亲和性 污点

  3. K8S中的亲和,污点和容忍

    一.引入故事 在讲述一系列相关专业术语之前,先尝试用一个通俗易懂的故事来说明 Kubernetes 中 node 与 pod 之间的爱恨情仇. 雄性(node)| 雌性(pod)在银河系以外的一个星球 ...

  4. kubernetes 【调度和驱逐】【1】污点和容忍度

    kubernetes 学习污点和容忍度 tags: 策略 文章目录 kubernetes 学习污点和容忍度 1. 概念 2. 示例 3. 基于污点的驱逐 4. 基于节点状态添加污点 1. 概念 节点亲 ...

  5. k8s教程(pod篇)-定向调度

    文章目录 01 引言 02 举例 Step1:给Node打上标签 Step2:Pod指定NodeSelector Step3:验证 03 预定义的标签 04 文末 01 引言 声明:本文为<Ku ...

  6. 图解 K8S(06):调度利器之污点与容忍度(压力驱逐)

    本系列教程目录(已发布): 图解 K8S(01):基于ubuntu 部署最新版 k8s 集群 图解 K8S(02):认识 K8S 中的资源对象 图解 K8S(03):从 Pause 容器理解 Pod ...

  7. k8s之Pod详解(五)【Kubernetes(K8S) 入门进阶实战完整教程,黑马程序员K8S全套教程(基础+高级)】

    参考于Kubernetes(K8S) 入门进阶实战完整教程,黑马程序员K8S全套教程(基础+高级) Pod Pod的结构 每个Pod中都可以包含一个或者多个容器 这些容器可以分为两类: 用户自定义用的 ...

  8. 《Kubernetes知识篇:Kubernetes污点和容忍度》

    文章目录 一.简介 二.pod对象的排斥等级 三.污点且无容忍度 3.1.污点之排斥等级NoSchedule 3.2.污点之排斥等级NoExecute 3.3.污点之排斥等级PreferNoSched ...

  9. k8s学习-污点和容忍(概念、模版、创建、删除)

    目录 概念 模版 实战 添加污点 添加容忍 移除污点 参考 概念 污点(Taint)使节点能够排斥/驱逐一类特定的 Pod,通过给 Node 打一些污点,来限制 Pod 调度到某些 Node 上. 容 ...

  10. k8s 亲和、反亲和、污点、容忍

    目录 一.K8s调度 二.亲和与反亲和 2.1.Pod和Node 2.2.硬亲和和软亲和 三.污点与容忍 3.1  污点(Taint) 3.1.1  污点的组成 3.1.2  污点的设置和去除 3.2 ...

最新文章

  1. 经典算法面试题目-判断s2是否是s1的旋转字符串(1.8)
  2. MySQL 也替换了master、slave
  3. mysql触发器学习的一个小错误
  4. 性能调优-硬盘方面,操作系统方面,文件系统方面
  5. C语言编写——抢30游戏
  6. java中使用nextLine(); 没有输入就自动跳过的问题?
  7. JAVA一元线性回归法_一元线性回归的java实现
  8. 什么时候开始论文查重?
  9. 怎么去除WPS图表外面默认的灰色的框
  10. 转linux时间格式,Linux命令之date - 显示、修改系统日期时间[转]
  11. C300 OLT自动下发WAN连接指导配置
  12. 【codeforces 894A】QAQ
  13. 迅雷thunder://协议解密
  14. 使用QQ推广作为客服或留言(转载)
  15. 仿新浪微博发布时 @ 及 #某话题# 的效果
  16. Canvas画椭圆的方法
  17. 《庄子·外篇·骈拇第八》
  18. 是谁浇了李彦宏一头水?
  19. bootstrap X-editable使用。
  20. 数据结构与算法 10.30

热门文章

  1. 未来中国最热门的十大职业
  2. RuntimeError: Error(s) in loading state_dict for BNInception:size mismatch for
  3. JMeter工具:场景设计,场景设置,场景运行,性能参数配置,测试监控
  4. java catch中throw_Java中异常关键字throw和throws使用方式的理解
  5. Go语言log日志包详解及使用
  6. Android6.0权限的处理
  7. 深度迁移度量网络 Deep Transfer Metric Learning
  8. 开放api接口平台:appid、appkey、appsecret
  9. java文件一行一行读取_java一行一行写入或读取文件
  10. MySQL的 初步认识 - 细节狂魔