浅谈大规模k8s集群关于events的那些坑

  • 背景
  • 一、用户通过kubectl list event
  • 二、kubernetes-dashboard list events
  • 三、直接在集群中list events

背景

随着k8s集群规模的增加,集群内的object数量也与日俱增,那么events的数量也会伴随其大量增加,那么当用户请求这些events的时候apiserver的负载压力就会增加,很可能造成apiserver处理请求延迟,首先需要分析一下请求events的几种方式:
1、用户通过kubectl list events
2、kubernetes-dashboard list events
3、admin用户直接在集群内list events
下面我会针对每一种情况提出一些可行的解决方案


一、用户通过kubectl list event

对于用户通过kubectl来list events,比如某个pod一直处于terminating的状态,用户需要排查原因,一般会describe该pod,然后可以查看到相应的异常events信息,这个操作就会list该pod的events,一般情况,k8s集群的events是存储在etcd中的,用户kubectl后会请求apiserver,然后apiserver会查询etcd,再将查询结果返回给用户。
优化方法:
首先我们可以考虑将events保存在其他地方,比如es等数据库,然后可以通过在k8s-proxy或者webhook对用户的event请求进行拦截,将用户的请求转至查询es或者其他数据库,然后再将查询结果转换为需要的方式返回给用户,这样一方面可以减轻apiserver的负载压力,而且还可以减轻etcd的压力,该方式经过验证是可性且有效的。

二、kubernetes-dashboard list events

在工作中,有段时间发现apiserver经常有延迟,经过监控分析发现dashboard list events的请求数量非常大,通过分析源码,发现dashboard中list其他object时,比如node,也会将该node上的所有pod的events都list一遍,这部分在dashboard界面上其实是没有显示的,我们可以考虑修改一下dashboard的代码,将这部分list events的请求禁止掉;另外可以和上面用户通过kubectl请求一样,我们将dashboard的请求拦截一下,转至查询es或者其他数据库。

三、直接在集群中list events

对于直接在集群中list events,目前还有比较好的解决方案,不过其实我们将上述两种情况解决后会有效地减轻apiserver的负载压力。

浅谈大规模k8s集群关于events的那些坑相关推荐

  1. 吊炸天!一行命令快速部署大规模K8S集群!!!

    吊炸天!一行命令快速部署大规模K8S集群!!! 先决条件 请事先准备好几台服务器(测试环境虚拟机即可) 请事先设置好相同的root密码(方便同时操作多服务器) 请事先在Linux安装好docker 请 ...

  2. 浅谈Oracle RAC --集群管理软件GI

    浅谈Oracle RAC --集群管理软件GI基本架构 今天周五,想想可以过周末,心情大好.一周中最喜欢过的就是周五晚上,最不喜欢过的是周日晚上和周一,看来我不是个热爱劳动的人啊.趁着现在心情愉悦,赶 ...

  3. 火山引擎李玉光:字节跳动大规模K8s集群管理实践

    嘉宾 | 李玉光   整理 | 贾凯强 出品 | CSDN云原生 2022年5月31日,在CSDN云原生系列在线峰会第6期"K8s大规模应用和深度实践峰会",火山引擎资深云原生架构 ...

  4. 浅谈350M警用集群对讲机的使用与维护

    在公安日常执勤工作中,对讲机已经成为警力队伍进行重大勤务和开展日常工作的有效通信工具和主要调度平台.350M警用集群对讲机与常规对讲机相比,具有更加强大的通信调度能力,且功能更多.保密性更好,符合警务 ...

  5. 面对大规模 K8s 集群,如何先于用户发现问题?

    作者 | 彭南光(光南) 来源 | 阿里巴巴云原生公众号 千里之堤,溃于蚁穴. 绪论 不知道大家是否经历过这样的情景:突然被用户告知系统出现问题,然后一脸懵地惶惶然排查修复:或是等到自己发现系统出现故 ...

  6. 蚂蚁宣布开源 KubeTEE:让机密计算支持大规模 K8s 集群

    作者:肖俊贤.闫守孟.秦凯伦 9月25日,在上海外滩大会可信原生技术论坛上,蚂蚁宣布开源 KubeTEE,一个云原生大规模集群化机密计算框架,解决在云原生环境中 TEE 可信执行环境技术特有的从开发. ...

  7. 浅谈高性能数据库集群——读写分离

    作者 陈彩华 贝聊Java后端工程师 文章转载交流请联系 caison@aliyun.com 复制代码 最近学习了阿里资深技术专家李运华的架构设计关于读写分离的教程,颇有收获,总结一下. 本文主要介绍 ...

  8. 浅谈高性能数据库集群 —— 读写分离

    1. 读写分离概述 2. 适用场景 3. 引入的系统复杂度问题 最近学习了阿里资深技术专家李运华的架构设计关于读写分离的教程,颇有收获,总结一下. 本文主要介绍高性能数据库集群读写分离相关理论,基本架 ...

  9. 浅谈常见的集群技术应用

    从字面上能够看出,集群是多个独立的单机集合在一起形成一个群体,即叫做集群,集群可以充分利用群体的力量,让服务发挥倍数级的提高,比如一个单体机器能处理100W/S 请求,在增加一台能就能处理200W/S ...

最新文章

  1. 【linux】Valgrind工具集详解(四):抑制错误
  2. 47.2. 配置 Tomcat 服务器
  3. Android SQLite (三 ) 全面详解(一)
  4. SQL注入(SQL注入(SQLi)攻击)攻击-联合注入
  5. 网站数据库中“密码加密”方法思考
  6. ASP.NET Core 处理 404 Not Found
  7. python mysql返回,python操作mysql数据-执行语句返回值直接返回字典类型
  8. 1.4编程基础之逻辑表达式与条件分支 02 输出绝对值
  9. 混合背包(信息学奥数一本通-T1270)
  10. git 配置beyond compare
  11. Simulink仿真入门到精通(八) M语言对Simulink模型的自动化操作及配置
  12. 在线word预览方案
  13. 无法删除文件:无法读源文件或磁盘”
  14. 爬虫-爬取豆瓣电影排行榜
  15. 【光学】基于矩阵法和等效界面法分析光学薄膜膜对反射率影响附matlab代码
  16. 超级详细的安装虚拟机教程--配图--步骤拆分
  17. mongodb分片原理,字节跳动算法工程师面试总
  18. 拯救小明(多继承+友元)
  19. 5.12四川汶川等市发生8.0级大震——国难日
  20. 财路网每日原创推送:区块链+教育,是改革的良性循环?

热门文章

  1. 怎么取消苹果手机自动续费_为取消苹果手机收费、自动续费软件烦死了,别急,今天一招教会你...
  2. 【附源码】计算机毕业设计SSM图书商城
  3. tplink错误代码51215_tplink路由器升级失败显示代码18005怎么办
  4. 遗传转化的基本知识(一)——基因转化的受体
  5. LCD 的接口类型详解
  6. 教你实现物联网HMI/网关的趋势功能
  7. python字典存在u {u'presale': u'aaa', u'presalePhone': u'13345678917'}
  8. 网络工程师售前情景训练——售前的十个关键点Ten Keys Of Presale
  9. AOP----开发简介
  10. 离心泵启动时,出口阀门必须关闭吗?