华为云CCE集群节点磁盘告警处理
目录
一、告警问题
二、问题分析
三、问题处理
四、结果验证
一、告警问题
监控在华为云CCE节点磁盘空间不足告警,节点磁盘使用率100%,看到告警有两种可能:
1、CCE节点磁盘空间不足
2、CCE节点上运行的某个应用POD空间不足,导致告警该节点磁盘不足
二、问题分析
登录到该对应节点使用常用的磁盘使用空间命令查看(df -h),发现该节点磁盘空间充足,但是有一个POD的存储使用率为100%,可以得知, 该节点磁盘不足告警的原因是pod存储(pvc)溢出导致。并且 使用该pvc的应用是promethus,在我们商城生产环境中,CCE运行的promethus应用对业务没有很大的影响,仅仅是存储一些告警信息,以及POD实例弹性伸缩需要调用,重启或者处理promethus应用不会对业务造成影响。
## 以ssh 的方式登录到告警的节点df -h
查看promethus日志发现也是存在存储不足报错( no space left on device),导致promethus无法正常运行。
在我们的环境中,promethus使用有状态的方式(StatefulSet),应用名字为promethus,并且该应用所在的命名空间为monitoring,所以查看promethus应用的日志命令为:
kubectl -n monitoring logs promethus-0
三、问题处理
通过分析发下是由于promethus的pvc存储空间不足,在CCE中通过插件安装的promethus使用的pvc是由云硬盘提供的,并且是无法直接修改pvc的大小的,当你云硬盘足够大的使用,pvc会自动扩展,所有解决的办法是将云硬盘扩容,由之前的10G扩展到20G。
扩展云硬盘后可以看到promethus使用的pv和pvc由10G变成了20G,查看pv和pvc的命令为:
### 查看k8s pv的命令kubectl -n monitoring get pv |grep pvc-prometheus### 查看k8s pvc的命令kubectl -n monitoring get pvc |grep pvc-prometheus
由于前面说到我们商城环境对promethus的依赖不大,所以优化磁盘的方法还可以缩短promethus数据保留时间,由15天缩短至7天。
## 修改 promethus应用的数据保留时间,使用的命令kubectl -n monitoring edit sts promethus
四、结果验证
由于使用kubectl edit 命令修改应用参数,应用自动重启,所有我们就没有必要手动重启应用,扩展云硬盘和修改应用数据保留时间后,需要查看promethus应用是否运行正常,并且日志是否正常即可。使用的命令:
## 查看 promethus 应用运行状态kubectl -n monitoring get po |grep prometheus## 查看 promethus 异常处理后的日志kubectl -n monitoring logs promethus-0
华为云CCE集群节点磁盘告警处理相关推荐
- 《云原生之 华为云 》公有云华为云 CCE集群操作
目录 公有云&华为云 CCE集群操作 1. 购买云容器引擎CCE
- 达梦数据库集群节点磁盘性能测试
达梦数据库集群节点磁盘性能测试 1.本次测试磁盘 IP 共享数据盘 非共享挂载盘 192.168.157.100 /dev/pbdx15 /dmarch 192.168.157.101 /dev/pb ...
- 在华为云 CCE 上部署 EMQX MQTT 服务器集群
云进入以「应用为中心」的云原生阶段,Operator 模式的出现,则为 Kubernetes 中的自动化任务创建配置与管理提供了一套行之有效的标准规范.通过将运维知识固化成高级语言 Go/Java 代 ...
- 华为云cce 部署nacos集群docker
步骤1: 使用进入华为云节点,初始化 kubel 环境. 1)下载kubectl 2) 下载kubectl配置文件 3)安装和配置kubectl 具体操作可以在cce 集群管理页面点击命令行工具,再 ...
- 【华为云CCE】 k8s部署nacos集群
业务场景: 华为CCE,根据自己的nacos镜像,部署nacos集群.由于公司使用的是华为云CCE内网环境,不能通过外网下载镜像,只能根据公司自己的镜像进行部署.看了网上华为云CCE部署nacos集群 ...
- 阿里云搭建CDH集群配置邮箱告警
阿里云搭建CDH集群配置邮箱告警 1.阿里云默认禁止25端口号.申请阿里云开通 2.配置邮箱服务 3.cdh页面配置告警 申请开通25端口号 申请一个邮箱 开通服务smtp服务 记住授权码 cdh配置 ...
- 如何花“一点点小钱”突破华为云CCE服务的“防线”
摘要:有没有方法绕开CCE的限制,自由的调用K8s的API呢?有还便宜,2.4元/集群/天. 申明:所有的一切都是为了使得华为云可以更好,而不是为了diss它. 通过华为云购买多个K8s集群,又想使用 ...
- 华为云CCE学习笔记-部署harbor(helm模板)
一.创建CCE集群 登录华为云进入CCE控制台,创建CCE集群 集群配置自定义,由于要拉取第三方镜像要有弹性ip 使用ingress对外暴露访问,安装nginx-ingress插件 等待安装成功 创建 ...
- 华为云CCE服务不同访问方式(ingress,elb)
目录 1.ingress方式访问容器内服务 1.选择访问类型:节点访问 2.指定服务端口和容器端口 3.配置路由ingress 2.elb方式容器内访问服务 在华为云CCE中,有多种方式可以访问集群容 ...
最新文章
- 为什么要合并HTTP请求?
- java字典序列化_Java对象序列化,Serialize Java Data Object,音标,读音,翻译,英文例句,英语词典...
- IntelliJ IDEA 2018.1新特性
- python编程小学生学好吗-连小学生都在学的Python,究竟就业方向有哪些?
- layui如何集成文件服务器,layui使用upload组件实现文件上传功能
- 华为魔术手机拆机图解_华为荣耀20进水不开机
- 可口可乐造型设计_瓶型设计的一些观点
- 【论文分享】PathQG: 基于事实的神经问题生成
- wincc如何实现web发布,及具体方法
- 翁恺C语言程序设计网课笔记合集
- 基于Python将图片转换成素描图片
- Browserslist:caniuse-lite is outdated. Please run next command `npm update`
- python的撤销和回退_撤销和回退
- 浅谈go语言交叉编译
- 20、Theos越狱调试Wallet
- 浅谈大数据背景下数据库安全保障体系
- 里氏代换原则C#详解
- 学生管理系统登录部分
- 如何高效学习python
- 什么是云HIS?为什么HIS系统要上云?云HIS系统有哪些特点?
热门文章
- sql语句转换成linq
- css简易手风琴效果
- 最新App、手机网站尺寸规范—移动设备界面UI设计尺寸规范
- 开源地理信息系统软件
- 采用Cartographer、LIO-SAM构建三维点云地图,采用Octomap构建八叉树地图(三维栅格地图)
- Anaconda安装踩雷+解决Anaconda Navigator打不开
- 一文读懂Kubernetes Scheduler扩展功能
- 计算机考研 学渣逆袭上清华,学渣逆袭:曾挂科8门学分绩点1.08 考上北大研究生...
- Java 获取访问者的IP地址
- 10月新电影让KOOCAN吃了土,11月连土都没得吃了