目录

一、告警问题

二、问题分析

三、问题处理

四、结果验证


一、告警问题

监控在华为云CCE节点磁盘空间不足告警,节点磁盘使用率100%,看到告警有两种可能:

1、CCE节点磁盘空间不足

2、CCE节点上运行的某个应用POD空间不足,导致告警该节点磁盘不足

二、问题分析

登录到该对应节点使用常用的磁盘使用空间命令查看(df -h),发现该节点磁盘空间充足,但是有一个POD的存储使用率为100%,可以得知, 该节点磁盘不足告警的原因是pod存储(pvc)溢出导致。并且 使用该pvc的应用是promethus,在我们商城生产环境中,CCE运行的promethus应用对业务没有很大的影响,仅仅是存储一些告警信息,以及POD实例弹性伸缩需要调用,重启或者处理promethus应用不会对业务造成影响。

## 以ssh 的方式登录到告警的节点df -h

查看promethus日志发现也是存在存储不足报错( no space left on device),导致promethus无法正常运行。

在我们的环境中,promethus使用有状态的方式(StatefulSet),应用名字为promethus,并且该应用所在的命名空间为monitoring,所以查看promethus应用的日志命令为:

kubectl  -n monitoring logs promethus-0  

三、问题处理

通过分析发下是由于promethus的pvc存储空间不足,在CCE中通过插件安装的promethus使用的pvc是由云硬盘提供的,并且是无法直接修改pvc的大小的,当你云硬盘足够大的使用,pvc会自动扩展,所有解决的办法是将云硬盘扩容,由之前的10G扩展到20G。   

扩展云硬盘后可以看到promethus使用的pv和pvc由10G变成了20G,查看pv和pvc的命令为:

### 查看k8s pv的命令kubectl -n monitoring get pv |grep pvc-prometheus### 查看k8s pvc的命令kubectl -n monitoring get pvc |grep pvc-prometheus

由于前面说到我们商城环境对promethus的依赖不大,所以优化磁盘的方法还可以缩短promethus数据保留时间,由15天缩短至7天。

## 修改 promethus应用的数据保留时间,使用的命令kubectl -n monitoring edit sts  promethus

四、结果验证

由于使用kubectl  edit  命令修改应用参数,应用自动重启,所有我们就没有必要手动重启应用,扩展云硬盘和修改应用数据保留时间后,需要查看promethus应用是否运行正常,并且日志是否正常即可。使用的命令:

## 查看 promethus 应用运行状态kubectl -n monitoring get po |grep prometheus## 查看 promethus 异常处理后的日志kubectl  -n monitoring logs promethus-0  

华为云CCE集群节点磁盘告警处理相关推荐

  1. 《云原生之 华为云 》公有云华为云 CCE集群操作

    目录 公有云&华为云   CCE集群操作 1. 购买云容器引擎CCE

  2. 达梦数据库集群节点磁盘性能测试

    达梦数据库集群节点磁盘性能测试 1.本次测试磁盘 IP 共享数据盘 非共享挂载盘 192.168.157.100 /dev/pbdx15 /dmarch 192.168.157.101 /dev/pb ...

  3. 在华为云 CCE 上部署 EMQX MQTT 服务器集群

    云进入以「应用为中心」的云原生阶段,Operator 模式的出现,则为 Kubernetes 中的自动化任务创建配置与管理提供了一套行之有效的标准规范.通过将运维知识固化成高级语言 Go/Java 代 ...

  4. 华为云cce 部署nacos集群docker

    步骤1: 使用进入华为云节点,初始化 kubel 环境. 1)下载kubectl 2)  下载kubectl配置文件 3)安装和配置kubectl 具体操作可以在cce 集群管理页面点击命令行工具,再 ...

  5. 【华为云CCE】 k8s部署nacos集群

    业务场景: 华为CCE,根据自己的nacos镜像,部署nacos集群.由于公司使用的是华为云CCE内网环境,不能通过外网下载镜像,只能根据公司自己的镜像进行部署.看了网上华为云CCE部署nacos集群 ...

  6. 阿里云搭建CDH集群配置邮箱告警

    阿里云搭建CDH集群配置邮箱告警 1.阿里云默认禁止25端口号.申请阿里云开通 2.配置邮箱服务 3.cdh页面配置告警 申请开通25端口号 申请一个邮箱 开通服务smtp服务 记住授权码 cdh配置 ...

  7. 如何花“一点点小钱”突破华为云CCE服务的“防线”

    摘要:有没有方法绕开CCE的限制,自由的调用K8s的API呢?有还便宜,2.4元/集群/天. 申明:所有的一切都是为了使得华为云可以更好,而不是为了diss它. 通过华为云购买多个K8s集群,又想使用 ...

  8. 华为云CCE学习笔记-部署harbor(helm模板)

    一.创建CCE集群 登录华为云进入CCE控制台,创建CCE集群 集群配置自定义,由于要拉取第三方镜像要有弹性ip 使用ingress对外暴露访问,安装nginx-ingress插件 等待安装成功 创建 ...

  9. 华为云CCE服务不同访问方式(ingress,elb)

    目录 1.ingress方式访问容器内服务 1.选择访问类型:节点访问 2.指定服务端口和容器端口 3.配置路由ingress 2.elb方式容器内访问服务 在华为云CCE中,有多种方式可以访问集群容 ...

最新文章

  1. 为什么要合并HTTP请求?
  2. java字典序列化_Java对象序列化,Serialize Java Data Object,音标,读音,翻译,英文例句,英语词典...
  3. IntelliJ IDEA 2018.1新特性
  4. python编程小学生学好吗-连小学生都在学的Python,究竟就业方向有哪些?
  5. layui如何集成文件服务器,layui使用upload组件实现文件上传功能
  6. 华为魔术手机拆机图解_华为荣耀20进水不开机
  7. 可口可乐造型设计_瓶型设计的一些观点
  8. 【论文分享】PathQG: 基于事实的神经问题生成
  9. wincc如何实现web发布,及具体方法
  10. 翁恺C语言程序设计网课笔记合集
  11. 基于Python将图片转换成素描图片
  12. Browserslist:caniuse-lite is outdated. Please run next command `npm update`
  13. python的撤销和回退_撤销和回退
  14. 浅谈go语言交叉编译
  15. 20、Theos越狱调试Wallet
  16. 浅谈大数据背景下数据库安全保障体系
  17. 里氏代换原则C#详解
  18. 学生管理系统登录部分
  19. 如何高效学习python
  20. 什么是云HIS?为什么HIS系统要上云?云HIS系统有哪些特点?

热门文章

  1. sql语句转换成linq
  2. css简易手风琴效果
  3. 最新App、手机网站尺寸规范—移动设备界面UI设计尺寸规范
  4. 开源地理信息系统软件
  5. 采用Cartographer、LIO-SAM构建三维点云地图,采用Octomap构建八叉树地图(三维栅格地图)
  6. Anaconda安装踩雷+解决Anaconda Navigator打不开
  7. 一文读懂Kubernetes Scheduler扩展功能
  8. 计算机考研 学渣逆袭上清华,学渣逆袭:曾挂科8门学分绩点1.08 考上北大研究生...
  9. Java 获取访问者的IP地址
  10. 10月新电影让KOOCAN吃了土,11月连土都没得吃了