1、简介

1.1 介绍

我们 需要 监测 的集群 正在 运行的各种服务进程;集群 所有 pgs 正常 状态 为 active + clean,其余 均为 异常 状态

1.2 集群 基础 监测

集群 基础 监测 主要包括 检查 集群 健康状态,容量 使用 情况,monitor、osd 守护 进程的运行状态(up、down)

2、集群 健康 检测

哈哈,平时 比较懒,每次都要 输入 那么多 ceph,有点烦,原来 ceph 有个 交互模式(没有 命令 记忆功能,哈哈哈,失算)

2.1 交互 模式下 检测 集群 健康

# ceph## 查看 集群当前 状态,HEALTH_OK、HEALTH_WARN、HEALTH_ERR
ceph> health## 效果 与 ceph -s 一样
ceph> status## 集群 mon 相关 信息
ceph> quorum_status
ceph> mon_status

2.2 命令行 输入

哈哈,还是 使用 命令行 操作吧,能通过 上下 按键 查找,同样的命令 连续执行时, 不需要 不停的输入

## 这两个 命令 执行 的效果一样
# ceph status
# ceph -s## health : HEALTH_OK、HEALTH_WARN、HEALTH_ERR
# ceph health [detail]

备注:
    集群 健康 状态 "HEALTH_OK" 表示 集群 健康正常,若出现 "HEALTH_WARN XXX num placement group stale"时,等待 几分钟,一般 都可 自动 恢复 正常

2.3 集群 动态 监测

某些 情况下,需要 动态 持续 的 关注 集群 事件信息

# ceph -w

3、集群 容量 检测

3.1 集群 容量 查看

集群 处于 健康 状态 运行,凡事 都有个 度,存储 集群 也是一样的,不可能 一直 写入,到了 后期 需要 关注 容量 状态,毕竟 数据量越大,会 导致 整个集群 的性能 有所 降低(毕竟 不好好 检测 容量 状态,数据 阻塞 导致 的问题 可不是那么 好解决的啦);该删的的数据 就删掉,实在 没容量啦,就扩容吧,理论上 是 无限 扩展;还有 就是 数据 均衡的问题(这个 后期 再编写文章 详细 描述啦)

## ceph 中,所有 的数据 都写入 数据池中(抽象 出来的概念)
# ceph df

3.2 集群 容量 参数

一般 情况下,osd 使用 超过 85%,就不会 往 该 osd 写入数据;集群 整体 容量 超过 95% 集群 就不能 写入了;可以 调整 配置,控制 集群 的 容量,一般 不建议 调太大;osd 超过 默认告警值 就想想 数据 能不能 均衡;集群 超过 告警值, 扩容吧(哈哈哈,蹲机房 扩容)

##  配置文件中 添加 容量 配置参数,记得 重启 相关 服务 让 配置生效
## 哈哈,其实 也可以 在线 修改 配置参数,后面 单独 编写 文件介绍喽
# vim /etc/ceph/ceph.conf
...
## 集群 整体 容量 使用 上限
mon_osd_full_ratio = "0.950000" ## 单个 osd 容量 使用 上限
mon_osd_nearfull_ratio = "0.850000"
...

4、mon 检测

一般 情况下,线上 环境 都会 部署 多个 mon; 所以 对 集群 进行 数据 读写时,需要 检查 mon 状态

## dump 比 stat 更 详细,quorum_status 比 dump 更详细
# ceph mon stat
# ceph mon dump
# ceph quorum_status -f json-pretty

5、osd 检测

5.1 osd 状态

in:osd 加入 集群
    out:osd 没有 加入集群
    down:osd 加入集群,但是 服务 停止
    up:osd 加入 集群,并且 服务正在 运行

5.2 osd 状态 检测

## 检查 所有 osd 状态
# ceph osd stat
# ceph osd dump
# ceph osd tree

转载于:https://blog.51cto.com/11495268/2341185

ceph 集群 健康状态 监管相关推荐

  1. CentOS 7 搭建 Ceph 集群(nautilus 版本)

    推荐阅读 Helm3(K8S 资源对象管理工具)视频教程:https://edu.csdn.net/course/detail/32506 Helm3(K8S 资源对象管理工具)博客专栏:https: ...

  2. ceph-deploy离线部署ceph集群及报错解决FAQ

    Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...

  3. Centos7安装ceph集群

    Centos7安装ceph集群 ceph的特点及介绍 高性能 摒弃了传统的集中式存储元数据寻址的方案,采用CRUSH算法,数据分布均衡,并行度高. 考虑了容灾域的隔离,能够实现各类负载的副本放置规则, ...

  4. Ceph集群报错解决方案笔记

    文章目录 0 当前Ceph版本和CentOS版本: 1.节点间配置文件内容不一致错误 2.too few PGs per OSD (21 < min 30)警告 解决办法:增加pg数 3.集群状 ...

  5. K8S集群rook部署ceph集群

    前言: 之前自己用rook部署过几次ceph集群,每次部署或多或少都会遇到一些问题.有些网上还能找到解决方法,有的只能靠自己去解决,毕竟每个人部署遇到的问题不一定都相同.因为每次部署完自己也没做记录, ...

  6. ceph集群删除mds服务

    2019独角兽企业重金招聘Python工程师标准>>> 由于环境从Hammer版升级到Jewel版,之前Hammer版上有MDS服务,但是没有实际用途,升级到Jewel版后,由于不再 ...

  7. 【Elasticsearch】Elasticsearch 集群健康值黄色 解决方案 或者 分片 未分配

    概述 转载:https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484125&idx=1&sn=18274d67 ...

  8. Ceph (1) - 安装Ceph集群方法 1:使用ceph-deploy安装Nautilus版Ceph集群

    <OpenShift 4.x HOL教程汇总> 文章目录 环境说明 Ceph集群节点说明 Ceph集群主机环境说明 用ceph-deploy部署Ceph集群 准备节点环境 设置环境变量 设 ...

  9. es集群健康值变为黄色解决办法

    查看集群状态各个指标 curl http://localhost:9200/_cluster/health?pretty "cluster_name" : "my-app ...

最新文章

  1. Chrome中的from memory cache与from disk cache
  2. 从零单排学Redis【青铜】
  3. eclipse 安装jetty时遇到的问题
  4. vector的基本操作
  5. 2020云栖大会,宜搭发布专业开发者能力,助力政企数字化转型——阿里云开发者社区
  6. KlayGE游戏引擎
  7. 牛客网NOIP赛前集训营 第6场 T1 最长路
  8. PHP递归遍历数组 不破坏数据结构 替换字符
  9. 如何从javascript检索GET参数? [重复]
  10. Visual Studio 2010 中编写C代码的一些常见问题
  11. centos绑定多个ip CentOS一个网卡设置多个IP
  12. Spring的事务注解@Transactional 出现的6种失效场景
  13. 恢复“超级特工”加密的文件夹
  14. python使用opencv进行身份证信息识别_基于opencv和tesseract实现身份证扫描件的身份证号码提取试验...
  15. TimeZone.getTimeZone 时区参数说明
  16. markdown 语法大全
  17. bitlocker加密怎么解除(破解Bitlocker加密方法)
  18. 计算机1101与0100逻辑加,算术加和逻辑加分别什么意思
  19. 8.1 Kotlin Sealed类
  20. GBK与Big5之间如何做内码转换?

热门文章

  1. win10 IIS(互联网信息服务) 及 外网访问tomcat
  2. 当一个解决方案下面有多个项目时,如果设置启动项?
  3. 问题-[ACCESS2007]怎么显示MsysObjects
  4. 好像最近买了很多东西
  5. 牛客寒假6-B.煤气灶
  6. 60个开发者不容错过的免费资源库
  7. V-1-2 登陆ESXi服务器
  8. SVN的Windows和Linux客户端操作详解
  9. 优质免费在线学习网站【自用】
  10. KeyMob移动广告聚合平台给予开发者服务!