ceph集群报错：HEALTH_ERR 1 pgs inconsistent; 1 scrub errors

报错信息如下：

[root@ceph-6-11 ~]# ceph health detail

HEALTH_ERR 1 pgs inconsistent; 1 scrub errors;

pg 2.37c is active+clean+inconsistent, acting [75,6,35]

1 scrub errors

报错信息总结：

问题PG：2.37c

OSD编号：75,6,35

执行常规修复：

ceph pg repair 2.37c

查看修复结果：

[root@ceph-6-11 ~]# ceph health detail

HEALTH_ERR 1 pgs inconsistent; 1 scrub errors

pg 2.37c is active+clean+inconsistent, acting [75,6,35]

1 scrub errors

问题依然存在，异常pg没有修复；

然后执行:

要洗刷一个pg组，执行命令：

ceph pg scrub 2.37c

ceph pg deep-scrub 2.37c

ceph pg repair 2.37c

以上命令执行后均未修复，依然报上面的错误，查看相关osd 日志报错如下：

2017-07-24 17:31:10.585305 7f72893c4700 0 log_channel(cluster) log [INF] : 2.37c repair starts

2017-07-24 17:31:10.710517 7f72893c4700 -1 log_channel(cluster) log [ERR] : 2.37c repair 1 errors, 0 fixed

此时已经被坑了好久了，决定修复pg 设置的三块osd ，执行命令如下：

ceph osd repair 75

ceph osd repair 6

ceph osd repair 35

修复命令执行后等待一段时间，osd 修复完成，发现错误依然存在！！！！！！！！！此时想做下面两个操作，

1：找到pg object信息，把主osd 上面的数据删掉，让后让集群修复；

2：修改pg现在使用的主osd信息，现在是osd 75 ，改成别的磁盘（没找到方法修改）；

此时看到ceph社区的一个bug 信息：

http://tracker.ceph.com/issues/12577

发现有些尝试有人已经做过了，而且又是一个bug！！！！！！！！！！

最后决定用一个最粗暴的方法解决，关闭有问题pg 所使用的主osd 75

查询pg 使用主osd信息

ceph pg 2.37c query |grep primary

"blocked_by": [],

"up_primary": 75,

"acting_primary": 75

执行操作如下：

systemctl stop ceph-osd@75

此时ceph开始数据恢复，将osd75 上面的数据在其它节点恢复，等待一段时间，发现数据滚动完成，执行命令查看集群状态。

[root@ceph-6-11 ~]# ceph health detail

HEALTH_ERR 1 pgs inconsistent; 1 scrub errors

pg 2.37c is active+clean+inconsistent, acting [8,38,17]

1 scrub errors

看到上面的信息，心都要碎了！为啥还是这样？不报希望的执行以下常规修复！

[root@ceph-6-11 ~]# ceph pg repair 2.37c

'instructing pg 2.37c on osd.8 to repair

然后查看集群状态：

[root@ceph-6-11 ~]# ceph health detail

HEALTH_OK

药药彻克闹!好了。。。。。。。。啥也不说了，下班！

转载于:https://blog.51cto.com/michaelkang/1950565

ceph集群报错：HEALTH_ERR 1 pgs inconsistent; 1 scrub errors相关推荐

Ceph集群报错解决方案笔记
文章目录 0 当前Ceph版本和CentOS版本: 1.节点间配置文件内容不一致错误 2.too few PGs per OSD (21 < min 30)警告解决办法:增加pg数 3.集群状 ...
ceph集群报 Monitor clock skew detected 错误问题排查，解决
ceph集群报 Monitor clock skew detected 错误问题排查,解决告警信息如下: [root@ceph-100-80 ceph]# ceph -w ...
spark 序列化错误集群提交时_【问题解决】本地提交任务到Spark集群报错：Initial job has not accepted any resources...
本地提交任务到Spark集群报错:Initial job has not accepted any resources 错误信息如下: 18/04/17 18:18:14 INFO TaskSched ...
HBase停止集群报错，pid: No such file or directory
HBase停止集群报错,pid不存在的问题停止HBase集群时报错如下: [plain] stopping hbasecat: /tmp/hbase-mango-master.pid: No su ...
redis创建集群报错can‘t connect to node 192.168.163.203
[README] 创建集群报错 can't connect to node 192.168.163.203 [root@centos201 ~]# /usr/local/redis-cluster/b ...
dfs.datanode.max.xcievers参数导致hbase集群报错
2013/08/09 转发自http://bkeep.blog.163.com/blog/static/123414290201272644422987/ [案例]dfs.datanode.max.x ...
quartz集群报错but has failed to stop it. This is very likely to create a memory leak.
quartz集群报错but has failed to stop it. This is very likely to create a memory leak. 在一台配置1核2G内存的阿里云服务器 ...
nginx集群报错“upstream”directive is not allow here 错误 [
nginx集群报错"upstream"directive is not allow here 错误搭建了一个服务器, 采用的是nginx + apache(多个) + php + ...
kubeadm初始化集群报错：kubelet driver: “cgroupfs“ is different from docker cgroup driver: “systemd“
kubeadm初始化集群报错: 报错信息如下: [kubelet-check] It seems like the kubelet isn't running or healthy. [kubel ...

ceph集群报错：HEALTH_ERR 1 pgs inconsistent; 1 scrub errors

ceph集群报错：HEALTH_ERR 1 pgs inconsistent; 1 scrub errors相关推荐

最新文章

热门文章