ceph集群报错:HEALTH_ERR 1 pgs inconsistent; 1 scrub errors
报错信息如下:
[root@ceph-6-11 ~]# ceph health detail
HEALTH_ERR 1 pgs inconsistent; 1 scrub errors;
pg 2.37c is active+clean+inconsistent, acting [75,6,35]
1 scrub errors
报错信息总结:
问题PG:2.37c
OSD编号:75,6,35
执行常规修复:
ceph pg repair 2.37c
查看修复结果:
[root@ceph-6-11 ~]# ceph health detail
HEALTH_ERR 1 pgs inconsistent; 1 scrub errors
pg 2.37c is active+clean+inconsistent, acting [75,6,35]
1 scrub errors
问题依然存在,异常pg没有修复;
然后执行:
要洗刷一个pg组,执行命令:
ceph pg scrub 2.37c
ceph pg deep-scrub 2.37c
ceph pg repair 2.37c
以上命令执行后均未修复,依然报上面的错误,查看相关osd 日志报错如下:
2017-07-24 17:31:10.585305 7f72893c4700 0 log_channel(cluster) log [INF] : 2.37c repair starts
2017-07-24 17:31:10.710517 7f72893c4700 -1 log_channel(cluster) log [ERR] : 2.37c repair 1 errors, 0 fixed
此时已经被坑了好久了,决定修复pg 设置的三块osd ,执行命令如下:
ceph osd repair 75
ceph osd repair 6
ceph osd repair 35
修复命令执行后等待一段时间,osd 修复完成,发现错误依然存在!!!!!!!!!此时想做下面两个操作,
1:找到pg object信息,把主osd 上面的数据删掉,让后让集群修复;
2:修改pg现在使用的主osd信息,现在是osd 75 ,改成别的磁盘(没找到方法修改);
此时看到ceph社区的一个bug 信息:
http://tracker.ceph.com/issues/12577
发现有些尝试有人已经做过了,而且又是一个bug!!!!!!!!!!
最后决定用一个最粗暴的方法解决,关闭有问题pg 所使用的主osd 75
查询pg 使用主osd信息
ceph pg 2.37c query |grep primary
"blocked_by": [],
"up_primary": 75,
"acting_primary": 75
执行操作如下:
systemctl stop ceph-osd@75
此时ceph开始数据恢复,将osd75 上面的数据在其它节点恢复,等待一段时间,发现数据滚动完成,执行命令查看集群状态。
[root@ceph-6-11 ~]# ceph health detail
HEALTH_ERR 1 pgs inconsistent; 1 scrub errors
pg 2.37c is active+clean+inconsistent, acting [8,38,17]
1 scrub errors
看到上面的信息,心都要碎了!为啥还是这样?不报希望的执行以下常规修复!
[root@ceph-6-11 ~]# ceph pg repair 2.37c
'instructing pg 2.37c on osd.8 to repair
然后查看集群状态:
[root@ceph-6-11 ~]# ceph health detail
HEALTH_OK
药药彻克闹!好了。。。。。。。。啥也不说了,下班!
转载于:https://blog.51cto.com/michaelkang/1950565
ceph集群报错:HEALTH_ERR 1 pgs inconsistent; 1 scrub errors相关推荐
- Ceph集群报错解决方案笔记
文章目录 0 当前Ceph版本和CentOS版本: 1.节点间配置文件内容不一致错误 2.too few PGs per OSD (21 < min 30)警告 解决办法:增加pg数 3.集群状 ...
- ceph集群报 Monitor clock skew detected 错误问题排查,解决
ceph集群报 Monitor clock skew detected 错误问题排查,解决 告警信息如下: [root@ceph-100-80 ceph]# ceph -w ...
- spark 序列化错误 集群提交时_【问题解决】本地提交任务到Spark集群报错:Initial job has not accepted any resources...
本地提交任务到Spark集群报错:Initial job has not accepted any resources 错误信息如下: 18/04/17 18:18:14 INFO TaskSched ...
- HBase停止集群报错,pid: No such file or directory
HBase停止集群报错,pid不存在的问题 停止HBase集群时报错如下: [plain] stopping hbasecat: /tmp/hbase-mango-master.pid: No su ...
- redis创建集群报错can‘t connect to node 192.168.163.203
[README] 创建集群报错 can't connect to node 192.168.163.203 [root@centos201 ~]# /usr/local/redis-cluster/b ...
- dfs.datanode.max.xcievers参数导致hbase集群报错
2013/08/09 转发自http://bkeep.blog.163.com/blog/static/123414290201272644422987/ [案例]dfs.datanode.max.x ...
- quartz集群报错but has failed to stop it. This is very likely to create a memory leak.
quartz集群报错but has failed to stop it. This is very likely to create a memory leak. 在一台配置1核2G内存的阿里云服务器 ...
- nginx集群报错“upstream”directive is not allow here 错误 [
nginx集群报错"upstream"directive is not allow here 错误 搭建了一个服务器, 采用的是nginx + apache(多个) + php + ...
- kubeadm初始化集群报错:kubelet driver: “cgroupfs“ is different from docker cgroup driver: “systemd“
kubeadm初始化集群报错: 报错信息如下: [kubelet-check] It seems like the kubelet isn't running or healthy. [kubel ...
最新文章
- 码crc校验_CRC计算
- Head First设计模式之原型模式
- 可视化_仓库管理可视化
- C#获取电脑硬件信息(CPU ID、主板ID、硬盘ID、BIOS编号
- 天池四月读书会|数据分析金融量化,6场直播,6位大咖,6个项目实战
- vsc 搜索特定代码_特定问题的通用解决方案:何时编写代码以及何时编写代码...
- inotifypropertychanged接受不执行_scp客户端现多个漏洞,可执行恶意脚本
- android程序安全编码向导,Android安全编码规范
- 服务器修复工具,Microsoft .NET Framework 修复工具可用
- 新中大 金蝶 用友产品技术比较
- phyton方面相关书籍
- (修订)准备互联网校招,你需要知道的一些事
- 输入正整数n,输出n层数字金字塔。
- html flash地址,PHP如何实现将视频html地址转换成flash swf地址
- iOS开发拓展篇—音效的播放
- SwiftUI 4.0 中原生图表(Charts)实现超长内容滚动功能
- Linux下安装Perl模块(含CPAN方法)
- Python_哔哩哔哩弹幕可视化
- 弱监督目标检测算法论文阅读(五)Combinational Class Activation Maps for Weakly Supervised Object Localization
- SBT10100VDC-ASEMI低压降贴片肖特基二极管SBT10100VDC