报错信息如下:

[root@ceph-6-11 ~]# ceph health detail

HEALTH_ERR 1 pgs inconsistent; 1 scrub errors;

pg 2.37c is active+clean+inconsistent, acting [75,6,35]

1 scrub errors

报错信息总结:

问题PG:2.37c

OSD编号:75,6,35

执行常规修复:

ceph pg repair 2.37c

查看修复结果:

[root@ceph-6-11 ~]# ceph health detail

HEALTH_ERR 1 pgs inconsistent; 1 scrub errors

pg 2.37c is active+clean+inconsistent, acting [75,6,35]

1 scrub errors

问题依然存在,异常pg没有修复;

然后执行:

要洗刷一个pg组,执行命令:

ceph pg scrub 2.37c

ceph pg deep-scrub  2.37c

ceph pg repair 2.37c

以上命令执行后均未修复,依然报上面的错误,查看相关osd 日志报错如下:

2017-07-24 17:31:10.585305 7f72893c4700  0 log_channel(cluster) log [INF] : 2.37c repair starts

2017-07-24 17:31:10.710517 7f72893c4700 -1 log_channel(cluster) log [ERR] : 2.37c repair 1 errors, 0 fixed

此时已经被坑了好久了,决定修复pg 设置的三块osd ,执行命令如下:

ceph osd repair 75

ceph osd repair 6

ceph osd repair 35

修复命令执行后等待一段时间,osd 修复完成,发现错误依然存在!!!!!!!!!此时想做下面两个操作,

1:找到pg object信息,把主osd 上面的数据删掉,让后让集群修复;

2:修改pg现在使用的主osd信息,现在是osd 75 ,改成别的磁盘(没找到方法修改);

此时看到ceph社区的一个bug 信息:

http://tracker.ceph.com/issues/12577

发现有些尝试有人已经做过了,而且又是一个bug!!!!!!!!!!

最后决定用一个最粗暴的方法解决,关闭有问题pg 所使用的主osd 75

查询pg 使用主osd信息

ceph pg  2.37c query |grep primary

"blocked_by": [],

"up_primary": 75,

"acting_primary": 75

执行操作如下:

systemctl stop ceph-osd@75

此时ceph开始数据恢复,将osd75 上面的数据在其它节点恢复,等待一段时间,发现数据滚动完成,执行命令查看集群状态。

[root@ceph-6-11 ~]# ceph health detail

HEALTH_ERR 1 pgs inconsistent; 1 scrub errors

pg 2.37c is active+clean+inconsistent, acting [8,38,17]

1 scrub errors

看到上面的信息,心都要碎了!为啥还是这样?不报希望的执行以下常规修复!

[root@ceph-6-11 ~]# ceph pg repair 2.37c

'instructing pg 2.37c on osd.8 to repair

然后查看集群状态:

[root@ceph-6-11 ~]# ceph health detail

HEALTH_OK

药药彻克闹!好了。。。。。。。。啥也不说了,下班!

转载于:https://blog.51cto.com/michaelkang/1950565

ceph集群报错:HEALTH_ERR 1 pgs inconsistent; 1 scrub errors相关推荐

  1. Ceph集群报错解决方案笔记

    文章目录 0 当前Ceph版本和CentOS版本: 1.节点间配置文件内容不一致错误 2.too few PGs per OSD (21 < min 30)警告 解决办法:增加pg数 3.集群状 ...

  2. ceph集群报 Monitor clock skew detected 错误问题排查,解决

    ceph集群报 Monitor clock skew detected 错误问题排查,解决             告警信息如下: [root@ceph-100-80 ceph]# ceph -w   ...

  3. spark 序列化错误 集群提交时_【问题解决】本地提交任务到Spark集群报错:Initial job has not accepted any resources...

    本地提交任务到Spark集群报错:Initial job has not accepted any resources 错误信息如下: 18/04/17 18:18:14 INFO TaskSched ...

  4. HBase停止集群报错,pid: No such file or directory

    HBase停止集群报错,pid不存在的问题 停止HBase集群时报错如下: [plain]  stopping hbasecat: /tmp/hbase-mango-master.pid: No su ...

  5. redis创建集群报错can‘t connect to node 192.168.163.203

    [README] 创建集群报错 can't connect to node 192.168.163.203 [root@centos201 ~]# /usr/local/redis-cluster/b ...

  6. dfs.datanode.max.xcievers参数导致hbase集群报错

    2013/08/09 转发自http://bkeep.blog.163.com/blog/static/123414290201272644422987/ [案例]dfs.datanode.max.x ...

  7. quartz集群报错but has failed to stop it. This is very likely to create a memory leak.

    quartz集群报错but has failed to stop it. This is very likely to create a memory leak. 在一台配置1核2G内存的阿里云服务器 ...

  8. nginx集群报错“upstream”directive is not allow here 错误 [

    nginx集群报错"upstream"directive is not allow here 错误 搭建了一个服务器, 采用的是nginx + apache(多个) + php + ...

  9. kubeadm初始化集群报错:kubelet driver: “cgroupfs“ is different from docker cgroup driver: “systemd“

    kubeadm初始化集群报错:   报错信息如下: [kubelet-check] It seems like the kubelet isn't running or healthy. [kubel ...

最新文章

  1. 码crc校验_CRC计算
  2. Head First设计模式之原型模式
  3. 可视化_仓库管理可视化
  4. C#获取电脑硬件信息(CPU ID、主板ID、硬盘ID、BIOS编号
  5. 天池四月读书会|数据分析金融量化,6场直播,6位大咖,6个项目实战
  6. vsc 搜索特定代码_特定问题的通用解决方案:何时编写代码以及何时编写代码...
  7. inotifypropertychanged接受不执行_scp客户端现多个漏洞,可执行恶意脚本
  8. android程序安全编码向导,Android安全编码规范
  9. 服务器修复工具,Microsoft .NET Framework 修复工具可用
  10. 新中大 金蝶 用友产品技术比较
  11. phyton方面相关书籍
  12. (修订)准备互联网校招,你需要知道的一些事
  13. 输入正整数n,输出n层数字金字塔。
  14. html flash地址,PHP如何实现将视频html地址转换成flash swf地址
  15. iOS开发拓展篇—音效的播放
  16. SwiftUI 4.0 中原生图表(Charts)实现超长内容滚动功能
  17. Linux下安装Perl模块(含CPAN方法)
  18. Python_哔哩哔哩弹幕可视化
  19. 弱监督目标检测算法论文阅读(五)Combinational Class Activation Maps for Weakly Supervised Object Localization
  20. SBT10100VDC-ASEMI低压降贴片肖特基二极管SBT10100VDC

热门文章

  1. day08-----------面向对象(传智视频)
  2. Windows下Github使用方法
  3. 专家从美国联邦政府机构网络上发现后门
  4. CODESYS 工业自动化软件存在多个严重缺陷
  5. 详细分析开源软件 ExifTool 的任意代码执行漏洞 (CVE-2021-22204)
  6. 微软发布5月补丁星期二:3个0day,1个蠕虫
  7. 线上线下同步开启安全盛宴 BCS 2020将于8月7日正式开幕
  8. GitHub 2019年漏洞奖励计划最值得回顾的2个精彩 bug
  9. C语言如何用fopen创建可读写txt
  10. KONG网关 — 插件开发