环境:cenot7,ceph luminious,服务器为Proliant DL380 Gen9 安装了 hp ilo4

(一) 从 ceph 删除该 osd

1、登陆 ceph mon 节点,查看坏掉的 osd

2、mon 上执行 out osd.x

ceph osd out osd.x

3、从 crush map 中删除 osd.x,防止它再接受数据

ceph osd crush remove osd.x
ceph auth del osd.x
ceph osd rm osd.x
[root@bakmtr01 ~]# ceph -scluster:id:     0e38e7c6-a704-4132-b0e3-76b87f18d8fahealth: HEALTH_OKservices:mon: 3 daemons, quorum bakmtr01,bakmtr02,bakmtr03mgr: bakmtr03(active), standbys: bakmtr01, bakmtr02osd: 99 osds: 99 up, 99 inrgw: 3 daemons active
...

确认已经删除

ceph osd destroy osd.x --yes-i-really-mean-it

这些步骤相当于

ceph osd purge osd.x --yes-i-really-mean-it

4、osd 节点执行 umount /var/lib/ceph/osd/ceph-x

umount /var/lib/ceph/osd/ceph-x

5、查找 osd.x 对应的 device,lv、pv、vg

[root@bakcmp31 ~]# ceph-volume inventory /dev/sdt====== Device report /dev/sdt ======available                 Falserejected reasons          lockedpath                      /dev/sdtscheduler mode            deadlinerotational                1vendor                    HPhuman readable size       1.64 TBsas address               removable                 0model                     LOGICAL VOLUMEro                        0--- Logical Volume ---cluster name              cephname                      osd-data-3f2e912c-f327-4221-b350-a4b3de4376b6osd id                    1cluster fsid              0e38e7c6-a704-4132-b0e3-76b87f18d8fatype                      blockblock uuid                V8RGFc-omqm-B1E2-mKz1-TXfl-2lK3-CF2d0Losd fsid                  2f1aaa8a-f50d-4335-a812-5dd86e8042a3

也可以查看所有磁盘对应的 osd_id

ceph-volume inventory --format json-pretty

还可以通过 ceph-volume lvm list

[root@bakcmp31 ~]# ceph-volume lvm list | grep -A 16 "osd.1 "
====== osd.1 =======[block]    /dev/ceph-757f4a80-60e2-425b-a8fd-629a735a5acd/osd-data-3f2e912c-f327-4221-b350-a4b3de4376b6type                      blockosd id                    1cluster fsid              0e38e7c6-a704-4132-b0e3-76b87f18d8facluster name              cephosd fsid                  2f1aaa8a-f50d-4335-a812-5dd86e8042a3encrypted                 0cephx lockbox secret      block uuid                V8RGFc-omqm-B1E2-mKz1-TXfl-2lK3-CF2d0Lblock device              /dev/ceph-757f4a80-60e2-425b-a8fd-629a735a5acd/osd-data-3f2e912c-f327-4221-b350-a4b3de4376b6vdo                       0crush device class        Nonedevices                   /dev/sdt

6、查看 osd1 对应的 lv、vg

[root@bakcmp31 ~]# ceph-volume lvm list /dev/ceph-757f4a80-60e2-425b-a8fd-629a735a5acd/osd-data-3f2e912c-f327-4221-b350-a4b3de4376b6
====== osd.1 =======[block]    /dev/ceph-757f4a80-60e2-425b-a8fd-629a735a5acd/osd-data-3f2e912c-f327-4221-b350-a4b3de4376b6
...block device              /dev/ceph-757f4a80-60e2-425b-a8fd-629a735a5acd/osd-data-3f2e912c-f327-4221-b350-a4b3de4376b6
...devices                   /dev/sdt

7、删除 lv 、vg

[root@bakcmp31 ~]# lvremove ceph-757f4a80-60e2-425b-a8fd-629a735a5acd/osd-data-3f2e912c-f327-4221-b350-a4b3de4376b6
Do you really want to remove active logical volume ceph-757f4a80-60e2-425b-a8fd-629a735a5acd/osd-data-3f2e912c-f327-4221-b350-a4b3de4376b6? [y/n]: yLogical volume "osd-data-3f2e912c-f327-4221-b350-a4b3de4376b6" successfully removed
[root@bakcmp31 ~]# vgremove ceph-757f4a80-60e2-425b-a8fd-629a735a5acdVolume group "ceph-757f4a80-60e2-425b-a8fd-629a735a5acd" successfully removed

8、删除 pv

找到 osd 对应的 lvs,删除,没有报错的话,删除对应的 vg、pv

[root@cmp17 ~]# lvremove /dev/ceph-a090a75a-bd1c-4c41-9505-55e9919c54c7/osd-data-c9e93977-654c-48ff-9c94-f92ffd1def69WARNING: Device for PV Eeuf0S-XkKi-UwwB-35C8-Eozs-YNFR-0CUSw8 not found or rejected by a filter.Couldn't find device with uuid Eeuf0S-XkKi-UwwB-35C8-Eozs-YNFR-0CUSw8.
Do you really want to remove active logical volume ceph-a090a75a-bd1c-4c41-9505-55e9919c54c7/osd-data-c9e93977-654c-48ff-9c94-f92ffd1def69? [y/n]: yAborting vg_write: No metadata areas to write to!

报错, 刷新 pv

pvscan --cache

手工删除pv是不行的,这里需要用到一个pvscan --cache命令去刷新缓存,之后再看pv、vg、lv通通都被清理掉了 (感觉不出来有啥变化)

[root@bakcmp31 ~]# pvscan --cache
[root@bakcmp31 ~]# pvsPV         VG                                        Fmt  Attr PSize  PFree /dev/sdb   ceph-7db7008f-5eea-40b6-b289-6ae7d8a8ed91 lvm2 a--  <1.64t     0
.../dev/sdt                                             lvm2 ---  <1.64t <1.64t/dev/sdu   ceph-02a02c1e-018b-4ea0-8c08-a4fb58547818 lvm2 a--  <1.64t     0

9、依旧可能遇到删除不彻底的问题,如何操作呢?

查看操作

[root@cmp39 ~]# dmsetup ls

删除操作

[root@cmp39 ~]# dmsetup remove ***

(二)更换硬盘后,重建 raid0

根据 ilo 查看对应物理 drive,记录1I:1:20

或者使用 hpssacli 查看 pd 对应的 ld

[root@cmp17 ~]# hpssacli ctrl slot=0 show config detail

安装 hpssacli,从 hp 官网下载 https://support.hpe.com/hpsc/swd/public/detail?swItemId=MTX_04bffb688a73438598fef81ddd

rpm -ivh hpssacli-2.40-13.0.x86_64.rpm

hpssacli 常用命令

hpssacli ctrl slot=0 pd all show
hpssacli ctrl slot=0 pd all show status
hpssacli ctrl slot=0 ld all show
hpssacli ctrl slot=0 ld all show status

物理 drive 都没问题

[root@cmp17 ~]# hpssacli ctrl slot=0 pd all show status

逻辑 drive 19 error

[root@cmp17 ~]# hpssacli ctrl slot=0 ld all show status
...logicaldrive 19 (1.6 TB, 0): Failedlogicaldrive 20 (1.6 TB, 0): OKlogicaldrive 21 (1.6 TB, 0): O

查看逻辑 drive 19 对应的设备名,没有显示,说明还没有做 raid

[root@cmp17 ~]# hpssacli ctrl slot=0 ld xx show

删除逻辑 drive 19

[root@cmp17 ~]# hpssacli ctrl slot=0 ld xx delete

创建逻辑 drive 19

[root@cmp17 ~]# hpssacli ctrl slot=0 create type=ld drives=1I:1:xx raid=0

(三) 节点加入 osd

也可以查看所有磁盘对应的 osd_id

ceph-volume inventory /dev/sdx --format json-pretty

批量创建 osd

batch Creates OSDs from a list of devices using a filestore or bluestore (default) setup

[root@bakcmp31 ~]# ceph-volume lvm batch --bluestore /dev/sdx

ceph-volume lvm activate

[root@bakcmp31 ~]# ceph-volume lvm activate --all

检查

osd 节点

[root@bakcmp31 ~]# systemctl status ceph-osd@x

mon 节点

[root@bakmtr01 ~]# ceph -s

ceph osd 磁盘损坏处理相关推荐

  1. ceph osd 由于“No space left on device” 异常down,通过扩容文件系统或者显式运行osd进程解决

    文章目录 ceph版本: 环境配置: 异常问题: 问题解决: 总结 ceph版本: ceph 12.2.1 环境配置: tier_pool 16个分区大小800G 的osd容量 3副本 data_po ...

  2. ceph osd为down的情况

    ceph修复osd为down的情况 尝试一.直接重新激活所有osd 1.查看osd树 root@ceph01:~# ceph osd tree ID WEIGHT TYPE NAME UP/DOWN ...

  3. ceph osd 相关命令

    混合osd的部署 先部署所有的ssd 在/etc/ceph.conf中最后添加ssd做osd的block大小如下: 比如部署中有两个ssd,则添加 [osd.0] bluestore_block_si ...

  4. ceph osd混合部署和普通部署

    文章目录 混合osd的部署 先部署所有的ssd 部署hdd 普通OSD的部署 当OSD被踢出集群但是挂载点还在,为osd添加id验证 测试OSD压力 Mark osd 为down 混合osd的部署 混 ...

  5. 【ceph】ceph osd blacklist cep黑名单|MDS问题分析

    目录 blacklist 是什么 blacklist相关操作 Ceph MDS问题分析 CephFS client evict子命令使用 概述 命令格式 1. 查看所有client/session 2 ...

  6. 解决ceph osd写满导致osd无法启动的问题

    背景 最近一个无人看管的ceph集群出现了osd被写满的情况,osd磁盘使用量99.99%,然后osd自己down了,重启也启动不起来. 可能是因为之前有人调过full的限制值,所以才完全写满了,由于 ...

  7. ceph osd down修复

    一.查看osd状态找到down状态的osd ceph osd tree 二.删除对应osd 1.调整osd 的crush weight ceph osd crush reweight osd.18 0 ...

  8. 【ceph】ceph OSD状态及常用命令

    OSD进程的启动停止:https://blog.csdn.net/bandaoyu/article/details/119894927 1. OSD概念 OSD:Object Storage Devi ...

  9. Linux下模拟RAID5实现磁盘损坏,数据自动切换到备份磁盘上

    另一个博客地址:www.rsyslog.org  Linux社区 RAID5+磁盘配额, 1块磁盘,分5个分区模拟5块磁盘,其中4个做成RAID5分区,剩余一个作为冗余磁盘,挂载到/data1目录,模 ...

  10. 案例:Oracle dul数据挖掘 磁盘损坏dul提取数据文件中表的数据及l

    通过使用Oracle DUL工具提取损坏磁盘里的数据库文件中的表及lob字段中内容 在有次8i的库恢复中,因为硬盘损坏导致几个表出现很多诡异性坏块,尝试使用dul对其进行挖掘数据,当时使用dul 9 ...

最新文章

  1. Go语言环境搭建(Windows+Linux)
  2. 车端激光和双目相机的自动标定算法
  3. linux 进程 ctrl-c,ctrl-z,ctrl-d
  4. 因为世界杯!我们为你承包了整个网易~
  5. sql 一个字段在另外一个表没出现_都9012年啦,不懂得这些SQL语句优化,你是要吃大亏的...
  6. Micropython教程之TPYBoard制作蓝牙+红外循迹小车
  7. CRM_REPORT_RF_CHECK_AUTHORITY call CRM_REPORT_RF_AUTH_OBJ_ORD_LP
  8. Linux 灾难恢复 Linux 系统启动故障修复
  9. 高校各部门老师真实生活图鉴,哈哈哈哈哈哈哈
  10. 【java笔记】random类生成随机数
  11. 事件和数据回发机制的实现
  12. Silverlight2.0下载地址
  13. Notepad++下载
  14. 电脑怎样设置定时关机
  15. 转帖:CCIE一年后的心语
  16. 跨境电商平台有哪些?各国电商平台及品类概览
  17. matlab 数组扩充
  18. 新导部队营房室内人员定位系统解决方案
  19. ssh登录报no matching MAC found. Their offer: hmac-sha2-512异常
  20. 在intellij上运行java_如何解决无法在IntelliJ中运行java 11示例程序?

热门文章

  1. WMI服务是什么?Windows 7系统如何禁用WMI服务?
  2. 北邮“一号邮路”上的数学体验
  3. “千年老二”搜狐:从没有真正意义上成为第一
  4. 将python图表放入ppt_如何在ppt中嵌入python图表(或图像)并刷新
  5. 三、漏洞编号为CVE-2017-7494的复现(永恒之蓝)(Linux)(Ubuntu16.04.4)
  6. SWUST OJ 1132: Coin-collecting by robot
  7. Python基础-名片管理
  8. bleeding edge是什么意思
  9. C++ 智能指针 atuo_ptr,unique_ptr,shared_ptr,weak_ptr
  10. 最小径集的算法_【ZZ】最小割集Stoer-Wagner算法