情况描述

四节点组成的proxmox VE超融合集群,连续运行时间超过500天。每个节点除了系统盘而外,由四个单独的2.4T 10000转sas盘做ceph osd。

监控发现,其中一个节点的一块硬盘处于down的状态,尝试修复未获得成功,登录系统,发现系统日志有大量的IO错误,由此判断,一定是硬盘物理损坏。再通知机房,请值班技术帮忙,现场查看硬盘指示灯状态,有一块硬盘常亮红灯,确认故障与判断一致。

标题故障修复计划

由于是在线系统,服务不允许停止,这是最基本的要求。非常幸运的是,proxmox VE去中心化超融合集群,在保证集群得以维持的情况下,可以关掉任意一台或者多台物理服务器(别的超融合平台有控制节点,这个控制节点不能关)。

没有停机担忧以后,做出如下安排:
 把有故障的物理机上正在运行的虚拟机,加入到ha中;
 停机换硬盘;
 系统识别硬盘;
 创建osd;
 回迁部分虚拟机到恢复好的物理节点。

标题故障修复实施

一切准备妥当之后,风高月黑之夜派人潜入机房,待命。按照计划,进行如下的步骤:

  1. Web管理界面,把故障机运行着的虚拟机的ID号记录下来,然后将其加入到proxmox VE的HA(此高可用与pve集群不同,是建立在pve集群之上的)。

  2. 关机,查看故障机运行的虚拟机是否全部自动漂移(对照记录下来的虚拟机id号)。
  3. 通知机房待命的兄弟,拔出坏硬盘,身手敏捷地插上新硬盘。启动系统,看系统是否识别硬盘,不幸的是,没有被识别(其实也是意料之中),需要进入raid卡的控制控制界面,把这个新盘做成raid 0(单盘raid0 ,强烈建议不要搞raid 5),再启动,能识别到这个硬盘,具体的指令就是df -h。
  4. 执行下列命令初始化新更换的磁盘:
    wipefs -af /dev/sdc #sdc为新更换的磁盘设备名称
wipefs -af /dev/sdc
  1. Web管理界面创建osd。如果下拉列表提示“没有未使用的磁盘”,可以重复第“4”步。
  2. 刷新页面,查看新的osd是否已经被正确加入。同时也可以在命令执行如下指令进行同步验证:
    ceph osd tree
ceph osd tree


7. 回迁部分虚拟机到恢复好物理节点。点鼠标就行,不再赘述。

Proxmox VE 超融合集群不停服务更换硬盘操作实录相关推荐

  1. Proxmox VE 超融合集群实践真传

    第1章 老司机眼中的私有云... 3 1.1私有云的定义... 3 1.2私有云适用场景... 4 1.3私有云行业现状... 6 1.4私有云技术要求(针对Proxmox VE平台)... 7 第2 ...

  2. 超融合集群数据分布原理

    超融合是通过软件定义基础架构整合计算.存储.网络和虚拟化资源.超融合基础架构的目标是提供更为简易的方式,它通过软件定义存储和服务器虚拟化的整合,以替代传统SAN存储的方式来建设数据中心.超融合更注重基 ...

  3. proxmox超融合集群用户授权

    作者:田逸(sery@163.com) Proxmox超融合私有云交付以后,存在一些有风险的操作,如果把控制权完全交给经验不够的人,很可能造成不可预料的后果.比如修改节点主机名导致集群崩溃.对ceph ...

  4. oVirt 4.4.10三节点超融合集群安装配置及集群扩容(三)

    本篇主要记录安装及使用过程中遇到的问题<包含4.4.x, 4.5.x> 设置engine管理页面可以通过IP访问 ssh连接engine服务器并在/etc/ovirt-engine/eng ...

  5. proxmox VE超融合项目实践

    某下载项目,总共使用了两个多机柜的服务器.为什么要那么多服务器?因为数年前,移动公司的idc免费提供机器及带宽,不用白不用嘛!白用好几年后,人家拿到了IDC牌照,开始收费.业务好的时候,不觉得贵,随着 ...

  6. .NET Core微服务之路:基于Consul最少集群实现服务的注册与发现(一)

    原文:.NET Core微服务之路:基于Consul最少集群实现服务的注册与发现(一) Consul介绍 Consul是HashiCorp公司推出的开源工具[开源地址:https://github.c ...

  7. Kubernetes 集群 DNS 服务发现原理

    简介:本文介绍 Kubernetes 集群中 DNS 服务发现原理. 本文介绍 Kubernetes 集群中 DNS 服务发现原理. 前提需要 拥有一个 Kubernetes 集群(可以通过 ACK ...

  8. RAC集群时间同步服务

    集群时间同步服务 在集群中的两个 Oracle RAC 节点上执行以下集群时间同步服务配置. Oracle Clusterware 11g 第 2 版及更高版本要求在部署了 Oracle RAC 的集 ...

  9. 人大金仓集群停止服务时,一台停止失败,一台停止成功

    人大金仓集群停止服务时,一台停止失败,一台停止成功 telnet ip 8890 如果提示 connect to address ip connection refused 删除Server/bin下 ...

最新文章

  1. matlab e 精确到,matlab中用0.618法求minf(x)=e^(-x)+x^2在区间(0,1)上的极小值,精确到0.03....
  2. 英伟达DALI加速技巧:使数据预处理比原生PyTorch运算速度快4倍
  3. POJ-3635 Full Tank? 变形最短路
  4. [leetcode sort]56. Merge Intervals
  5. 学会学习比学习什么更重要
  6. 第三章 Lambda 表达式
  7. Linux安装redis(6.0.9)环境
  8. unity简单动画学习
  9. 【冈萨雷斯的数字图像处理1~6章复习考试知识整理】
  10. STM32F401的PWM输出
  11. python识别图片指定位置文字_python 识别图片中的文字信息方法
  12. solidworks 显示设计库图标
  13. wex5 ajax,关于Ajax请求 - WeX5开发者论坛 - 起步软件技术论坛 - Powered by Discuz!
  14. 详解Unity中的生命周期函数
  15. 学生云服务器哪个好?阿里云,腾讯云,华为云,有适合学生党云服务器推荐吗?
  16. K_A12_004 基于STM32等单片机采集人体红外感应(HC-SR501)模块串口与OLED0.96双显示
  17. html5中心开班信息,思途2103UIHTML5开班——新开始,新收获
  18. 数据挖掘项目的特征和关键环节
  19. 端口映射与NAT负载均衡
  20. 邮箱在本地能发送成功,在服务器发送失败。

热门文章

  1. python画星空的程序_python画画梵高
  2. OBS插件开发以及OBS插件的选择(obs直播插件)研究思路
  3. H6机顶盒Android编译[2]-Android编译
  4. 阅读量10w+的文案都是这么写的!
  5. 【办公类-16-06】“校历(月日版)”(python 排班表系列)
  6. Axmath默认关闭中文输入法
  7. SSD接口详解,再也不会买错固态硬盘了
  8. PD协议的错误纠正机制
  9. 什么是端到端加密 (E2EE)?
  10. iOS状态栏设置详解