ceph在增加osd的时候会触发backfill,让数据得到平均,触发数据的迁移
ceph在移除osd的时候需要在节点上进行数据的恢复,也有数据的迁移和生成

只要是集群里面有数据的变动就会有网卡流量,cpu,内存等资源的占用,并且最重要的是还有磁盘的占用,这个客户端也是需要对磁盘进行访问的,当请求出现碰撞的时候,肯定会比正常的情况下要慢很多,而且还有可能因为资源方面的原因而引起机器down机等异常状况的出现

主要引起的问题可能:

  • 在peering的时候 block 了IO请求
  • 在backfill的引起了slow requests
  • 上面的两个情况会引起客户端的降速和出现soft lockup

这个在一般情况下会出现不同的需求:

  1. 慢点可以一定不能出问题,不能中断业务
  2. 越快迁移完越好,早点结束维护服务
  3. 需要又快又不能影响业务

这个需要根据自己可以掌控的程度来进行控制,首先环境的不同,影响不同,迁移数据量,网卡的带宽都是重要的影响因素,从整体上可以根据自己的环境按照上面的三个要求中的一个进行控制

上面的三种情况:
第一个慢点迁移不能出问题,这个处理方式比较简单,直接将相关参数控制到最低的值,这个能保证业务的影响最低,但是带来的影响就是迁移需要很久的时间,可能长达几十个小时

第二个越快越好就是用默认的参数或者加大参数,然后观察这个迁移过程中的资源的占用情况

第三个就是需要在自己的环境下进行多测试验证这个参数,本篇主要就是根据思科的测试出来的参数进行分析

下面的参数是思科测试出来的值:

osd recovery max active = 3 (default : 15)
osd recovery op priority = 3 (default : 10)
osd max backfills = 1 (default : 10)

测试过程的数据图

这个图开始的时候我也没太明白,后来多看下就理解了,实际上在很多情况下,一个因素的变化是会引起其他两个因素的变化,而这两个因素是一个正面的因素和一个负面的因素,而找到这个平衡值就是最优的情况,在这里的因素包括:
max-backfill和max-recovery :迁移相关参数
MTTR(mean time to recovery):失效恢复时间,也就是迁移完成
Soft Lockup:前面虚拟机出现的soft lockup,也可以理解为对前端的影响

测试环境一致,都是 down 掉10%的osd进行恢复:
在迁移参数最低的时候,没有出现soft lockup ,也就是最低迁移参数的时候,影响最小,恢复使用了45分钟
随着迁移相关参数调大的时候,迁移的时间的曲线是先降低,在到达一定的值后又开始增加(这个地方可能是迁移过大出现了前端io锁住,然后影响了迁移速度)
随着迁移相关参数的调大,出现soft lockup的情况是增加的

从测试的曲线来看,在2-6之间是出现的最优值,也就是出现异常的情况概率最低,并且迁移速度最快,最终选择了一组最优的值 :

osd recovery max active = 3 (default : 15)
osd recovery op priority = 3 (default : 10)
osd max backfills = 1 (default : 10)

这个值是思科的测试出来的值,这个值可以根据自己的需要进行取用,大概的情况是这样

  • 完全无法把控就把参数调整到最低
  • 使用思科的推荐值
  • 根据自己的环境测出自己环境的最优值

很多参数是别人根据自己的环境测试出来的,很多情况并不是通用的,得到别人测试的思路是最重要的,然后消化后自己根据自己的需要得出自己的值

Ceph 的数据回填和恢复相关推荐

  1. 赋能云HBase备份恢复 百T级别数据量备份恢复支持

      云HBase发布备份恢复功能,为用户数据保驾护航.对大多数公司来说数据的安全性以及可靠性是非常重要的,如何保障数据的安全以及数据的可靠是大多数数据库必须考虑的.2016 IDC的报告表示数据的备份 ...

  2. ORACLE基础学习-RMAN应用之(归档模式无备份,丢失数据文件的恢复)

    二.归档模式无备份,丢失数据文件的恢复: 首先要意识到,这种恢复是有条件的,只有在某些特定条件下,才有可能在没有备份的情况下恢复丢失的数据文件. 同时又需意识到不是所有丢失的文件都是可以被成功恢复的. ...

  3. 文件系统损坏导致数据文件异常恢复----惜分飞

    今天接到一个客户的服务请求,由于服务器被强制重启,数据库无法启动 ORA-1200报错 这是一个常见的ORA-1200错误,但是文件大小相差的有离谱实际大小729600个block,但是现在只有149 ...

  4. oracle修改删除数据,[Oracle 错误修改删除数据后的恢复方法

    [Oracle ERP维护人员必备] 错误修改删除数据后的恢复方法 Oracle ERP维护人员工作再小心也难免会有在正式库中误删或者误改数据并且已经commit的情况发生,那么我就要用到 - Ora ...

  5. docker数据卷备份恢复以及配置桥接网络

    25.9 数据卷备份恢复 备份: 如果数据卷容器的共享目录已经挂载到了本地宿主机的磁盘上,那么就无需进行数据卷备份.没有进行挂载到本地,而是作为共享目录的数据卷容器,就得定期将数据卷进行一个备份,不然 ...

  6. Salesforce 数据备份和恢复小知识

    数据备份的类型 在Salesforce中可以使用多种API进行数据备份,它们是: REST API SOAP API Buik API Metadata API 数据备份有三种选择: 完全备份(Ful ...

  7. 使用mysql备份工具innobackupex进行本地数据备份、恢复操作实例

    innobackupex 支持所有mysql引擎数据备份恢复安装配置方法及原理介绍,访问下面链接 http://michaelkang.blog.51cto.com/1553154/1216826 1 ...

  8. 适用于ELment-UI级联多选框,数据回填,根据子节点的值查找完整路径

    适用于ELment-UI级联多选框el-cascader,数据回填,根据子节点的值查找完整路径 已知子元素id,怎么获取它所有的父元素?用递归实现 /*** 查找匹配的完整路径* id: 匹配的值* ...

  9. 刷卡提示57能恢复吗_硬盘格式化之后数据还能恢复吗?

    硬盘格式化之后数据还能恢复吗? 移动硬盘是工作生活中常用的一种存储介质,如果在其中存储了重要的数据,但是却因为中了病毒.人为删除或者不小心误删除文件或是格式化等而导致数据丢失该怎么办?移动硬盘数据可以 ...

最新文章

  1. ASP.NET MVC 导入Excel文件
  2. 高通平台device tree生成platform device的过程(MSM8909)
  3. python 柱状图宽度设置_Python matplotlib 柱状图实例
  4. QT的QVideoProbe类的使用
  5. C#】通过遍历IFrame访问页面元素
  6. 苹果降低应用商店收入一半分成、Twitter视频分享功能 Fleet、百度36亿美元收购 YY|Decode the Week...
  7. 腾讯人均每月薪酬成本超8万元,员工总数首次超10万
  8. 阿里云高校“在家实践”计划,免费提供2.68亿小时算力!
  9. linux下c代码调用.so,Linux下C程序调用.so(动态链)的一个例子
  10. 强生CEO加入苹果成为新董事
  11. DjangoForm组件初识
  12. 哈希查找 C语言版
  13. android checkbox分页问题分析
  14. AES,RSA, SHA1简单工具类
  15. 直角坐标系和极坐标系
  16. 直播课堂系统,打造出超过线下培训场景200%的在线学习课堂
  17. 用友系统服务器,用友财务系统需要什么云服务器
  18. 《Linux驱动:Nor flash驱动看这一篇就够了》
  19. 串级PID的直立控制
  20. halo博客系统升级

热门文章

  1. 疯狂ios讲义之疯狂连连看游戏简介
  2. TMG学习(四),允许内部网络解析本地主机的Netbiso名称
  3. SQLServer2k安全配置
  4. 牛客多校2 - Interval(网格图最大流转换为对偶图最短路)
  5. CodeForces - 1370F2 The Hidden Pair (Hard Version)(交互题+二分)
  6. 牛客 - 车辆调度(dfs)
  7. HYSBZ - 3676 回文串(回文自动机)
  8. POJ - 3255 Roadblocks(次短路)
  9. 广度优先遍历算法-03树的右侧问题
  10. android homme一般多钱,【ANDROID HOMME】ANDROID HOMME官网介绍_ANDROID HOMME口碑_什么值得买...