问题

Ceph集群一直显示XXX daemons have recently crashed,而且数目越来越多;

解决方法:

最近有一个或多个Ceph守护进程崩溃,管理员尚未对该崩溃进行存档(确认)。这可能表示软件错误、硬件问题(例如,故障磁盘)或某些其它问题。

系统中所有的崩溃可以通过以下方式列出:

# ceph crash ls
ID                                                               ENTITY     NEW
2020-05-02_00:53:25.028694Z_b29d405c-2512-4b80-916f-46c45c2cd6a9 osd.94
2020-05-02_00:56:33.807897Z_feea566f-f237-42fd-aadf-45a5e8047896 osd.94
2020-05-02_05:41:03.542296Z_21a06b0b-f2bc-42d1-8d50-5c104e150c9e mon.node01
2020-05-02_09:52:51.146773Z_4e637ead-80df-42df-93f0-42c84ab8feb3 osd.19

新的崩溃可以通过以下方式列出:

# ceph crash ls-new

有关特定崩溃的信息可以通过以下方式检查:

# ceph crash info <crash-id>###例如#### ceph crash info 2020-05-02_05:41:03.542296Z_21a06b0b-f2bc-42d1-8d50-5c104e150c9e
{"os_version_id": "18.04", "utsname_release": "4.15.0-55-generic", "os_name": "Ubuntu", "entity_name": "mon.node01", "timestamp": "2020-05-02 05:41:03.542296Z", "process_name": "ceph-mon", "utsname_machine": "x86_64", "utsname_sysname": "Linux", "os_version": "18.04.3 LTS (Bionic Beaver)", "os_id": "ubuntu", "utsname_version": "#60-Ubuntu SMP Tue Jul 2 18:22:20 UTC 2019", "backtrace": ["(()+0x12890) [0x7f6c9f2f3890]", "(gsignal()+0xc7) [0x7f6c9e3ebe97]", "(abort()+0x141) [0x7f6c9e3ed801]", "(()+0x8c957) [0x7f6c9ede0957]", "(()+0x92ab6) [0x7f6c9ede6ab6]", "(()+0x92af1) [0x7f6c9ede6af1]", "(()+0x92d24) [0x7f6c9ede6d24]", "(()+0x1424b) [0x7f6c9f51424b]", "(tc_new()+0x283) [0x7f6c9f535943]", "(rocksdb::Arena::AllocateNewBlock(unsigned long)+0x6c) [0x55c1aabe88ac]", "(rocksdb::Arena::AllocateFallback(unsigned long, bool)+0x4b) [0x55c1aabe89db]", "(rocksdb::Arena::AllocateAligned(unsigned long, unsigned long, rocksdb::Logger*)+0x110) [0x55c1aabe8b80]", "(rocksdb::ConcurrentArena::AllocateAligned(unsigned long, unsigned long, rocksdb::Logger*)+0xd4) [0x55c1aaaff004]", "(()+0x5a3273) [0x55c1aab6b273]", "(()+0x5a32f0) [0x55c1aab6b2f0]", "(rocksdb::MemTable::Add(unsigned long, rocksdb::ValueType, rocksdb::Slice const&, rocksdb::Slice const&, bool, rocksdb::MemTablePostProcessInfo*)+0xfc) [0x55c1aaafa5bc]", "(rocksdb::MemTableInserter::PutCFImpl(unsigned int, rocksdb::Slice const&, rocksdb::Slice const&, rocksdb::ValueType)+0x1bd) [0x55c1aab609ed]", "(rocksdb::MemTableInserter::PutCF(unsigned int, rocksdb::Slice const&, rocksdb::Slice const&)+0x26) [0x55c1aab615d6]", "(rocksdb::WriteBatch::Iterate(rocksdb::WriteBatch::Handler*) const+0xa19) [0x55c1aab58de9]", "(rocksdb::WriteBatchInternal::InsertInto(rocksdb::WriteThread::WriteGroup&, unsigned long, rocksdb::ColumnFamilyMemTables*, rocksdb::FlushScheduler*, bool, unsigned long, rocksdb::DB*, bool, bool, bool)+0x14b) [0x55c1aab5cecb]", "(rocksdb::DBImpl::WriteImpl(rocksdb::WriteOptions const&, rocksdb::WriteBatch*, rocksdb::WriteCallback*, unsigned long*, unsigned long, bool, unsigned long*, unsigned long, rocksdb::PreReleaseCallback*)+0x13f6) [0x55c1aaa80f06]", "(rocksdb::DBImpl::Write(rocksdb::WriteOptions const&, rocksdb::WriteBatch*)+0x30) [0x55c1aaa82660]", "(RocksDBStore::submit_common(rocksdb::WriteOptions&, std::shared_ptr<KeyValueDB::TransactionImpl>)+0x88) [0x55c1aaa342f8]", "(RocksDBStore::submit_transaction_sync(std::shared_ptr<KeyValueDB::TransactionImpl>)+0x8c) [0x55c1aaa34c3c]", "(MonitorDBStore::apply_transaction(std::shared_ptr<MonitorDBStore::Transaction>)+0x76b) [0x55c1aa80a02b]", "(Paxos::begin(ceph::buffer::v14_2_0::list&)+0x562) [0x55c1aa90bca2]", "(Paxos::propose_pending()+0x127) [0x55c1aa90d5f7]", "(Paxos::finish_round()+0x50a) [0x55c1aa90de1a]", "(Paxos::commit_finish()+0x5fc) [0x55c1aa90fd6c]", "(C_Committed::finish(int)+0x34) [0x55c1aa913d54]", "(Context::complete(int)+0x9) [0x55c1aa84a359]", "(MonitorDBStore::C_DoTransaction::finish(int)+0x94) [0x55c1aa913ac4]", "(Context::complete(int)+0x9) [0x55c1aa84a359]", "(Finisher::finisher_thread_entry()+0x17f) [0x7f6ca05227bf]", "(()+0x76db) [0x7f6c9f2e86db]", "(clone()+0x3f) [0x7f6c9e4ce88f]"], "utsname_hostname": "node01", "crash_id": "2020-05-02_05:41:03.542296Z_21a06b0b-f2bc-42d1-8d50-5c104e150c9e", "archived": "2020-05-06 14:13:12.975173", "ceph_version": "14.2.6"
}

可以通过“存档”崩溃(可能是在管理员检查之后)来消除此警告,从而不会生成此警告:

# ceph crash archive <crash-id>

同样,所有新的崩溃都可以通过以下方式存档:

# ceph crash archive-all

通过ceph crash ls仍然可以看到已存档的崩溃,但不是ceph crash ls-new即可看到。

“recent”所指的时间段由选项mgr/crash/warn_recent_interval控制(默认值:两周)。

可以通过以下方式完全禁用这些警告:

# ceph config set mgr mgr/crash/warn_recent_interval 0

参考:

https://docs.ceph.com/docs/master/rados/operations/health-checks/?highlight=backfillfull%20ratio
https://docs.ceph.com/docs/master/mgr/crash/?highlight=crash

Ceph集群显示XXX daemons have recently crashed警告相关推荐

  1. 使用cephadm部署单节点ceph集群,后期可扩容(基于官方文档,靠谱,读起来舒服)

    目录 ceph各种部署工具比较(来自官方文档的翻译,靠谱!) 材料准备 cephadm使用条件 服务器有外网访问能力 服务器没有外网访问能力 安装cephadm cephadm的功能 两种安装方式 基 ...

  2. Ceph (2) - 安装Ceph集群方法 2:使用cephadm配置Nautilus版Ceph集群

    <OpenShift 4.x HOL教程汇总> 文章目录 安装环境说明 Ceph集群节点说明 Ceph集群主机环境说明 用cephadm部署Ceph集群 准备节点环境 设置环境变量 设置h ...

  3. Ceph (1) - 安装Ceph集群方法 1:使用ceph-deploy安装Nautilus版Ceph集群

    <OpenShift 4.x HOL教程汇总> 文章目录 环境说明 Ceph集群节点说明 Ceph集群主机环境说明 用ceph-deploy部署Ceph集群 准备节点环境 设置环境变量 设 ...

  4. CentOS 7 搭建 Ceph 集群(nautilus 版本)

    推荐阅读 Helm3(K8S 资源对象管理工具)视频教程:https://edu.csdn.net/course/detail/32506 Helm3(K8S 资源对象管理工具)博客专栏:https: ...

  5. Openstack集群-Ceph集群作为存储的部署

    1.安装Ceph集群 1.1 设置ceph的yum源 ceph版本:12.2.5 ceph-deploy版本: 2.0.0 注:此处用控制节点部署mod和mgr ,OSD部署在计算节点上 [root@ ...

  6. Ceph集群报错解决方案笔记

    文章目录 0 当前Ceph版本和CentOS版本: 1.节点间配置文件内容不一致错误 2.too few PGs per OSD (21 < min 30)警告 解决办法:增加pg数 3.集群状 ...

  7. CEPH集群操作入门--配置

    https://www.cnblogs.com/luxiaodai/p/10006036.ht CEPH集群操作入门--配置l CEPH集群操作入门--配置 阅读目录(Content) 概述 配置 存 ...

  8. JavaEE企业级实战项目 智牛股第四天 NACOS、ceph集群和Netty

    交易平台 - Day 4 学习目标 目标1:Nacos背景与基本原理 目标2:Nacos的使用 目标3:Ceph分布式存储原理 目标4:Ceph部署与使用 目标5:Netty通讯机制 第1章 Naco ...

  9. Ceph集群搭建系列(六):RBD块设备的使用场景、原理分析及其创建

    一.前言 下图数据出自2018年ceph社区用户调查报告,Ceph RBD接口的使用场景主要是VM和DB数据库. 而使用Ceph RBD的接口方式的用户数据如下,主要是librbd 和 kernel ...

最新文章

  1. df.where(dfmask, targetValue)展示
  2. 聚类图像像素 Clustering Pixels Using K-Means
  3. linux查看.ssh权限,linux查看与开启ssh
  4. 还原出厂设置 擦除frp_如何备份,擦除和还原Apple Watch
  5. [ios]UITableViewCell自适应高度 【转】
  6. java easyui 分页_Spring mvc+easyui做列表展示及分页
  7. 英特尔+性能+linux,Linux 4.20内核在英特尔处理器上性能比Linux 4.19低,附原因解释...
  8. linux 在命令行中复制的快捷键_在 Linux 中加速工作的键盘快捷键 | Linux 中国
  9. 电信、联通合建 5G,将会碰出怎样的火花?
  10. c语言串口控制单片机,利用USART实现单片机与串口通信[C语言]
  11. PHP笔记(CSS篇)
  12. Linux安装PHPwind
  13. 国外 计算机专业 网站,国外计算机类核心期刊及其网站
  14. 恒生杭州历年软件测试笔试题,【恒生电子软件测试面试】首先做一个笔试题,然...-看准网...
  15. MyBatisPlus 又搞事情,发布权限神器!
  16. 腾讯开放平台开发者星级服务:全面监控Crash
  17. docker默认ip查询
  18. OS=Windows and the assembly descriptor contains a *nix-specific root-relative-reference (starting wi
  19. Heartbeat+DRBD+MySQL高可用方案
  20. Python基于人脸识别的考勤系统(附源码)

热门文章

  1. Axure教程(中级):分类导航菜单高亮条的实现
  2. python打开浏览器全屏_Python+Selenium自动化——浏览器启动自动全屏配置
  3. 如何通过Charles+BurpSuite的配合在PC端抓到手机包
  4. 社团在学生清华借教室流程
  5. BAV20W规格信息
  6. 2020年中国空气压缩机行业发展现状、竞争格局及未来发展趋势分析,国内市场竞争激烈,市场规模将破600亿元「图」
  7. 巨准私域案例拆解丨“认养一头牛“如何通过私域分层运营提升复购
  8. PowerBI 操作
  9. 今天一个客户公司里要让一台电脑通网
  10. 刘磨叽恶狠狠地瞪了了张s