这是 OpenStack 实施经验分享系列的第 10 篇。

是软件就会有 bug,OpenStack 也不例外,只要用它就一定会遇到故障。Troubleshooting(故障排除)是运维 OpenStack 等开源项目的重要技能,遇到问题后一定要借助社区的力量定位、搜索、分析并解决问题。

下面 CloudMan 将分享一个真实的案例,还原当时 Troubleshooting 的过程,希望能给大家一些启发。

问题描述

某天客户的 OpenStack 突然全线瘫痪:任何操作都无法正常完成,一直处于正在执行状态,界面上也不报错,就是无法完成操作。

问题分析

这是一个全局性的问题,首先查看 nova 日志,无报错,再看 MySQL 和 RabbitMQ 日志,在 RabbitMQ 中发现大量重复报错:

一直报 reply_529af7a7c3784c2d9dc5e72c603024a5 这个 exchange 找不到。 这些 reply_XXX 的都是 OpenStack 自己维护的,之前运行得好好的,为什么突然找不到,应该是发生了异常,跟配置没有关系,估计是 bug。

先 google 一下吧。搜索技术问题,google 是首选,翻不了墙就用 bing,度娘嘛还是让她专注中文吧 :-)

这里贴出 bing 的搜索结果:

看上去第二个比较靠谱,点进去发现跟我们的情况完全一样,而且还提到一个相关 bug。

浏览一下 bug 的内容,确实是我们遇到的问题,这是一个 oslo.messaging 的 bug,而且已经 fix 了。

因为客户 OpenStack 版本是 kilo, 所以点击 kilo 对应的 review 链接看看 fix 都修改了哪些地方。

一共改了两个文件,点开 amqpdriver.py 的链接,可以看到 diff。

对比客户系统 /usr/local/lib/python2.7/dist-packages/oslo_messaging/_drivers/amqpdriver.py 文件内容,确实是 fix 之前的版本。

问题确定了,解决办法也有了:更新 olso.messageing 包

解决问题

OpenStack 的源代码是在 github 上维护的,每个模块有自己的 repository。 oslo.messageing 的项目主页是 https://github.com/openstack/oslo.messaging

因为我们目前的版本是 kilo,所以要找 oslo.messaging 在 kilo 上的最新版本。

在 Tags 中,我们看到有 kilo-eol,eol 的意思是 “end of life”,是 kilo 的最终版本了。

可以再次确认,kilo-eol 确实包含了我们想要的 fix。后面的工作就很直接了:

  1. 下载 oslo.messaging 代码库。

  2. 安装 kilo-eol 版本。

  3. 重启相关 OpenStack 相关服务。

下节我们会详细讨论如何更新 OpenStack 组件。

由于 oslo.messaging 是基础组件,几乎所有服务都会用到,所以不得不更新每一个节点并重启 OpenStack。工作量虽然大些,但问题终于解决了。

Troubleshooting OpenStack 瘫痪 - 每天5分钟玩转 OpenStack(160)相关推荐

  1. 如何使用 OpenStack CLI - 每天5分钟玩转 OpenStack(22)

    http://www.cnblogs.com/CloudMan6/p/5402490.html 如何使用 OpenStack CLI - 每天5分钟玩转 OpenStack(22) 本节首先讨论 p_ ...

  2. OpenStack 架构 - 每天5分钟玩转 OpenStack(15)

    终于正式进入 OpenStack 部分了. 今天开始,CloudMan 将带着大家一步一步揭开 OpenStack 的神秘面纱. OpenStack 已经走过了 6 个年头. 每半年会发布一个版本,版 ...

  3. LVM 类型的 Storage Pool - 每天5分钟玩转 OpenStack(8)

    http://www.cnblogs.com/CloudMan6/p/5277927.html LVM 类型的 Storage Pool - 每天5分钟玩转 OpenStack(8) LVM 类型的 ...

  4. Pause/Resume Instance 操作详解 - 每天5分钟玩转 OpenStack(34)

    Pause/Resume Instance 操作详解 - 每天5分钟玩转 OpenStack(34) 本节通过日志详细分析 Nova Pause/Resume 操作. 有时需要短时间暂停 instan ...

  5. 部署 DevStack - 每天5分钟玩转 OpenStack(17)

    http://www.cnblogs.com/CloudMan6/p/5357273.html 部署 DevStack - 每天5分钟玩转 OpenStack(17) 本节按照以下步骤部署 DevSt ...

  6. Cinder 组件详解 - 每天5分钟玩转 OpenStack(47)

    Cinder 组件详解 - 每天5分钟玩转 OpenStack(47) 本节我们将详细讲解 Cinder 的各个子服务. cinder-api cinder-api 是整个 Cinder 组件的门户, ...

  7. 每天5分钟玩转openstack跟学(一)预备知识

    前言:对于openstack我是一名小白,打算跟着CloudMan的<每天5分钟玩转openstack>进行学习,有兴趣的小伙伴可以跟着我一起,相互探讨,互相进步,该系列博文基本不涉及原理 ...

  8. 写在最前面 - 每天5分钟玩转 OpenStack(1)

    写在最前面 <每天5分钟玩转 OpenStack>是一个 OpenStack 教程,这是第 1 篇. 这个教程有下面两个特点: 系统讲解 OpenStack 从架构到各个组件:从整体到细节 ...

  9. 学习 OpenStack 的方法论 - 每天5分钟玩转 OpenStack(150)

    作为 OpenStack 的核心教程,我们已经到了最后总结的部分. OpenStack 目前已经有好几十个模块,本教程讨论的是最最重要的核心模块:Keystone,Nova,Glance,Cinder ...

最新文章

  1. ETSI GS MEC 012,RNIS API
  2. Intellij IDEA Debug 调试技巧
  3. 附加到IIS进程调试页面
  4. PIX 几个配置注意的地方
  5. vue 给url 中文参数 添加编码解码
  6. Hyper-V + CentOS7 网络设置(视频教程)
  7. 关于集合中元素的有序无序的易混淆点
  8. 最常被利用的三大 API 漏洞:是什么、为什么、如何阻止?
  9. 如何写一个Linux精灵进程
  10. A trip through the Graphics Pipeline 2011_06_(Triangle) rasterization and setup
  11. IDEA 部署 Java Web 应用为 war 包
  12. Windows下ab压力测试工具的模拟表单提交使用
  13. mingw64镜像网站
  14. 可汗学院教学课程总目录
  15. Mysql 临时表详解(temporary table)
  16. cadence SPB17.4 - orcad - 层次原理图
  17. 24岁想学插画来得及吗?零基础学插画需要了解这些
  18. 处理win10系统自动休眠bug
  19. Python之OpenCV截取视频段
  20. VBA编程常用语句300句

热门文章

  1. 中upload依赖包_upload-labs writeup
  2. Android的SharedPreferences存取String和List<String>类型(在Activity和Fragment内使用)
  3. Docker 快速安装 Mysql
  4. 20210422:力扣第237周周赛题解记录(上)
  5. VB数组快速排序算法
  6. 【引用】窗口处理技巧大全 vb(窗体控件)
  7. linux ps命令使用详解
  8. 智能一代云平台(八):代码依赖分析系统
  9. 惹怒程序员的下场!阿里达摩院大神受不了骚扰电话,业余发起“二哈”AI,315后爆红...
  10. 小米架构调整:拆分成立人工智能部,直接向CEO雷军汇报