问题现象描述:

某个集群环境每天出现一台机器关机现象,随机发生,经过排查解决问题,为大家提供方便

环境:

集群环境:openstack + ceph 融合集群,版本:Mitaka+jewel

网络环境:网卡10G+bond0(主备模式)

版      本:centos7.3

message  错误日志:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Aug 30 16:45:14 lxx-4-5 journal: internal error: End of file from monitor
Aug 30 16:45:14 lxx-4-5 avahi-daemon[2412]: Withdrawing address record for fe80::fc16:3eff:fef3:5076 on vnet5.
Aug 30 16:45:14 lxx-4-5 kernel: vlan206: port 3(vnet5) entered disabled state
Aug 30 16:45:14 lxx-4-5 kvm: 10 guests now active
Aug 30 16:45:14 lxx-4-5 avahi-daemon[2412]: Withdrawing workstation service for vnet5.
Aug 30 16:45:14 lxx-4-5 kernel: device vnet5 left promiscuous mode
Aug 30 16:45:14 lxx-4-5 kernel: vlan206: port 3(vnet5) entered disabled state
Aug 30 16:45:14 lxx-4-5 systemd: autolog.service holdoff time over, scheduling restart.
Aug 30 16:45:14 lxx-4-5 systemd: Started Autolog.
Aug 30 16:45:14 lxx-4-5 systemd: Starting Autolog...
Aug 30 16:45:14 lxx-4-5 systemd-machined: Machine qemu-22-instance-000002c9 terminated.
Aug 30 16:45:14 lxx-4-5 autolog: Don't have master process.
Aug 30 16:45:15 l22-4-5 journal: End of file while reading data: Input/output error
Aug 30 16:45:15 lxx-4-5 systemd: autolog.service holdoff time over, scheduling restart.
Aug 30 16:45:15 lxx-4-5 systemd: Started Autolog.
Aug 30 16:45:15 lxx-4-5 systemd: Starting Autolog...
Aug 30 16:45:15 lxx-4-5 autolog: Don't have master process.
Aug 30 16:45:15 lxx-4-5 systemd: autolog.service holdoff time over, scheduling restart.
Aug 30 16:45:15 lxx-4-5 systemd: Started Autolog.
Aug 30 16:45:15 lxx-4-5 systemd: Starting Autolog...

openstack-compute 关键日志:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
2017-08-30 16:45:20.952 110867 DEBUG nova.compute.manager [req-0602316d-944c-42b4-9d3c-7d1b0e513765 - - - - -] [instance: 26f48b2e-f648-42e2-8133-7ebc060fd7ae] Updated the network info_cache for instance _heal_instance_info_cache /usr/lib/python2.7/site-packages/nova/compute/manager.py:5803
2017-08-30 16:45:30.033 110867 DEBUG nova.virt.driver [-] Emitting event <LifecycleEvent: 1504082715.03, 08330b10-f106-4737-b9db-0e45c84abb2e => Stopped> emit_event /usr/lib/python2.7/site-packages/nova/virt/driver.py:1443
2017-08-30 16:45:30.034 110867 INFO nova.compute.manager [-] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] VM Stopped (Lifecycle Event)
2017-08-30 16:45:30.076 110867 DEBUG nova.compute.manager [req-5998b542-495c-41f2-8010-7f1c426f0127 - - - - -] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] Checking state _get_power_state /usr/lib/python2.7/site-packages/nova/compute/manager.py:1347
2017-08-30 16:45:30.079 110867 DEBUG nova.compute.manager [req-5998b542-495c-41f2-8010-7f1c426f0127 - - - - -] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] Synchronizing instance power state after lifecycle event "Stopped"; current vm_state: active, current task_state: None, current DB power_state: 1, VM power_state: 4 handle_lifecycle_event /usr/lib/python2.7/site-packages/nova/compute/manager.py:1276
2017-08-30 16:45:30.119 110867 INFO nova.compute.manager [req-5998b542-495c-41f2-8010-7f1c426f0127 - - - - -] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] During _sync_instance_power_state the DB power_state (1) does not match the vm_power_state from the hypervisor (4). Updating power_state in the DB to match the hypervisor.
2017-08-30 16:45:30.177 110867 WARNING nova.compute.manager [req-5998b542-495c-41f2-8010-7f1c426f0127 - - - - -] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] Instance shutdown by itself. Calling the stop API. Current vm_state: active, current task_state: None, original DB power_state: 1, current VM power_state: 4
2017-08-30 16:45:30.178 110867 DEBUG nova.compute.api [req-5998b542-495c-41f2-8010-7f1c426f0127 - - - - -] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] Going to try to stop instance force_stop /usr/lib/python2.7/site-packages/nova/compute/api.py:1954
2017-08-30 16:45:30.267 110867 DEBUG oslo_concurrency.lockutils [req-5998b542-495c-41f2-8010-7f1c426f0127 - - - - -] Lock "08330b10-f106-4737-b9db-0e45c84abb2e" acquired by "nova.compute.manager.do_stop_instance" :: waited 0.000s inner /usr/lib/python2.7/site-packages/oslo_concurrency/lockutils.py:270
2017-08-30 16:45:30.268 110867 DEBUG nova.compute.manager [req-5998b542-495c-41f2-8010-7f1c426f0127 - - - - -] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] Checking state _get_power_state /usr/lib/python2.7/site-packages/nova/compute/manager.py:1347
2017-08-30 16:45:30.270 110867 DEBUG nova.compute.manager [req-5998b542-495c-41f2-8010-7f1c426f0127 - - - - -] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] Stopping instance; current vm_state: active, current task_state: powering-off, current DB power_state: 4, current VM power_state: 4 do_stop_instance /usr/lib/python2.7/site-packages/nova/compute/manager.py:2545
2017-08-30 16:45:30.270 110867 INFO nova.compute.manager [req-5998b542-495c-41f2-8010-7f1c426f0127 - - - - -] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] Instance is already powered off in the hypervisor when stop is called.
2017-08-30 16:45:30.271 110867 DEBUG nova.objects.instance [req-5998b542-495c-41f2-8010-7f1c426f0127 - - - - -] Lazy-loading 'metadata' on Instance uuid 08330b10-f106-4737-b9db-0e45c84abb2e obj_load_attr /usr/lib/python2.7/site-packages/nova/objects/instance.py:895
2017-08-30 16:45:30.314 110867 INFO nova.virt.libvirt.driver [req-5998b542-495c-41f2-8010-7f1c426f0127 - - - - -] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] Instance already shutdown.
2017-08-30 16:45:30.318 110867 INFO nova.virt.libvirt.driver [-] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] Instance destroyed successfully.

关键日志:

1
2
3
message : Aug 30 16:45:15 l22-4-5 journal: End of file while reading data: Input/output error
Openstack-compute: 2017-08-30 16:45:30.034 110867 INFO nova.compute.manager [-] [instance: 08330b10-f106-4737-b9db-0e45c84abb2e] VM Stopped (Lifecycle Event)

解决办法:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
升级libvirt 版本:
libvirt-daemon-driver-secret-2.0.0-10.el7_3.9.x86_64
libvirt-daemon-lxc-2.0.0-10.el7_3.9.x86_64
libvirt-daemon-driver-lxc-2.0.0-10.el7_3.9.x86_64
libvirt-python-2.0.0-2.el7.x86_64
libvirt-daemon-2.0.0-10.el7_3.9.x86_64
libvirt-lock-sanlock-2.0.0-10.el7_3.9.x86_64
libvirt-daemon-driver-storage-2.0.0-10.el7_3.9.x86_64
libvirt-gobject-0.2.3-1.el7.x86_64
libvirt-nss-2.0.0-10.el7_3.9.x86_64
libvirt-daemon-driver-nwfilter-2.0.0-10.el7_3.9.x86_64
libvirt-gconfig-0.2.3-1.el7.x86_64
libvirt-snmp-0.0.3-5.el7.x86_64
libvirt-daemon-driver-nodedev-2.0.0-10.el7_3.9.x86_64
libvirt-glib-devel-0.2.3-1.el7.x86_64
libvirt-gobject-devel-0.2.3-1.el7.x86_64
libvirt-java-javadoc-0.4.9-4.el7.noarch
libvirt-daemon-driver-qemu-2.0.0-10.el7_3.9.x86_64
libvirt-daemon-kvm-2.0.0-10.el7_3.9.x86_64
libvirt-gconfig-devel-0.2.3-1.el7.x86_64
libvirt-login-shell-2.0.0-10.el7_3.9.x86_64
libvirt-client-2.0.0-10.el7_3.9.x86_64
libvirt-daemon-driver-interface-2.0.0-10.el7_3.9.x86_64
libvirt-devel-2.0.0-10.el7_3.9.x86_64
libvirt-cim-0.6.3-19.el7.x86_64
libvirt-glib-0.2.3-1.el7.x86_64
libvirt-java-devel-0.4.9-4.el7.noarch
libvirt-daemon-driver-network-2.0.0-10.el7_3.9.x86_64
libvirt-docs-2.0.0-10.el7_3.9.x86_64
libvirt-daemon-config-nwfilter-2.0.0-10.el7_3.9.x86_64
libvirt-2.0.0-10.el7_3.9.x86_64
libvirt-daemon-config-network-2.0.0-10.el7_3.9.x86_64
libvirt-java-0.4.9-4.el7.noarch

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
升级qemu版本
qemu-system-lm32-2.0.0-1.el7.6.x86_64
ipxe-roms-qemu-20160127-5.git6366fa7a.el7.noarch
qemu-system-cris-2.0.0-1.el7.6.x86_64
qemu-system-x86-2.0.0-1.el7.6.x86_64
qemu-kvm-tools-1.5.3-126.el7_3.10.x86_64
qemu-system-xtensa-2.0.0-1.el7.6.x86_64
qemu-system-arm-2.0.0-1.el7.6.x86_64
qemu-system-s390x-2.0.0-1.el7.6.x86_64
qemu-system-sh4-2.0.0-1.el7.6.x86_64
qemu-kvm-common-1.5.3-126.el7_3.10.x86_64
qemu-user-2.0.0-1.el7.6.x86_64
qemu-system-unicore32-2.0.0-1.el7.6.x86_64
libvirt-daemon-driver-qemu-2.0.0-10.el7_3.9.x86_64
qemu-guest-agent-2.5.0-3.el7.x86_64
qemu-common-2.0.0-1.el7.6.x86_64
qemu-system-or32-2.0.0-1.el7.6.x86_64
qemu-kvm-1.5.3-126.el7_3.10.x86_64
qemu-system-moxie-2.0.0-1.el7.6.x86_64
qemu-img-1.5.3-126.el7_3.10.x86_64
qemu-system-m68k-2.0.0-1.el7.6.x86_64
qemu-system-alpha-2.0.0-1.el7.6.x86_64
qemu-system-microblaze-2.0.0-1.el7.6.x86_64
qemu-system-mips-2.0.0-1.el7.6.x86_64
qemu-2.0.0-1.el7.6.x86_64

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
升级kernel 
[root@~]# rpm -qa|grep kernel
kernel-3.10.0-514.26.2.el7.x86_64
kernel-tools-libs-3.10.0-514.26.2.el7.x86_64
kernel-devel-3.10.0-327.36.3.el7.x86_64
kernel-tools-3.10.0-514.26.2.el7.x86_64
kernel-devel-3.10.0-123.el7.x86_64
kernel-3.10.0-327.36.3.el7.x86_64
abrt-addon-kerneloops-2.1.11-45.el7.centos.x86_64
kernel-3.10.0-514.2.2.el7.x86_64
kernel-3.10.0-123.el7.x86_64
kernel-3.10.0-327.22.2.el7.x86_64
kernel-devel-3.10.0-327.22.2.el7.x86_64
kernel-devel-3.10.0-514.26.2.el7.x86_64
kernel-devel-3.10.0-514.2.2.el7.x86_64
kernel-headers-3.10.0-514.26.2.el7.x86_64
[root@~]# uname  -r
3.10.0-514.26.2.el7.x86_64

注意:升级版本之后一定要重启,才能成功,重启服务无效!!!

本文转自 swq499809608 51CTO博客,原文链接:http://blog.51cto.com/swq499809608/1962081

openstack 云主机关机:ournal: End of file while reading data: Input/output error相关推荐

  1. openstack 云主机关机,自动running

    问题描述: 解决云主机临时关机,自动running 云主机,减少登机器操作,采用的模块是openstack 组件相关模块,需要在控制节点上开发 """ @Item : c ...

  2. RHEL7OSP-6.0的openstack云主机发放

    RHEL7OSP-6.0的openstack云主机发放 一.系统版本 二.云计算相关概念 1.VPC虚拟私有云 2.云计算服务层次 ①基础设施即服务(IaaS) ②平台即服务(PaaS) ③软件即服务 ...

  3. OpenStack 云主机镜像制作

    目录 文章目录 目录 镜像支持功能 手动制作 启动虚拟机环境 配置虚拟机环境 创建 Glance 镜像 使用 OpenStack 环境制作 使用 DIB 半自动化工具制作 将 OpenStack 云主 ...

  4. Eal:Error reading from file descriptor 33: Input/output error

    问题描述 VMWARE 虚机中,82545EM 虚拟网卡绑定 igb_uio 后,运行 dpdk 程序,dpdk 程序一直有如下报警信息: Eal:Error reading from file de ...

  5. openstack云主机无法绑定ip_智汇华云|OpenStack 虚拟机 GPU 性能优化

    随着大数据.人工智能技术的发展,越来越多的用户产生了获取拥有GPU算力的弹性计算服务的需求,GPU云主机具有突出的图形处理和高性能计算能力,适用于科学计算.视频处理.深度学习等应用场景,受到了市场的青 ...

  6. OpenStack 云主机的创建

    本次,我们采用命令行的方式来创建云主机 前期准备 镜像的创建 镜像采用:cirros-0.3.4-x86_64-disk.img 镜像的创建 [root@controller ~]# glance i ...

  7. openstack 云主机分辨率问题

    永久版本: 镜像添加vga属性 openstack image set --property hw_video_model=vga xxx 临时生效:(已经创建的云主机) <video>& ...

  8. 数据包从物理网卡流经 Open vSwitch 进入 OpenStack 云主机的流程

    目录 文章目录 目录 前言 数据包从物理网卡进入虚拟机的流程 物理网卡处理 如何将网卡收到的数据写入到内核内存? 中断下半部分软中断处理 数据包在内核态 OvS Bridge(Datapath)中的处 ...

  9. 硬盘故障时如何强制关机:Input/output error

    如果硬盘可能会出现锁死或坏道的故障,会造成SHELL命令的失效,包括 reboot,powoff,,shutdown,用正常的命令是没法完成重启的. 执行这些命令,会出现如下IO报错: reboot ...

  10. OpenStack云环境数据备份方案 Freezer

    为什么要引入Freezer 对于很多用户来说,OpenStack 环境中的数据备份一直存在着众多痛点,影响了OpenStack备份,具体包括如下几个方面: 1.   NovaCinder 备份方式存在 ...

最新文章

  1. Android小知识-电量优化WakeLock的使用
  2. LeakCanary——消除Android中的内存泄露
  3. Web前端开发笔记——第三章 CSS语言 第七节 圆角边框、阴影
  4. 前端学习(1044):本地存储实现数据录入
  5. 蚂蚁上市P8身价超亿,丢给我这几个牛逼的公众号
  6. windows qt 不能debug_linux配置vlc-qt
  7. 一文带你了解什么是GitOps
  8. WebRTC报错:depot_tools/bootstrap_python3: um.8_bin/python3/bin/python3: 没有那个文件或目录(三)
  9. 他对我有成见,怎么办
  10. Flexsim 强化学习
  11. 俄罗斯航空发动机AL-31F(solidworks模型)
  12. 利用高德地图获取地点经纬度,并提取两地驾车、步行、骑行的出行时间、出行距离、费用等参数
  13. 大学语文复习详细资料
  14. 查找手机号绑定的百度账号
  15. 【8583】ISO8583各域段的说明
  16. 1.1 css style 样式定义:行内 style 属性、单页 <style> 标签、多页 <style> 标签
  17. 【附证明】用ArcGIS中Band Collection Statistics做相关性分析可能存在错误
  18. enti下载器_短跑enti策略:如何在不破坏软件的情况下改进软件
  19. 怎样用计算机调出歌曲,怎样设置电脑开机音乐
  20. 絮絮叨叨C++ template

热门文章

  1. 文件管理器之字符和编码
  2. python 列表,数组,矩阵两两转换tolist()
  3. 蓝桥杯2018年第九届C/C++省赛B组第六题-递增三元组
  4. System Center Operations Manager 简介 [SCOM中文系列之一]
  5. .nett Core之路由配置
  6. localStorage、cookie的使用总结
  7. Android:日常学习笔记(8)———开发微信聊天界面
  8. C#基础 数据类型 类型转换
  9. JavaScript数字精度丢失问题总结
  10. windows Hadoop环境搭建之一---软件准备