近期发现ESXI主机宕机导致视频会议系统故障,整理分析过程如下:
环境为ESXi 6.0,被vCenter 6.7U1管理,宕机后并未拍屏幕而直接重启了主机。

  1. 从vCenter层面收集ESXi 系统日志,只看到实时日志,未看到宕机前的日志信息。
  2. ssh 连接到esxi, cd /var/log也未看到压缩的历史日志文件,从vmksummary.log看到主机重启后的时间,并有提示已经找到DUMP文件,故障时间点基本确认

2019-04-16T19:54:13Z bootstop: Host has booted
2019-04-16T19:54:13Z bootstop: partition core dump found

  1. cd /scratch 看到有log文件夹,ls log 看到了大量压缩的历史日志文件

原来日志被重定向到这里来了。

4、根据时间点查看历史日志文件内容,并未发现有用信息。

5、ls /scratch/core 看到有一个vmkernel-zdump.1 的dump文件,基本确认主机发了生紫屏才宕机的

6、如何分析打开这个文件呢?网上查询了VM 也有KB说明,根据KB使用一个命令:
vmkdump -l vmkernel-zdump.1 会创建一个vmkernel.log.1 的文件,可用cat 或vi或其它文本工具查看:
^[[7m2019-04-15T11:31:36.550Z cpu30:32805)WARNING: Heartbeat: 781: PCPU 26 didn't have a heartbeat for 21 seconds; may be locked up.^[[0m
^[[31;1m2019-04-15T11:31:36.550Z cpu26:33339)ALERT: NMI: 681: NMI IPI recvd. We Halt. eip(base):ebp:cs [0x3080cd(0x41800d800000):0x1:0x4010](Src0x1, CPU26)^[[0m
2019-04-15T11:31:36.550Z cpu30:32805)World: 9729: PRDA 0x418047800000 ss 0x0 ds 0x10b es 0x10b fs 0x10b gs 0x0
2019-04-15T11:31:36.550Z cpu30:32805)World: 9731: TR 0x4020 GDT 0x4392ef421000 (0x402f) IDT 0x41800d8c9000 (0xfff)
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b560:[0x41800db080cd]MemNode_NUMANodeMask2MemNodeMask@vmkernel#nover+0x25 stack: 0x1
2019-04-15T11:31:36.550Z cpu30:32805)World: 9732: CR0 0x80010031 CR3 0x6c4ed1000 CR4 0x42768
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b580:[0x41800db45622]MemDistributeNUMAPolicy@vmkernel#nover+0x27a stack: 0x0
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b6c0:[0x41800db4616d]MemDistribute_Alloc@vmkernel#nover+0x299 stack: 0xe59bb55
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b820:[0x41800d8181f0]PagePool_AllocCustom@vmkernel#nover+0x2f0 stack: 0x4390d1d9bac0
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b8e0:[0x41800d820c04]vmk_MemPoolAlloc@vmkernel#nover+0x37c stack: 0x41800dfad8b1
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bd90:[0x41800dfad8b1]fusion_get_seq_num@<None>#<None>+0xd9 stack: 0x43034ef4cc40
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bea0:[0x41800dfa2adb]megasas_hotplug_work@<None>#<None>+0x16b stack: 0x0
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bf20:[0x41800d82245f]VmkTimerQueueWorldFunc@vmkernel#nover+0x21f stack: 0x0
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bfd0:[0x41800da13dae]CpuSched_StartWorld@vmkernel#nover+0xa2 stack: 0x0
2019-04-15T11:31:36.600Z cpu30:32805)Panic: 798: Saved backtrace: pcpu 26 Heartbeat NMI
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b560:[0x41800db080cd]MemNode_NUMANodeMask2MemNodeMask@vmkernel#nov
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b580:[0x41800db45622]MemDistributeNUMAPolicy@vmkernel#nover+0x27a
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b6c0:[0x41800db4616d]MemDistribute_Alloc@vmkernel#nover+0x299 stac
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b820:[0x41800d8181f0]PagePool_AllocCustom@vmkernel#nover+0x2f0 sta
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b8e0:[0x41800d820c04]vmk_MemPoolAlloc@vmkernel#nover+0x37c stack:
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bd90:[0x41800dfad8b1]fusion_get_seq_num@<None>#<None>+0xd9 stack:
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bea0:[0x41800dfa2adb]megasas_hotplug_work@<None>#<None>+0x16b stac
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bf20:[0x41800d82245f]VmkTimerQueueWorldFunc@vmkernel#nover+0x21f s
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bfd0:[0x41800da13dae]CpuSched_StartWorld@vmkernel#nover+0xa2 stack
2019-04-15T11:31:36.623Z cpu30:32805)^[[45m^[[33;1mVMware ESXi 6.0.0 [Releasebuild-3073146 x86_64]^[[0m
PCPU 26: no heartbeat (2/2 IPIs received)

基本确认主机宕机原因是Esxi 主机无法与CPU通信(通信超时21秒)导致。

vCPU分配过多了??检查了下vCPU 数量小于LCPU。

7、通过关键字进行搜索“POSD no heartbeat”,未找到此故障原因,国外网友也有类似问题,只查到建议是升级ESXi。

8、最后一在篇ESXi 6.0U2发行说明“已解决问题”看到解决了“no heartbeat”的问题:

ESXi 主机显示紫色诊断屏幕并显示多条“可更正计算机检查中断”(CMCI) 消息

由于短时间内 vmkernel.log 文件中的多个 CMCI 导致 CPU 无响应,ESXi 主机可能会失败并显示紫色诊断屏幕。紫色诊断屏幕中会显示类似以下内容的条目:

ESXi 主机显示紫色诊断屏幕并显示多条“可更正计算机检查中断”(CMCI) 消息

由于短时间内 vmkernel.log 文件中的多个 CMCI 导致 CPU 无响应,ESXi 主机可能会失败并显示紫色诊断屏幕。紫色诊断屏幕中会显示类似以下内容的条目:

PCPU <N>: no heartbeat (2/2 IPIs received)br/>0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]MCEReapMCABanks@vmkernel#nover+0x195
0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]MCEHandleCMCI@vmkernel#nover+0xb4br/>0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]IRQ_DoInterrupt@vmkernel#nover+0x33e
0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]IDT_IntrHandler@vmkernel#nover+0x12b 0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]gate_entry@vmkernel#nover+0x64br/>0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]LFQueue_Dequeue@vmkernel#nover+0x59
0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]MCEBottomHalf@vmkernel#nover+0x39br/>0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]BH_DrainAndDisableInterrupts@vmkernel#nover+0xf3
0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]VMMVMKCall_Call@vmkernel#nover+0x2c6

将向 vmkernel.log 文件中记录类似于以下内容的条目:

cpu1:33127)MCE: 1118: cpu1: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
cpu1:33127)MCE: 231: cpu1: bank9: MCA recoverable error (CE): "Memory Controller Scrubbing Error on Channel 0."
cpu1:33127)MCE: 222: cpu1: bank9: status=0xXXXXXXXXXXXXXXXX: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), ECC=no, Addr:0xXXXXXXXXXXXXXXXX (valid), Misc:0x8c3589300 (valid)

本版本已解决该问题。

最后实在找不到其它原因了,就定为BUG吧。升级到esxi 6.0 U3

https://kb.vmware.com/s/article/1002769?lang=zh_CN#q=core%20dump

https://docs.vmware.com/cn/VMware-vSphere/6.0/rn/vsphere-esxi-60u2-release-notes.html

转载于:https://blog.51cto.com/emcome/2380496

VMware ESXi 宕机分析过程相关推荐

  1. oracle rodm包,由重启引起的Oracle RAC节点宕机分析及追根溯源

    作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维 ...

  2. oracle 监听 宕机,由重启引起的Oracle RAC节点宕机分析及追根溯源

    作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维 ...

  3. oracle19c集群重启,由重启引起的Oracle RAC节点宕机分析及追根溯源

    原标题:由重启引起的Oracle RAC节点宕机分析及追根溯源 作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle ...

  4. linux服务器宕机分析/性能瓶颈分析

    linux服务器宕机分析/性能瓶颈分析 服务器宕机原因很多,资源不足.应用.硬件.系统内核bug等,以下一个小例子 服务器宕机了,首先得知道服务器宕机的时间点,然后分析日志查找原因 1.last re ...

  5. linux线程引起jvm崩溃,JVM宕机分析

    1.可以引发JVM崩溃的常见缘由有:linux 线程阻塞数据库 CPU 使用率太高服务器 JVM Crash工具 堆内存不足google 类装载spa Java虚拟机自身的Bug操作系统 JDK与服务 ...

  6. oracle rac 宕机频繁,Oracle rac宕机分析故障处理

    oracle rac故障分析 Oracle rac宕机分析故障处理 某客户rac数据库2号节点实例自动宕节点,以下为分析报告 一.现象回顾: 2号节点发生故障时,alert日志显示如下: Thread ...

  7. mysql宕机日志查询_mysql宕机分析(事务日志损坏)

    mysql宕机分析(事务日志损坏) 一.情景概述. 1.服务器配置 a)  1CPU 8核 b)  16G内存 c)  2T 硬盘 2. Mysql 在一个普通硬盘中长时间处于大量写的状态(长时间大概 ...

  8. 记一次服务器宕机处理过程

    今天整理之前的运维资料,发现了自己整理的一次刀片服务器(运行的vmware虚拟化)事故处理流程,所以记录下,备忘. 一.事件处理过程 14:10 接到机房运维工程师通知,Opmanager监控系统上出 ...

  9. Linux系统异常夯死或宕机分析

    一.问题描述 某次某云主机访问异常,登录云主机后来发现vnc界面夯死,输入命令无反应,console界面发送重启指令也无反应,只能云平台管理页面强制重启. 二.问题分析: 1>重启后查看sysl ...

最新文章

  1. python入门教程收藏_python入门教程:超详细保你1小时学会Python,快来收藏看看...
  2. matlab分类器函数
  3. C++ :跳表数据结构的实现原理
  4. php一些高级函数方法
  5. win7怎么修改服务器端口,win7服务器端口设置方法
  6. java 内部类传值_Java 封装(内部类)
  7. vue鼠标移动上去提示_关于如何处理vue中鼠标悬停事件的详细说明
  8. 如何批量更改Mac视频帧速率
  9. .net 编译工具_写Java这么久,JDK源码编译过没?编译JDK源码踩坑纪实
  10. Java Swing窗体JFrame之窗体美化-窗体及组件外观设置
  11. 科普两个著名人工智能思想实验:图灵测试和中文房间
  12. Deepin安装到移动硬盘
  13. vue-router升级3.0.0以上版本导致Uncaught(in promise) navigation guard报错问题
  14. mac上的微信小助手WeChatPlugin
  15. Maven2部署构件到Nexus时出现的Failed to transfer file错误
  16. 【JS】jQuery实现弹幕效果
  17. 微信小程序如何创建云开发根目录
  18. 广东2018c语言二级答案,2018年3月全国计算机二级C语言练习题及答案(2)
  19. 2021-08-07 STM32F103 Buffer SPI Transfer 缓冲通讯
  20. Java基础知识提炼与总结

热门文章

  1. 水星路由器wan口ip显示0_路由器WAN口获取不到IP地址怎么办?
  2. 3、u-boot-2016 - board_init_f
  3. 清明时节,思念友人张锦文
  4. GIF修复(图片隐写)
  5. 学习廖雪峰Git入门教程--总结
  6. 基于SSM校园学术报告管理平台毕业设计文案及源码
  7. rsync+inotify实现文件增量实时同步
  8. 教你用认知和人性来做最棒的程序员
  9. Docker常用软件安装之Redis
  10. java去除字符串中最后一个字符_java中字符串如何去除最后一个字符方法