如何处理ESXi Hang机

当主机从vCenter中断开,通常是ESXi上的hostd进程没有正常工作,更为严重的情况是ESXi发生hang机,不能被远程控制,现象表现为:
1. 不能使用vSphere Client客户端软件远程连接ESXi,
2. 也不能使用SSH客户端软件远程连接ESXi.

3. 使用带外管理卡或者通过键盘监视器直接连接物理服务器的控制台,可能可以操作,可能不能操作

这种场景通常代表硬件设备有故障,重启主机后大多数情况下可以恢复正常工作状态,但由于hang机后ESXi系统没有记录完整信息,所以给进一步判断是哪个硬件组件发生故障带来困难。如果使用硬件诊断工具也不一定能扫出随机发生的硬件问题。

除了使用硬件供应商原厂的烤机检测工具外, 我们有没有别的方法帮助我们隔离问题呢? 下面从操作系统软件角度给出一些辅助的方法步骤。

第一步,首先需要ping ESXi主机的管理地址,确认网络层面是否可以工作。注意:即使ESXi主机的管理地址不通,虚拟机也可以正常工作,只要虚拟机所使用的上联网卡可以工作。

第二步,如果网络是通的,可以使用vSphere Client软件直连ESXi服务器,看看图形界面是否可以远程控制, 这一步也可以帮助确认hostd是否可以正常工作。

第三步,如果网络是通的,可以使用ssh连接ESXi主机,看看是否可以在命令行远程控制。(前提是SSH服务已经提前打开运行)

如果hang机,第二步和第三步都不能工作。

第四步,因为远程控制的途径全部失效,我们需要打开物理服务器的控制台窗口做进一步判断。有两种方法,一种是使用键盘和监视器连接服务器,另一种是使用带外管理卡连接服务器控制台,比如iLO/iDRAC/IMM/RMM2/ILOM。连上后看看键盘是否可以工作。如果可以,执行第五步;如果不可以,跳过第五步,直接执行第六步。

第五步,使用组合键Alt+F12,切换DCUI×××背景界面到内存日志输出的黑色终端屏幕,在这里可以看见vmkernel最新的日志输出,这些信息都直接来自vmkernel临时保存在内存中的事件队列中。ESXi的syslog服务会从这里提取日志并且根据配置转存到本地磁盘、远程日志服务器、超级终端应用程序等地方;如果syslog或者其后端不能工作,我们将失去日志文件,所以在按下Alt+F12后,可以对屏幕拍照获取当时的日志消息帮助分析。

第六步,使用硬件NMI的功能主动让ESXi主机宕机,产生紫屏,这样vmkernel当时使用的内存信息可以被保留到磁盘上, 后续我们可以分析dump文件帮助查找原因。如果虚拟机上的操作系统还可以访问,建议先使用RDP关闭windows或者ssh关闭Linux,然后在让ESXi紫屏。 硬件NMI的使用方法根据硬件厂家以及硬件型号不同而异,具体操作方法需要参考硬件设备用户手册。(有关硬件NMI的介绍可以参看知识库文章编号KB#1014767)

第七步,重启服务器,恢复工作后收集并提交vm-support日志给VMware技术支持做后续分析。同时请致电硬件厂商检查硬件。

其他辅助措施:
1. 使用远程日志机制避免本地磁盘故障导致日志缺失,参看 http://kb.vmware.com/kb/2003322
2. 使用网络转储(netdump)保存vmkernel内存信息避免本地vmkcore分区大小不足导致dump失败, 参看 http://kb.vmware.com/kb/1032051

转载于:https://blog.51cto.com/vmsupport/1241472

如何处理ESXi Hang机相关推荐

  1. Vmware Esxi宿主机及虚拟机网络配置

    1.网络规划 ESXI管理网段==>10.10.10.0/24==>vlan10 虚拟机网段==>10.10.20.0/24==>vlan20 2.当前ESXi主机使用两块物理 ...

  2. VMware ESXi 宕机分析过程

    近期发现ESXI主机宕机导致视频会议系统故障,整理分析过程如下: 环境为ESXi 6.0,被vCenter 6.7U1管理,宕机后并未拍屏幕而直接重启了主机. 从vCenter层面收集ESXi 系统日 ...

  3. [ESXi 6.5] 设置ESXi宿主机开机自动启动虚拟机

    在百度上面找了一圈都是讲ESXi6.0之前的版本,在VMware vSphere Client上开启. 1.选择host主机-->右侧选择"配置"页签-->选择&quo ...

  4. VMware虚拟化之Esxi宿主机内存回收实践

    测试初衷 总感觉VMware宿主机的内存没有kvm宿主机够用 收到多次esxi宿主内存告警后发现,宿主机内存占比高>>下面虚拟机内存占用高>>虚拟机实际内存使用却很低 VMwa ...

  5. esxi宿主机进入维护模式虚拟机不会自动释放【不会自动迁移出去】解决方法、查看辨别宿主机本地空间和存储池、esxi进入存储内部清理空间

    文章目录 说明 虚拟机不自动释放处理过程 报错说明 宿主机进入维护模式说明 手动迁移报错说明 直接启动虚拟机报错说明 解决方法 报错原因分析 解决方法 查看辨别宿主机本地空间 esxi进入存储内部清理 ...

  6. esxi宿主机的本地存储-非活动

    今天忽然发现DRS中一台ESXI主机的本地存储不可以,主机资源可用 琢磨了好久,也在网上搜索了好久,一直没有解决的办法. 不得已到机房,用kvm连接. 重启计算机 发现居然无法启动,卡在DHCP... ...

  7. esxi虚机启动慢的问题

    为什么80%的码农都做不了架构师?>>>    当虚机异常断电后,虚机启动慢的问题 我查了,可能是由于这2个虚机做过快照 考虑找个方便的时间,把快照删了,然后重新配置一下 转载于:h ...

  8. ESXi宿主机修改root密码

    方法一:直接在web端修改: 方法二:利用ssh工具远程上去 输入passwd root,然后输入新的密码,再重新输入密码 修改密码的命令跟centos是一样的 方法三:按F2 进去ESXI的管理界面 ...

  9. 报警服务器物理内存,从内存告警谈ESXi主机内存管理——内存构成

    在<如何处理ESXi主机的黄色告警>一文中我们提到了在没有冗余的管理网络或启用SSH的情况下,ESXi主机图标右下方将会出现黄色的告警.除了上述配置导致告警之外,另一种常见的告警就是ESX ...

最新文章

  1. Face++ 论文解读:一种新的行人重识别度量学习方法 | PaperDaily #20
  2. PAT乙级 1039 到底买不买
  3. 贝叶斯算法伪代码_字节跳动算法面经
  4. 命名管道(FIFO) Linux进程进程间的通信之命名管道(FIFO)
  5. ASCII和UTF-8
  6. 平面杆系结构有限元分析C++程序设计思路
  7. STM32编程语言介绍
  8. 大数据与数据挖掘的相对绝对关系
  9. 如何更改计算机时间和日期,如何更改电脑日期?电脑教程:然后修改
  10. 网站被攻击客户信息被泄露如何解决
  11. 微信生态圈的发展分析
  12. 真正免费的pdf转word在线工具
  13. 6.1_[Java 数组]-数组与二重循环和鸡兔同笼及冒泡排序
  14. vb.net 窗体接收键盘事件_不用100就能够买到全键盘的无线键鼠套装,双飞燕FG1010魅力依旧...
  15. 当遇到“you may be a victim of software counterfeiting”这样的提示
  16. springboot整合 neo4j (OGM+JPA方式操作图数据库)
  17. Hilary Stagg 不死传说
  18. RDP协议简介与通讯数据加密等级及设置说明
  19. 服务器看门狗芯片电路图,新型纯硬件看门狗电路设计分析研究
  20. structural covariance network

热门文章

  1. LeetCode Weekly Contest 142
  2. MFC- OnIdle空闲处理
  3. [原]openstack-kilo--issue(十八) Error parsing template file: Template format version not found.
  4. 【001:这条路很漫长,但出发了就不要想还有多远】
  5. 【CODEVS2577】医院设置
  6. android-hotfix(QQ空间思路)浅析
  7. 非替换元素和替换元素
  8. 知识点2-1:设置开发环境
  9. 数据中台必备的4个核心能力,你让数据创造价值了吗?
  10. 「知识图谱」领域近期值得读的 6 篇顶会论文