首页 > 系统相关 >VMware ESXi 紫屏/蓝屏故障解决方案

VMware ESXi 紫屏/蓝屏故障解决方案

时间:2023-10-08 19:33:19浏览次数:47  
标签:ESXi 虚拟机 紫屏 硬件 PSOD 蓝屏 VMware

一、前言

   随着VMware的广泛使用,近期遇到很多客户使用VMware Esxi时出现蓝屏和紫屏现象,紫屏代码(Purple Screen of Diagnostics/Purple Screen of Death )简称:PSOD。本章我们主要分析下如何分析紫屏代码。仅供参考。

    官方KB:https://kb.vmware.com/s/article/1020181

                 https://kb.vmware.com/s/article/1014767

二、紫屏解释

当 Esxi 宕机时,内核确定其不安全,就会出现 PSOD,紫屏会保存内存状态,我们称为内存转储或核心转储。我们可以通过ESXi Server的Dell iDRAC / HP ILO / Cisco CIMC时,我们可以看到此PSOD屏幕状态。

此时屏幕上会显示崩溃时的内存状态,并显示对崩溃原因进行故障排除的详细信息、ESXi 版本详细信息、异常类型、寄存器转储、回溯、服务器正常运行时间、错误消息以及有关核心转储的信息。

VMware ESXi 紫屏/蓝屏故障解决方案_硬件故障

VMware ESXi 紫屏/蓝屏故障解决方案_硬件故障_02

三、故障分析

1、硬件故障

在大多数情况下,原因是RAM或CPU。通常会显示“MCE(机器检查异常)”或“NMI(不可屏蔽的中断)”错误。

“MCE” – 表示 CPU 内用于检测和报告硬件问题的机制。紫色屏幕上显示的代码中有一些用于确定问题根本原因的重要详细信息。

“NMI” – 表示处理器不能忽略的硬件中断。由于 NMI 是有关硬件故障的非常重要的消息,因此从 ESXi 5.0 及更高版本开始的默认响应是触发 PSOD。早期版本只是记录错误并继续。与MCE相同,由NMI引起的紫色屏幕。

有关 NMI 代码,请参阅知识库 https://kb.vmware.com/s/article/1014767

2. 软件错误

带有软件错误的新版本会导致 PSOD,并且通常问题在下一个构建版本中得到修复。

示例:资源不足:内存、堆、缓冲区。配置参数不正确或不受支持的

3. 硬件兼容性问题

虚拟机可能使用了不兼容的虚拟硬件版本或驱动程序,驱动程序中尝试访问某些不正确索引或不存在的方法的 bug。

https://kb.vmware.com/s/article/2146526

对虚拟环境的影响是,当 ESXi 服务器上发生 PSOD 时,主机崩溃并终止其上运行的所有服务,并且主机上运行的所有虚拟机将不会正常关闭,如果主机是 HA 的一部分,则所有虚拟机都将迁移到另一台主机并重新引导。

四、案例剖析

我们可在服务器带外管理查看紫屏界面,下面进行详细剖析分解。

具有内部版本号详细信息的产品

VMware ESXi 紫屏/蓝屏故障解决方案_祡屏_03

导致 PSOD 的错误消息详细信息

VMware ESXi 紫屏/蓝屏故障解决方案_祡屏_04

中央处理器寄存器

VMware ESXi 紫屏/蓝屏故障解决方案_硬件故障_05

物理 CPU 详细信息

VMware ESXi 紫屏/蓝屏故障解决方案_服务器_06

ESXi 主机启动正常运行时间

VMware ESXi 紫屏/蓝屏故障解决方案_祡屏_07

堆栈跟踪

VMware ESXi 紫屏/蓝屏故障解决方案_VMware_08

核心转储

VMware ESXi 紫屏/蓝屏故障解决方案_硬件故障_09

分析完上述代码详情,接下来我们可以在esxi上收取日志,如图所示

VMware ESXi 紫屏/蓝屏故障解决方案_祡屏_10

VMware ESXi 紫屏/蓝屏故障解决方案_VMware_11

下载的日志可自行分析,或者找VMware 400售后支持。

五、防护措施

要正确防止 VMware ESXi 紫色诊断屏幕或紫色死机屏幕问题,可以采取以下措施来提高虚拟化环境的稳定性和可靠性:

1、保持 VMware ESXi 更新:

定期更新您的 ESXi 主机,以确保您拥有最新的安全性和性能修复。VMware 发布了定期的补丁和更新,以修复已知的问题。

2、定期备份虚拟机:

创建定期的虚拟机备份,以防止数据丢失。这可以帮助您在出现问题时快速恢复虚拟机的状态。

3、监控硬件健康:

使用硬件监控工具来跟踪宿主机的健康状况,包括温度、风扇速度、电源供应等。这有助于及早发现潜在的硬件故障。

4、合理分配资源:

确保虚拟机的资源分配合理。避免在同一宿主机上分配过多的虚拟机,以避免资源争用。

5、使用兼容的虚拟硬件:

当创建虚拟机时,选择与 ESXi 版本兼容的虚拟硬件版本。确保虚拟机操作系统支持所选的虚拟硬件版本。

6、启用虚拟机监控:

VMware 提供了虚拟机监控功能,可以帮助您监视虚拟机的性能和状态。启用监控可以帮助您及早发现问题。

7、定期维护虚拟机:

定期对虚拟机进行操作系统和应用程序的更新、维护和安全性检查,以确保其稳定性和安全性。

8、合理规划存储和网络:

确保存储和网络基础设施能够满足虚拟机的需求。避免存储性能瓶颈和网络拥塞。

9、监控和日志分析:

设置监控和日志分析工具,以及时检测和诊断问题。VMware 提供了一些工具和解决方案,如vRealize Operations Manager和vCenter Log Insight。

10、虚拟机迁移和负载平衡:

使用 VMware vMotion 等技术来实现虚拟机的迁移和负载平衡,以确保资源均衡分配,并减少单一宿主机故障的影响。

11、合理规划容灾和备份策略:

考虑设置容灾和备份策略,以应对宿主机或存储故障等严重问题。

综合以上可适当减少兼容性问题。

本文转自:https://mp.weixin.qq.com/s/rNGLjOgrPwrSTyByt4139A


标签:ESXi,虚拟机,紫屏,硬件,PSOD,蓝屏,VMware
From: https://blog.51cto.com/u_7575433/7761295

相关文章

  • ThbinBook16+ Win10 蓝屏崩溃的解决思路
    背景近日,手头的联想笔记本频繁蓝屏重启,严重时一天三次,持续了近一周。错误代码基本均为:DRIVER_IRQL_NOT_LESS_OR_EQUAL​‍笔记本型号:ThinkBook16G4+ARA(21D1)操作系统:Win10排障思路重装驱动首先google和百度检索了一番错误代码,基本都指向驱动问题。‍上官网重新下载......
  • ThbinBook16+ Win10 蓝屏崩溃的解决思路
    背景近日,手头的联想笔记本频繁蓝屏重启,严重时一天三次,持续了近一周。错误代码基本均为:DRIVER_IRQL_NOT_LESS_OR_EQUAL​‍笔记本型号:ThinkBook16G4+ARA(21D1)操作系统:Win10排障思路重装驱动首先google和百度检索了一番错误代码,基本都指向驱动问题。‍上官网重新下载......
  • 【VMware篇】6-Esxi上Windows server 2019安装AD域控、DHCP、DNS、KMS
    第1章前言  本文主要介绍在Windowsserver2019上安装AD域控、DHCP、DNS、KMS服务器以及创建好域控后组织单元的创建。AD(activedirectory)域     AD域是一种广泛使用的身份验证和访问控制解决方案,它是由Microsoft开发的。AD域能够为组织中的用户、计算机和其他网络资源提供......
  • VMware workstation pro12 突然蓝屏的处理方法
      电脑是win10操作系统,以前安装VMwareWorkstationpro12x,一直用得不错,昨天突然出现状况:进入虚拟机后前面看着正常,出现CentOS灰色图案后,静默——蓝屏!提示:你的设备遇到问题,需要重启......分别尝试以下方法:(1)重启——无效,查看log(引用一部分,仅作参考):2023-10-05T16:48:14.2......
  • 【VMware篇】2-VMware ESXi安装和配置手册
    第1章 前言  本文主要介绍Dell服务器安装ESXi系统。  是可直接安装在物理服务器上的强大的裸机管理系统,是一款虚拟软件;ESXi本身可以看做一个操作系统,采用Linux内核,安装方式为裸金属方式,可直接安装在物理服务器上,不需安装其他操作系统,它是专为运行虚拟机、最大限度降低配置要......
  • 【VMware篇】3-ESXi安装Windows Server2019虚拟机和更改配置
    第1章前言   本文主要介绍Dell服务器安装ESXI后虚拟机的安装,安装例子:WindowsServer2019。1.Windowsserver2019            Windowsserver2019是微软公司研发的服务器操作系统,WindowsServer2019包括三个许可版本:DatacenterEdition(数据中心版):适用于高虚拟化......
  • 【VMware篇】5-ESXi导入、导出虚拟机和模板
    第1章、前言本文主要介绍封装系统导出为模板,以WindowsServer2019为例。第2章、导出系统为模板1、打开运行窗口输入“sysprep”点击确定。2、选中“sysprep”鼠标右键“以管理员身份运行”。3、勾选“通用”,关机选项选择“关机”,点击确定。4、选中server2019 鼠标右键选择“导出......
  • VMware ESXi 7.0 U3o macOS Unlocker & OEM BIOS 标准版和厂商定制版
    VMwareESXi7.0U3omacOSUnlocker&OEMBIOS标准版和厂商定制版ESXi7.0标准版和Dell(戴尔)、HPE(慧与)、Lenovo(联想)、Inspur(浪潮)、Cisco(思科)定制版镜像请访问原文链接:https://sysin.org/blog/vmware-esxi-7-u3-oem/,查看最新版。原创作品,转载请保留出处。作......
  • VMware ESXi 7.0 U3o macOS Unlocker & OEM BIOS 集成网卡驱动和 NVMe 驱动 (集成驱动
    VMwareESXi7.0U3omacOSUnlocker&OEMBIOS集成网卡驱动和NVMe驱动(集成驱动版)ESXi7U3标准版集成Intel网卡、RealtekUSB网卡和NVMe驱动请访问原文链接:https://sysin.org/blog/vmware-esxi-7-u3-sysin/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.o......
  • VMware ESXi 7.0 Update 3o 下载 - 领先的裸机 Hypervisor (重大更新)
    VMwareESXi7.0Update3o下载-领先的裸机Hypervisor(重大更新)VMwareESXi7.0Update3oStandard&AllCustomImageforESXi7.0U3InstallCD新增了22个服务器机型(Dell、HPE和Lenovo)和多个驱动对vSphereQuickBoot的支持,以及71个功能问题修复,属于”重大......