首页 > 系统相关 >VMware vSphere HA主机状态故障排除方法

VMware vSphere HA主机状态故障排除方法

时间:2023-08-04 13:23:32浏览次数:42  
标签:vSphere 主机 虚拟机 代理 故障 HA VMware

Vmware vCenter Server 和 ESXi 主机在运行时难免遇到这样那样或潜在的故障,那么如何提前知晓这些故障或处理这些故障呢,在此小编支支招VMware vSphere HA主机状态故障的排除方法。

1、VMware vSphere HA主机状态故障排除方法

一般情况下,vCenter Server 会报告 vSphere HA 主机状况,指示主机上的错误情况,这类错误会阻止 vSphere HA 充分保护主机上的虚拟机,并阻碍 vSphere HA 在故障出现后重新启动虚拟机的功能,当在主机上配置或取消配置 vSphere HA 时,或很少数情况下在正常运行期间可能出现错误,当出现错误时,应确定如何解决错误才能使 vSphere HA 全面运行。

2、vSphere HA 代理处于代理无法访问状况

主机上的 vSphere HA 代理已处于代理无法访问状况一分钟或更长时间。可能需要用户干预来解决这种情况。

问题:当首选主机或 vCenter Server 无法访问主机的代理时,vSphere HA 会报告代理处于代理无法访问状况。因此,vSphere HA 无法监控该主机上的虚拟机,并且在出现故障后可能不会重新启动这些虚拟机。

原因:vSphere HA 代理可能因多个原因而处于代理无法访问状况。这种情况通常表示网络连接问题正在阻止 vCenter Server 访问首选主机和主机上的代理,或表示群集中的所有主机都失败。这种情况还可能表示一种不太可能的情况:vSphere HA 已被禁用并已在群集中重新启用但 vCenter Server 无法与主机上的 vSphere HA 代理通信,或主机上的代理已失败且监视程序进程无法将其重新启动。

解决方案:确定 vCenter Server 是否报告主机无响应。如果是,则说明存在网络问题或整体性群集故障。解决上述任一种情况后,vSphere HA 应可正常工作。如果未正常工作,请重新配置主机上的 vSphere HA。同样,如果 vCenter Server 报告主机有响应但主机状态为“代理无法访问”,请重新配置该主机上的 vSphere HA。

3、vSphere HA 代理处于未初始化状况

主机上的 vSphere HA 代理已处于未初始化状况一分钟或更长时间。可能需要用户干预来解决这种情况。

问题:当主机的代理无法进入运行状况并成为首选主机时,或无法连接到首选主机时,vSphere HA 会报告代理处于未初始化状况。因此,vSphere HA 无法监控该主机上的虚拟机,并且在出现故障后可能不会重新启动这些虚拟机。

原因:vSphere HA 代理可能因一个或多个原因而处于未初始化状况。这种情况通常表示主机对任何数据存储都没有访问权限。在少数情况下,表示主机对 vSphere HA 用来缓存状况信息的本地数据存储没有访问权限、主机上的代理无法访问或 vSphere HA 代理无法打开所需防火墙端口。

解决方案:在主机的事件列表中搜索近期发生的主机的 vSphere HA 代理出错 (vSphere HA Agent for the host has an error) 事件。此事件指明主机处于未初始化状况的原因。如果由于数据存储问题而出现这种情况,请解决任何阻止主机访问受影响数据存储的问题。解决上述问题后,如果代理未返回到操作状况,请重新配置主机上的 vSphere HA。

注意:如果由于防火墙问题而出现这种情况,请检查主机上是否有其他服务在使用端口 8192。如果是这样,请关闭此服务,然后重新配置 vSphere HA。

4、vSphere HA 代理处于“初始化错误”状况

主机上的 vSphere HA 代理已处于“初始化错误”状况一分钟或更长时间。需要用户干预来解决这种情况。

问题:vSphere HA 报告代理上一次尝试配置主机的 vSphere HA 失败时处于“初始化错误”状况。vSphere HA 不监控此类主机上的虚拟机,并且在发生故障后可能不会重新启动这些虚拟机。

原因:这种情况通常表示,在主机上安装或配置 vSphere HA 代理时 vCenter Server 无法连接到该主机。这种情况还可能表示安装和配置已完成,但代理在超时期限内未成为首选主机或从属主机。这种情况很少表示主机的本地数据存储上没有足够的磁盘空间用于安装代理,或主机上没有足够的未预留内存资源用于代理资源池。最后,对于 ESXi 5.0 主机,如果先前安装另一组件时需要重新引导主机但尚未进行重新引导,则配置将失败。

解决方案:如果配置 HA 任务失败,将报告失败的原因。

失败原因 操作
主机通信错误 解决主机出现的任何通信问题,然后重试配置操作。
超时错误 可能的原因包括主机在配置任务期间崩溃、代理在安装后无法启动或代理在启动后无法初始化。验证vCenter Server是否能与主机通信。如果的确如此,请参见vSphere HA 代理处于代理无法访问状况或vSphere HA 代理处于未初始化状况以了解相关可行解决方案。
文件空间不足 释放约75 MB 的磁盘空间。如果此故障是由于未预留的内存不足造成的,可通过将虚拟机重定位到另一主机或降低其预留来在主机上释放内存。在这两种情况下,请在解决问题后重试 vSphere HA配置任务。
挂起的重新引导 如果安装5.0 或更高版本的主机失败的原因是重新引导挂起,请重新引导主机,然后重试vSphere HA 配置任务。

 

5、vSphere HA 代理处于“未初始化错误”状况

主机上的 vSphere HA 代理处于“未初始化错误”状况。需要用户干预来解决这种情况。

问题:在取消配置 HA 任务期间,当 vCenter Server 无法取消配置主机上的代理时,vSphere HA 会报告代理处于未初始化错误状况。处于此状况的代理可能干扰群集的运行。例如,主机上的代理可能选择自身作为主要主机并锁定数据存储。锁定某个数据存储会阻止有效的群集主要主机管理配置文件位于此数据存储上的虚拟机。

原因:这种情况通常表明当取消配置代理时,vCenter Server 与主机的连接丢失。

解决方案:将主机添加回版本 5.0 或更高版本的 vCenter Server。可以将主机作为独立主机添加,或者可以添加到任何群集。

6、vSphere HA 代理处于“主机出现故障”状况

主机上的 vSphere HA 代理处于“主机出现故障”状况。需要用户干预来解决这种情况。

问题:通常,此类报告表示主机实际上已发生故障,但故障报告有时可能不正确。故障主机会降低群集的可用容量,如果出现错误报告,会阻止 vSphere HA 保护在该主机上运行的虚拟机。

原因:当 vCenter Server 连接到的 vSphere HA 首选主机无法与该主机以及用于该主机的检测信号数据存储进行通信时,会报告此主机状况。如果伴随有网络故障,使数据存储无法访问主机的任何存储故障均会导致此情况。

解决方案:请检查是否存在所述的故障情况并解决发现的任何故障。

7、vSphere HA 代理处于“网络已分区”状况

主机上的 vSphere HA 代理处于“网络已分区”状况。可能需要用户干预来解决这种情况。

问题:尽管主机上运行的虚拟机继续由负责它们的首选主机监控,但 vSphere HA 在出现故障后重新启动虚拟机的能力将受到影响。首先,每台首选主机都可以访问主机的子集,因此每台主机可用的故障切换容量降低。其次,发生故障后,vSphere HA 可能无法重新启动辅助虚拟机(请参见主虚拟机保持在“需要辅助虚拟机”状态)。

原因:如果满足以下两个条件,则会将主机报告为已分区:

——vCenter Server 连接到的 vSphere HA 首选主机无法使用管理网络与主机通信,但可以使用已为其选择的检测信号数据存储来与该主机通信。

——主机未隔离。

网络分区的出现有很多原因,包括 VLAN 标记错误、物理网卡或交换机发生故障、配置部分主机仅使用 IPv4 而其他主机仅使用 IPv6 的群集,或者部分主机的管理网络在没有先使主机进入维护模式的情况下移至其他虚拟交换机。

解决方案:解决阻止主机使用管理网络进行通信的网络连接问题。

8、vSphere HA 代理处于“网络已隔离”状况

主机上的 vSphere HA 代理处于“网络已隔离”状况。需要用户干预来解决这种情况。

问题:当主机处于“网络已隔离”状况时,vSphere HA 会对主机上运行的虚拟机应用关闭主机电源或主机关机隔离响应vSphere HA 会继续监控保持打开电源状态的虚拟机。当主机处于此状况时,vSphere HA 在虚拟机出现故障后重新启动虚拟机的能力将受到影响。如果主机上的代理确定由首选主机负责虚拟机,则 vSphere HA 仅对虚拟机执行关闭电源或关机。

原因:如果满足以下两个条件,则主机处于网络隔离状态:

——隔离地址已配置且主机无法 ping 这些地址。

——主机上的 vSphere HA 代理无法访问其他群集主机上运行的任何代理。

解决方案:解决阻止主机 Ping 其隔离地址并与其他主机通信的网络问题。

-----------------------------------
转载自:https://blog.51cto.com/qcwsh/1971787

标签:vSphere,主机,虚拟机,代理,故障,HA,VMware
From: https://www.cnblogs.com/dier-gaohe/p/17605488.html

相关文章

  • AI 赚钱:PhantaDream 对 Web3 时代 AIGC 的愿景
    AIGC作为一种工具,消除了艺术表达技巧的门槛,任何人都可以充分参与艺术的创作,这可能是艺术史上前所未有的时代,我们都是这个时代的见证者和参与者。S进入AIGC迷人的世界,这条技术赛道正在着火,彻底改变我们体验艺术的方式。2022年<>月,一位没有绘画技巧的参赛者提交了AIGC制作的......
  • ChatGPT 助力开发人员改进代码的5个方式
    近年来,在软件开发中使用人工智能和机器学习变得越来越普遍。因此,开发人员开始转向像OpenAI的ChatGPT这样的工具来简化他们的工作,提高他们的工作效率。ChatGPT是一个由OpenAI训练的大型语言模型,本文将向您展示如何使用ChatGPT帮助开发人员完成从编码到文档和测试等各种任务。......
  • iptables: No chain/target/match by that name
    部署完docker后执行脚本报错在启动run.sh脚本后出现iptables:Nochain/target/matchbythatname.报错解决办法:重启dockerPS:重启docker后,通过以下命令可以查看最新防火墙配置:iptables-L应该看到iptables配置中ChainDocker设置已更新(与1中历史结果进行对比)原因解释重新......
  • MySQL中char与varchar的区别:存储机制、性能差异、适用场景
    引用链接:https://www.maoyingdong.com/mysql-char-vs-varchar/ 在MySQL中,varchar和char都可以用来存储字符串。从语义上看,varchar是变长的(Variable-length),char是定长的(Fixed-length)。本文基于MySQL5.7版本,从varchar和char的语义,到存储引擎底层存储机制,探讨它们在存......
  • VMware使用时无法连接网络的问题
    首先附上原链接地址:VMware虚拟机里连不上网的五种解决方案_虚拟机无法联网_菜鸟也秃头的博客-CSDN博客没有网络首先要考虑是哪里没有网络了:1.主电脑没网,2.VMware没网。3.Linux服务器没网网络检查完以后检查各服务是否正常启动/是否有权限上的冲突问题:1.电脑网络服务。2.VMware......
  • Java 诊断工具 Arthas 教程学习笔记
    Java诊断工具Arthas教程学习笔记 Java诊断利器Arthas,是阿里的一款开源工具。Github-alibaba/arthas 上可以看到它的介绍。了解它,主要是最近对分析Java错误堆栈比较感兴趣,机缘巧合看到了它。本文记录的内容,就是基于它官网的文档摘抄的,涉及的截图可能由于篇幅有限,不是......
  • RVTools:vSphere第三方免费工具
    可以直观的显示每台虚拟机的信息,如CPU、内存、网络、HBA卡等,总之,通过该工具,可以使你很快的得到一份完整的虚拟化平台的数据,在后期编写文档或者作为其它项目实施时的参考信息。一、下载:RVTools最新版本4.4.3(更新时间:June23,2023)RVTools4.4.3 下载地址也放一个百度网盘链......
  • 数据格式的处理 echarts数据改为 Table表格格式的数据
      前景后端返回的echarts展示数据格式,既要展示echarts又要展示table表格,echarts的数据格式为下面{xData:['Mon','Tue','Wed','Thu','Fri','Sat','Sun'],yData1:[10,52,200,334,390,330,220],yData2:......
  • ChatGPT 问答00011 Spring框架事件驱动使用案例
    以下是一个使用Spring框架的事件驱动机制的简单案例:定义事件类:publicclassOrderEventextendsApplicationEvent{privateOrderorder;publicOrderEvent(Objectsource,Orderorder){super(source);this.order=order;}public......
  • 【OpenHarmony内核编程接口】介绍定时器管理两种定时器以及案例演示
    前言本文介绍了内核编程接口之软定时器软定时器软定时器含义软件定时器(Timer),是基于系统时钟tick且由软件来模拟的定时器,当经过设定的tick计数值后会触发用户定义的回调函数ps1:定时器触发函数的执行,不是线程ps2:当定时器到期时,将执行回调函数以运行特定的代码ps3:定时精度......