首页 > 其他分享 >清除ILOM中的故障码,消除黄灯告警

清除ILOM中的故障码,消除黄灯告警

时间:2023-06-21 11:24:01浏览次数:66  
标签:黄灯 P0 MB SYS 故障 ILOM D7 告警

 X86架构的机器,当出现硬件故障时,一般会在ILOM中会记录下该故障的详细信息,简称为:故障码。当进行硬件更换后,ILOM会自动清除掉该故障码,机器的黄灯告警也会自动消失。但有的时候,总会出现一些莫名其妙的情况,硬件更换后,ILOM中的故障码却无法自动清除,例如下面这个案例。

 

1、某Exadata客户的计算节点亮黄灯告警,登录ILOM,发现Open Problems中存在两条告警。具体日志如下:

/SP/faultmgmt/0    | fru                   | /SYS/MB/P0/D7

/SP/faultmgmt/0/   | class                 | fault.memory.intel.dimm_ue

 faults/0          |                       |

/SP/faultmgmt/0/   | sunw-msg-id           | SPX86A-8002-Y8

 faults/0          |                       |

/SP/faultmgmt/0/   | component             | /SYS/MB/P0/D7

faults/0

 

.....

 

/SP/faultmgmt/0/   | class                 | fault.memory.intel.dimm_ce

 faults/1          |                       |

/SP/faultmgmt/0/   | sunw-msg-id           | SPX86A-8002-XM

 faults/1          |                       |

/SP/faultmgmt/0/   | component             | /SYS/MB/P0/D7/R0

 faults/1          |                       |

可以看出,这两个告警都来看于/SYS/MB/P0/D7,也即p0这颗CPU的D7通道上的内存出现故障。

 

2、停机更换完内存,重启主机后,发现ILOM的Open Problems中仍然存在一条告警,即/SYS/MB/P0/D7/R0那条告警还存在,而/SYS/MB/P0/D7这条告警已经消失。

 

3、检查操作系统是否已经识别新更换的内存。

操作系统层面执行free -g等命令,发现该主机的内存与其他主机一样,说明主机已经识别了刚刚更换的内存,只是ILOM无法自动清除故障码而已。

 

4、尝试手动清除ILOM中的故障码。

-> set /SYS/MB/P0/D7 clear_fault_action=true
Are you sure you want to clear /SYS/MB/P0/D7 (y/n)? y
Set 'clear_fault_action' to 'true'

-> set /SYS/MB/P0/D7/R0 clear_fault_action=true
set: Invalid target /SYS/MB/P0/D7/R0

可以看出,/SYS/MB/P0/D7/R0这条故障码无法清除,提示无法的目标。。

 

5、故障码无法清除,这是很奇怪的问题,但这很符合X86架构的个性。目前,只能打算对该计算节点再次关机,然后断电静置几分钟,再重新启动机器,看看故障码是否能自动清除。

 

6、客户不想再次关机,开机,所以建议要不先重置ILOM试试。于是重置ILOM。

-> reset /SP

 

ILOM重置后,清除码自动清除。至此,这个怪异的问题得以解决。

 

标签:黄灯,P0,MB,SYS,故障,ILOM,D7,告警
From: https://www.cnblogs.com/missyou-shiyh/p/17495778.html

相关文章

  • 大数据平台告警信息监控
    大数据平台监控界面和报表通过界面查看大数据平台状态未配主机映射网址换成ip访问地址:http://master:8088/cluster/nodes通过界面查看Hadoop状态地址:http://master:50070Hadoop的运行状态:菜单功能:1)Overview(总览),查看Hadoop启动时间、版本号、命名节点日志状态、命名......
  • 告警:线上慎用 BigDecimal !
    来源:cnblogs.com/zhangyinhua/p/11545305.html一、BigDecimal概述Java在java.math包中提供的API类BigDecimal,用来对超过16位有效位的数进行精确的运算。双精度浮点型变量double可以处理16位有效数,但在实际应用中,可能需要对更大或者更小的数进行运算和处理。一般情况下,对于那些......
  • zabbix告警“Zabbix poller processes more than 75% busy”
    1、https://cloud.tencent.com/developer/article/1155220https://www.kaijia.me/2014/01/zabbix-poller-processes-more-than-75-busy-alert-issue-solved/虽然Zabbix的监控警报各种有,但Kaijia使用碰到最多的几个莫过于内存耗尽,网络不通,IO太慢还有这个“Zabbixpollerprocess......
  • WGCLOUD 告警级别设置
    WGCLOUD运维监测平台从3.4.7版本开始引入了告警级别,所有监测资源都可以设置告警级别告警级别从高到底,分别为:ERROR,WARN,INFOERROR代表重要告警,WARN代表一般告警,INFO代表提示信息那么在哪儿配置告警级别呢?告警级别在server/config/application.yml中配置,如果修改配置,需要重启server生......
  • 面向多告警源,如何构建统一告警管理体系?
    本文介绍告警统一管理的最佳实践,以帮助企业更好地处理异构监控系统所带来的挑战和问题。背景信息在云原生时代,企业IT基础设施的规模越来越大,越来越多的系统和服务被部署在云环境中。为了监控这些复杂的IT环境,企业通常会选择使用异构监控系统,例如Prometheus、Grafana、Zabbix等,以......
  • zabbix--告警消息内容更改
    zabbix告警消息内容更改#自带的消息内容模板发送出来的消息着实有点丑陋,再加之是英文,这就让我有点尴尬了。如下默认的消息内容:更改过后的效果:操作步骤编辑默认的ReportproblemstoZabbixadministrators发送消息内容进入:配置->动作ReportproblemstoZabbixadmin......
  • zabbix--钉钉告警
    zabbix钉钉告警机制#群机器人是钉钉群的高级扩展功能,群机器人可以将第三方服务的信息聚合到群聊中,实现自动化的信息同步。例如:通过聚合GitHub,GitLab等源码管理服务,实现源码更新同步;通过聚合Trello,JIRA等项目协调服务,实现项目信息同步。不仅如此,群机器人支持Webhook协议的自定义......
  • zabbix--微信告警
    zabbix微信告警机制#zabbix告警机制有很多,比如邮件、微信、电话、短信等等。很多,但是像电话和短信都是有钱人玩的,我们这些穷屌丝玩玩微信邮件就可以了。参考:https://github.com/X-Mars/Zabbix-Alert-WeChat微信告警首先得注册一个企业微信,然后才能实现微信告警。注册地址:h......
  • zabbix--邮件告警报错“Support for SMTP authentication was not compiled in”
    邮件报警失败:SupportforSMTPauthenticationwasnotcompiledin 解决办法:升级curl版本具体操作步骤:1)安装curl #rpm-Uvhhttp://www.city-fan.org/ftp/contrib/yum-repo/rhel6/x86_64/city-fan.org-release-2-1.rhel6.noarch.rpm#yum--showduplicateslistc......
  • 配置告警
    https://github.com/dotbalo/k8s/blob/master/prometheus-operator/alertmanager.yaml vialertmanager-secret.yaml"global":"resolve_timeout":"5m"#下面新加的smtp_from:"[email protected]"smtp_smartho......