一、维修思路
在用户反馈的报修工单和BMC log中大致都能判断、定位出产生问题的故障部件,我们就可以直接对故障部件进行维修或更换。
但在维修未知原因的的故障时,要遵循从简到难、从外而内、从软及硬的方法逐步 判断、定位故障,要有一个清晰的思路。我们应该遵循一个NCC(Name、Connection、Controller)原则:
N(Name):所涉部件的名称是什么,它是干什么用的;
C(Connection):所涉部件的物理连接的方式、链路上的硬件以及连接部件之间的逻辑关系;
C (Controller):所涉部件的控制中心名称及位置;这样有利于快速定位故障所在,提高维修质量、缩短维修时间、降低维修成本。
二、故障判断方法
1、观察法
有些部件的故障会产生明显的非正常表象,通过直观的观察,快速定位、排除直观可见故障:
1)肉眼观察服务器内部配件上有无明显不良现象,如线路烧毁,元件发黑裂开,电容鼓包等现象;
2)能否闻到元件烧毁或击穿后的异味;
3)查看配件安装是否歪斜、插接部件的金手指部分是否有安装不到位的现象;
4)查看连接线缆有没有明显的松动或脱落的现象;
5)根据故障现象小心触碰相应元器件表面如CPU、Memory、FLASH、PCH、稳压块等,有否超过正常温度;
如发现部件有上述不良现象,就可快速定位故障零件,进行更换和维修。
2、插接法
由于运输或者环境的冷热变化可能会导致服务器配件的脱落或接触不良,通过重新插接的手段可以排除这类情况导致的故障,
1)重新插接有插接结构的相关零件,检查故障是否排除;
2)如故障部分元件由多个插接件共同组成,则尝试逐一重新插接,如板卡,连线、 面板、SSD、HDD等,再检查故障是否排除;
3)也可以把机器完全拆开,再重新组装一遍,可能比较有效的解决一些隐性的接触问题。
3、最小配置法
当某个故障无法定位到某个或某几个部件的时候,我们可以通过能开机的最小化配置再逐步添加部件来判断故障范围:
1)只保留主板、一颗CPU(CPUO Socket)、一条内存(CPUOAO)、一个PSU,断开其他所有不影响开机部件的连接,用短接开关针脚方式开机,检测故障是否为主要部件引起;
2)如果这个配置都不能开机,那就要逐一替换这几个主要部件来确定是谁的故障;
3)如果最小化能正常开机,再逐一加载其他配件,通过重新启动来判断是哪个部件故障。增加顺序建议是: CPU、内存、硬盘(含RAID、HBA卡)、网卡、GPU卡等。
4、替换法
替换法是指通过替换疑似故障的零件(产生故障的部件可能不止一个),检查故障 现象有否变化,来确认故障点。使用此方法的前提是大概知道故障件的范围,通过1-3个部件的逐步替换来找出或排除故障,如果没有一个大概范围的判断,则适用于上述的最小化配置法。
具体做法:通过逐一替换机器内的怀疑部件,观察故障现象是否消失,来定位故障件。
排查思路:逐一排除绝对没问题的部件,最终定位到故障部件。替换原则:先替换较容易出故障的部件,比如:内存、硬盘等。
5、交叉比较法
交叉比较法是指通过同类型零件(报故障零件和正常运行零件)交叉安装测试,通过检测结果的比较来判定或排除故障部件。其前提条件有两个:一是该设备必须有两个以上同样的部件;二是必须有报错信息指向此部件(如果对故障部件没有初步指向的话,适合用替换法判断)。 通过交叉比较,一般会产生如下结果:
1)故障状况消失,有可能是部件安装或插接不到位
2)故障状况随报错部件移动,判定此配件确实是其自身故障,更换掉:
3)故障状况没有转移,可以排除此配件并非自身故障,需要进行下一步替换或交叉测试;
三、总结
在维修过程中,只要学会上述几种查找故障的方法,是一定能找到故障部件的。但上述方法不一定是单独使用,我们要根据情况灵活组合。
另外,当我们接到报修工单时,必须要先经过自己的检测、排查(看故障现象是否属实、查看BMC的raw data是否指 向吻合等)来最终确定实际的故障部件,因为用户监控系统会有误报或者故障描述指 向不精准的问题,报出的故障描述未必真正就是具体故障件。