首页 > 其他分享 >IDC服务器未知原因故障解决方法

IDC服务器未知原因故障解决方法

时间:2024-10-09 12:49:15浏览次数:3  
标签:定位 故障 部件 替换 维修 插接 服务器 IDC

一、维修思路

      在用户反馈的报修工单和BMC log中大致都能判断、定位出产生问题的故障部件,我们就可以直接对故障部件进行维修或更换。

      但在维修未知原因的的故障时,要遵循从简到难、从外而内、从软及硬的方法逐步 判断、定位故障,要有一个清晰的思路。我们应该遵循一个NCC(Name、Connection、Controller)原则:

     N(Name):所涉部件的名称是什么,它是干什么用的;

     C(Connection):所涉部件的物理连接的方式、链路上的硬件以及连接部件之间的逻辑关系;

     C (Controller):所涉部件的控制中心名称及位置;这样有利于快速定位故障所在,提高维修质量、缩短维修时间、降低维修成本。

二、故障判断方法

    1、观察法

     有些部件的故障会产生明显的非正常表象,通过直观的观察,快速定位、排除直观可见故障:

       1)肉眼观察服务器内部配件上有无明显不良现象,如线路烧毁,元件发黑裂开,电容鼓包等现象;

       2)能否闻到元件烧毁或击穿后的异味;

       3)查看配件安装是否歪斜、插接部件的金手指部分是否有安装不到位的现象;

      4)查看连接线缆有没有明显的松动或脱落的现象;

      5)根据故障现象小心触碰相应元器件表面如CPU、Memory、FLASH、PCH、稳压块等,有否超过正常温度;

     如发现部件有上述不良现象,就可快速定位故障零件,进行更换和维修。

2、插接法

     由于运输或者环境的冷热变化可能会导致服务器配件的脱落或接触不良,通过重新插接的手段可以排除这类情况导致的故障,

    1)重新插接有插接结构的相关零件,检查故障是否排除;

    2)如故障部分元件由多个插接件共同组成,则尝试逐一重新插接,如板卡,连线、 面板、SSD、HDD等,再检查故障是否排除;

   3)也可以把机器完全拆开,再重新组装一遍,可能比较有效的解决一些隐性的接触问题。

3、最小配置法

       当某个故障无法定位到某个或某几个部件的时候,我们可以通过能开机的最小化配置再逐步添加部件来判断故障范围:

    1)只保留主板、一颗CPU(CPUO Socket)、一条内存(CPUOAO)、一个PSU,断开其他所有不影响开机部件的连接,用短接开关针脚方式开机,检测故障是否为主要部件引起;

IDC服务器未知原因故障解决方法_最小化

   2)如果这个配置都不能开机,那就要逐一替换这几个主要部件来确定是谁的故障;

  3)如果最小化能正常开机,再逐一加载其他配件,通过重新启动来判断是哪个部件故障。增加顺序建议是: CPU、内存、硬盘(含RAID、HBA卡)、网卡、GPU卡等。

4、替换法

    替换法是指通过替换疑似故障的零件(产生故障的部件可能不止一个),检查故障 现象有否变化,来确认故障点。使用此方法的前提是大概知道故障件的范围,通过1-3个部件的逐步替换来找出或排除故障,如果没有一个大概范围的判断,则适用于上述的最小化配置法。

   具体做法:通过逐一替换机器内的怀疑部件,观察故障现象是否消失,来定位故障件。

   排查思路:逐一排除绝对没问题的部件,最终定位到故障部件。替换原则:先替换较容易出故障的部件,比如:内存、硬盘等。

5、交叉比较法

     交叉比较法是指通过同类型零件(报故障零件和正常运行零件)交叉安装测试,通过检测结果的比较来判定或排除故障部件。其前提条件有两个:一是该设备必须有两个以上同样的部件;二是必须有报错信息指向此部件(如果对故障部件没有初步指向的话,适合用替换法判断)。 通过交叉比较,一般会产生如下结果:

 1)故障状况消失,有可能是部件安装或插接不到位

 2)故障状况随报错部件移动,判定此配件确实是其自身故障,更换掉:

 3)故障状况没有转移,可以排除此配件并非自身故障,需要进行下一步替换或交叉测试;

三、总结

      在维修过程中,只要学会上述几种查找故障的方法,是一定能找到故障部件的。但上述方法不一定是单独使用,我们要根据情况灵活组合。

     另外,当我们接到报修工单时,必须要先经过自己的检测、排查(看故障现象是否属实、查看BMC的raw data是否指 向吻合等)来最终确定实际的故障部件,因为用户监控系统会有误报或者故障描述指 向不精准的问题,报出的故障描述未必真正就是具体故障件。


标签:定位,故障,部件,替换,维修,插接,服务器,IDC
From: https://blog.51cto.com/u_11293100/12198521

相关文章

  • 莫托曼机器人GP110B操作手柄故障维修全攻略
     莫托曼机器人GP110B操作手柄故障机器人维修全攻略       一、前言       莫托曼机器人GP110B操作手柄是机器人控制系统的重要组成部分,它允许操作人员对机器人进行精确的控制和操作。然而,在使用过程中,操作手柄可能会出现各种故障。本文将为您提供一......
  • springboot-网站开发-linux服务器部署jar格式图片存档路径问题
    springboot-网站开发-linux服务器部署jar格式图片存档路径问题!近期在部署自己的网站源码,使用的是jar格式的编码格式。发布到远程服务器后,发现客户捐款的证书图片存在异常。经过排查代码,找到了原因。下面分享给大家。1:首先,在linux服务器内部,存档图片,文件等资源的时候,本地java......
  • Zookeeper系列---【zk添加服务器开机自启动】
    注意:如果zk已经启动了,要先停掉,再执行下面的命令。1.新增zk.service文件sudovi/etc/systemd/system/zk.service#zk.service的内容,注意修改成自己的JAVA_HOME和zk安装目录[Unit]Description=ApacheZooKeeperServiceAfter=network.target[Service]Type=forkingExecS......
  • Pytorch-Transformer轴承故障一维信号分类(三)
    往期精彩内容:Python-凯斯西储大学(CWRU)轴承数据解读与分类处理Pytorch-LSTM轴承故障一维信号分类(一)-CSDN博客Pytorch-CNN轴承故障一维信号分类(二)-CSDN博客三十多个开源数据集|故障诊断再也不用担心数据集了!Python轴承故障诊断(一)短时傅里叶变换STFT-CSDN博客Pyth......
  • 常见的公共 DNS 服务器地址有:谷歌 DNS:8.8.8.8 和 8.8.4.4阿里云 DNS:223.5.5.5 和 223.
    常见的公共DNS服务器地址有:谷歌DNS:8.8.8.8和8.8.4.4阿里云DNS:223.5.5.5和223.6.6.6腾讯DNS:119.29.29.29和182.254.116.116阿里公共DNS:IPv4:223.5.5.5、223.6.6.6IPv6:2400:3200::1、2400:3200:baba::1腾讯公共DNS(DNSPod):IPv4:119.29.29.29IPv6:2402:4e00::百......
  • 宝塔平替:1Panel-新一代的 Linux 服务器运维管理面板(附优惠码/推荐码)
    什么是1Panel1Panel是一款开源,现代化的新一代的Linux服务器运维管理面板!1Panel可以帮你实现的功能:高效管理:用户可以通过Web图形界面轻松管理Linux服务器,实现主机监控、文件管理、数据库管理、容器管理等功能;快速建站:深度集成开源建站软件WordPress和Halo,域名绑定、S......
  • seo优化香港站群服务器租用指南
    在数字化时代的浪潮下,电商和网络业务的蓬勃发展对服务器资源提出了更高的要求。香港凭借其独特的地理位置、先进的网络基础设施和稳定的法律环境,成为众多企业选择站群服务器的理想地点。而在众多服务提供商中,我们凭借其卓越的技术实力和优质的服务,成为用户的首选。本文将深入解......
  • 库卡机器人KR3R540电源模块常见故障维修解决方法
    库卡机器人KR3R540电源模块的常见故障及维修解决方法包括:电源模块无法正常启动:应检查电源模块的电源连接是否正常,以及电源开关是否开启。如果电源连接正常,但驱动器仍然无法启动,可以尝试使用万用表检查驱动器的电源电压是否在正常范围内。如果电源电压过低或过高,都可能导致驱动器......
  • 云服务器安装宝塔教程
    在云服务器上安装宝塔面板可以通过以下步骤完成:1.准备工作选择操作系统:确保服务器安装了支持的操作系统,如CentOS、Ubuntu或Debian。更新系统:首先更新系统包库,确保所有软件都是最新版本。2.安装宝塔面板对于CentOS/RHEL/Debian/Ubuntu系统下载安装脚本: 运行安装......
  • 京准:北斗授时设备(北斗授时服务器)网络应用方案
    京准:北斗授时设备(北斗授时服务器)网络应用方案京准:北斗授时设备(北斗授时服务器)网络应用方案京准电子官微——ahjzsz概述:电脑时间走时不准是出了名的。它一般是以廉价的振荡电路或石英钟为基础,每天的误差可达数秒,经过一段时间的累积就会出现较大的误差。随着不断增加的分散式计算......