首页 > 系统相关 >服务器sel日志结合mcelog分析故障主要针对CPU以及内存

服务器sel日志结合mcelog分析故障主要针对CPU以及内存

时间:2023-03-22 13:31:55浏览次数:47  
标签:进制 16 故障 内存 信号 sel CPU mcelog

两个CPU平台介绍:Grantley 以及 Purley

建议装最新的mce log工具到系统下, mcelog -help查看支持的平台


两个关键要素:

1.CPU位置和BANK位置

可以使用命令:cat /proc/cpuinfo |  grep -E "processor|^physical"

可以看到CPU  ID属于哪个物理CPU


2.BANK位置的确定:

Grantley :bank7-bank16代表内存,其中7-8也不排除CPU

                   bank9-bank16 可以确定到chinel  

                   bank9-12 cpu0 channelA-D

                   bank13-16 CPU1 channel A-D


Purley : 路径 CPU-CHA-IMC-channel  在msr地址表中找相关的对应module

bank7-11 : 为channel的上一级控制器,可能跟CPU有关不排除内存

bank13-18: DIMM channelA-F


sel list日志定位内存:16进制

0x04 0x0c(信号类型) 0xe2(信号编号) 0x6f 0xa0 0x50(故障位置) 0x80 三点确认内存故障

sel list PCIE故障诊断:


0x04 0x13(信号类型) 0x7c(信号编号) 0x6f 0x82 0x00(故障位置) 0x80 三点确认pcie故障  前两点看出他属于什么设备,这是固定的


16进制怎么算:最后6-7位 0x82(直接取0x后面的数值82) 0x00(换成8位的2进制 前5后3)

00000  000  即得 82:00:0 在日志pciinfo.log中找,或者命令lspci -vvv | grep-A 30 82:00:0


例:0x80 0x18 : 0x18八位2进制:00011(在换成16进制3) 000 (再换成16进制0) 得到80:03:0



CPU故障:

0x04 0x07(信号类型) 0x7c/7d(信号编号) 0x6f 0xa0 0xA2/A3(故障说明) 0x00(CPU槽位号 CPU0) # processor 四点确认CPU故障

标签:进制,16,故障,内存,信号,sel,CPU,mcelog
From: https://blog.51cto.com/u_15967201/6142429

相关文章