两个CPU平台介绍:Grantley 以及 Purley
建议装最新的mce log工具到系统下, mcelog -help查看支持的平台
两个关键要素:
1.CPU位置和BANK位置
可以使用命令:cat /proc/cpuinfo | grep -E "processor|^physical"
可以看到CPU ID属于哪个物理CPU
2.BANK位置的确定:
Grantley :bank7-bank16代表内存,其中7-8也不排除CPU
bank9-bank16 可以确定到chinel
bank9-12 cpu0 channelA-D
bank13-16 CPU1 channel A-D
Purley : 路径 CPU-CHA-IMC-channel 在msr地址表中找相关的对应module
bank7-11 : 为channel的上一级控制器,可能跟CPU有关不排除内存
bank13-18: DIMM channelA-F
sel list日志定位内存:16进制
0x04 0x0c(信号类型) 0xe2(信号编号) 0x6f 0xa0 0x50(故障位置) 0x80 三点确认内存故障
sel list PCIE故障诊断:
0x04 0x13(信号类型) 0x7c(信号编号) 0x6f 0x82 0x00(故障位置) 0x80 三点确认pcie故障 前两点看出他属于什么设备,这是固定的
16进制怎么算:最后6-7位 0x82(直接取0x后面的数值82) 0x00(换成8位的2进制 前5后3)
00000 000 即得 82:00:0 在日志pciinfo.log中找,或者命令lspci -vvv | grep-A 30 82:00:0
例:0x80 0x18 : 0x18八位2进制:00011(在换成16进制3) 000 (再换成16进制0) 得到80:03:0
CPU故障:
0x04 0x07(信号类型) 0x7c/7d(信号编号) 0x6f 0xa0 0xA2/A3(故障说明) 0x00(CPU槽位号 CPU0) # processor 四点确认CPU故障
标签:进制,16,故障,内存,信号,sel,CPU,mcelog From: https://blog.51cto.com/u_15967201/6142429