第一章概述
第二章故障处理过程
第三章问题总结及建议
第一章 概述
设备型号:IBM DS8700 2421-941
2023年6月7日接客户报修,IBM DS8700发生硬盘故障。随后在一个小时内接连坏了共计三块硬盘,由于不是在同一个arraysite,按照正常逻辑的话不在同一个阵列损坏的多个硬盘不会影响整体,正常更换即可,工程师到达现场后执行换盘操作,更换完硬盘后,在dscli命令行管理界面看到一组array处于Inaccessible不可用状态,正常应该是Normal状态的,于是输入lsddm命令查看到刚刚换完的硬盘其中有两块处于Certifying状态,一块处于spare状态,正常应该是新盘换上去certifying完变成spare;
我方工程师通过底层命令的修复,可以看到新盘开始同步了,同步完成后array恢复正常。
第二章故障处理与分析
1. 故障硬盘位置
2. 更换过程
故障硬盘不在同一个arraysite里,直接在HMC内按照流程更换硬盘,硬盘更换完成后在dscli里看到
3.故障发生及原因
更换完成后发现硬盘有两块处于Certifying状态,一块处于spare状态,并且一组array处于Inaccessible不可用状态,由于这两个盘在一个array里,第一个盘先碰到SCSI hung command被踢了,array做rebuilding, 然后又一个成员盘读写不稳定从loop里被踢了。
第三章 问题总结及建议
此故障很难提前预判发现,加强巡检,硬盘故障后尽快处理即可。
标签:状态,故障,DS8700,array,更换,硬盘 From: https://blog.51cto.com/u_15094972/8062342