故障描述
HP存储,存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。
RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。
raid数据恢复故障分析
没有检测到磁盘有物理故障与坏道,可能由于某些磁盘读写不稳定导致故障发生。一旦某些磁盘性能不稳定,控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用。
HP 存储LUN都是基于RAID组,先分析底层RAID组的信息,后根据分析的信息重构原始的RAID组。分析每一块数据盘。分析Oracle数据库页在每个磁盘中分布的情况。
分析RAID组中的LUN信息
由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组最新的状态虚拟出来。
1、解析LVM逻辑卷
分析生成出来的所有LUN,发现所有LUN中均包含HP-Unix的LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,发现其中一共有三套LVM,其中45G的LVM中划分了一个LV,里面存放OA服务器端的数据,190G的LVM中划分了一个LV,里面存放临时备份数据。
2、修复LVM逻辑卷
仔细分析程序报错的原因,检测LVM信息是否会因存储瘫痪导致LMV逻辑卷的信息损坏,重新解析LVM逻辑卷。
检测Oracle数据库文件并启动数据库
1、恢复所有文件
在HP机器上mount文件系统后,将数据均备份至指定磁盘空间。2、检测数据库文件是否完整
3、启动Oracle数据库
数据验证
启动Oracle数据库,启动OA服务端,通过OA对最新的数据记录以及历史数据记录进行验证,最终数据验证无误,数据完整恢复。