服务器数据恢复环境:
ProLiant某型号服务器;
6块SAS硬盘组成RAID5;
WINDOWS SERVER操作系统;
存储企业部门内部文件。
服务器故障&分析:
出现几次意外断电后,故障服务器再次重启后RAID报错,提示无法找到存储设备,进入RAID管理模块界面后死机,管理员重启故障服务器后问题依旧。用户联系到我们数据恢复中心寻求帮助。
本案例的服务器故障属于服务器意外断电导致RAID模块损坏(RAID模块损坏故障包括RAID管理信息丢失和RAID模块硬件损坏),这类服务器故障情况我们数据恢复中心碰到过很多。正常情况下,RAID创建完成后管理模块的信息就不会轻易改变。但管理模块的信息毕竟是可修改的,意外断电这种突发情况就很容易导致管理模块的信息被篡改甚至丢失,多次断电甚至会对RAID模块硬件造成物理伤害,让服务器失去对硬盘进行RAID管理的中间层模块。本案例中对RAID模块的操作导致死机的故障就很可能是RAID模块硬件损坏造成的,这种情况下无法通过常规方法读取到故障服务器中6块硬盘的数据,只能通过专门的数据恢复技术来恢复其中的数据。
服务器数据恢复过程:
1、硬件工程师对故障服务器中的6块SAS硬盘进行物理故障检测,所有硬盘均可正常读取,没有发现物理故障。
2、对故障服务器中的6块硬盘做镜像备份,后续的数据恢复操作都在镜像文件上进行,避免对原始数据造成二次损坏。
3、基于镜像备份文件分析故障RAID5的结构,北亚服务器数据恢复工程师结合故障服务器文件系统存储规则获取到故障RAID5的盘序、数据块大小及校验方式,通过这些raid相关信息虚拟重组原始RAID5。
4、逻辑校验新构建RAID5中的数据,确认新构建RAID5所有参数准确无误后,北亚数据恢复工程师对最重要的数据进行完全验证。
5、让用户对恢复出来的数据进行验证,确认数据完整可用。
6、将所有数据迁移至用户准备好的存储。
服务器数据安全Tips:
1、保证机房供电稳定,以减少断电,电压不稳等电源问题对服务器和存储的伤害。
2、为关键服务器及存储配备UPS,这样在机房意外断电的情况下至少能保证核心业务能继续正常工作,为找到应急解决方案赢得宝贵的时间。
3、对服务器和存储设备定期进行检查,对运行状态进行评估以决定是否需要升级硬件或者系统。提前制定好突发数据灾难的应急处理方案,以降低数据灾难带来的损失。
标签:数据恢复,RAID,断电,故障,模块,服务器 From: https://blog.51cto.com/sun510/5743089