近日,接苏州某国家级航空测绘单位的16块盘HighPro EasyNAS服务器阵列崩溃,客户需要对RAID5磁盘阵列进行数据恢复。客户描述为其中可能有两个接口一直不稳定,以前一直离线然后再发现阵列会自己重建,但是以前数据是没有丢失的。后来晚上有两块盘同时掉线导致阵列重建重建之后所有数据丢失。因为客户丢失的都是为航测图片,属国家机密数据,需要进行上门进行服务。在上门之前跟客户沟通得到以下信息:16个1T硬盘,属于SATA接口类型,当时厂家那边组的阵列应该为RAID5,操作系统为linux系统。因为客户的硬盘都为1T的,硬盘容量比较大不可能镜像成文件进行分析只能直接对原盘进行分析,所以接硬盘是个问题。因为SAS阵列卡是向下支持SATA接口协议的,一个SATA接口两个通道可以接8块硬盘,客户自己的机子主板上面是8个SATA接口,所以正好是16个接口,可以很好解决接硬盘的问题。
上门后按照硬盘插槽物理位置标记好序号,将硬盘一个个从插槽拔下,打开主机箱发现主板上有两个RAID卡对阵列进行控制。将其中八块硬盘在SAS卡上接好,余下八块硬盘直接接硬盘主机上,从U盘进行启动。用磁盘编辑器将所有磁盘打开分析,根据前面扇区的ASCII码特征发现硬盘应该是LVM的分区管理方式,初步断定硬盘为Linux下面的最新XFS文件系统存储结构。因为LVM采用的是类似微软的LDM分区管理方式,结合此阵列有两个阵列卡进行控制,所以对硬盘RAID结构做出初步判定:1、原先就是所有的盘组成一个大阵列构成一个物理卷从而组成逻辑卷结构2、两个阵列卡先分别构成两个物理卷,最后两个物理卷再组成一个大的逻辑卷。分析原来的NAS日志发现原来创建阵列的时候只有15个盘参与的阵列,那很有可能是RAID5+1块热备盘,算出容量大小为13.1TB。如果是两个物理卷的话算出来的容量即是12.1TB,根据客户描述以前挂载卷的时候容量应该超过12.6TB的空间,所以15个盘组成的大阵列可能性很大。
继续分析日志文件发现,NAS自己rebuild的时候是晚上6.00到第二天凌晨4.00结束的,15块盘参与重建完之后数据丢失。根据RAID5校验的异或特性,后来重建之后应该有一块盘跟原来阵列里面的一块盘很相似,对底层数据分析发现有两块盘的数据相似性达到95%以上,所以现在有很大可能原来就是15块盘组成的以个大阵列。经数据恢复中心工程师测试之后确定15块盘组成的RAID5大阵列是成立的,接下来就是分析盘序了,根据块大小分很容易就分析出盘序。根据当初组阵列时候里面保存的日志分析得出阵列走向,得到盘序、块大小、盘序为左循环后就是重组RAID了。
小记:因为客户属于国家级涉密单位,数据保密级别高,安全性较大,而且使用的数据格式都是较大块文件,硬盘比较多所以分析起来麻烦,而且是两个阵列卡的,让LVM的这个信息扰乱了一些思路,多走了一些弯路,但是分析就是一个假设—论证—不成立—再假设—再论证—直到假设论证成立的过程,这个过程虽然比较曲折,但是在探索的那个过程也是很有趣的。经过2天的分析客户数据全部恢复成功,客户对苏州科技大学及苏州绿数数据恢复中心表示真心的感谢。
“绿数-云恢复”中心工程师友情提示:当您的服务器出现故障后,请您一定不要自己乱尝试,千万不做作Rebuild之类的操作以免您的数据造成无法挽回的损失。因为此案例中客户是有热备盘的所以重建之后数据没有太大影响。欢迎您来电咨询,您可以在我公司工程师的指导下做一些对数据不受影响的尝试性恢复,咨询电话:0512-68785997。
以下是分析日志图片、超级块截图及现场所拍照片: