
然后挂到另外的机器上完盘克隆一份出来,
再复制出数据,
换个硬盘按照原来的布局,
数据复制回去然后挂新硬盘上去继续工作就是了
突然掉线红灯狂闪这种情况可大可小的,
有可能是硬盘故障,
也有可能是病毒类引起的故障RAID5阵列中两块磁盘告警后的处理步骤
一、问题描述
RAID5中两块或两块以上硬盘告警的几率是非常低,但并不代表这种情况不会发生。最常见的情况是一块硬盘先告警,在没有发现或未及时更换之前,又一块硬盘出现告警,导致RAID5阵列离线,数据无法读取;在这种情况下,怎么正确处理才能尽可能恢复数据?
二、过程分析
首先,两种错误可能导致硬盘告警:逻辑错误、物理错误;如果是物理错误的话,数据恢复的可能性不大;如果是逻辑错误的话,更有可能恢复数据。
其次,一定要根据日志或其他信息确定哪块盘先出问题、哪块盘后出问题,因为先后出问题的两块盘上的数据是不相同的,后出问题的硬盘上的数据才是最新鲜的,和RAID5中其他硬盘的数据组合后才是完整,并且能正常使用的。
最后,两块盘告警的情况下,正确的处理方法是先尝试强行online后坏的硬盘并恢复数据;如果尝试强行online后坏的硬盘失败,那么试着强行online先坏的硬盘并恢复数据;如果两块盘都无法强行online的话,数据将全部丢失。
三、解决办法
本文以AIX环境下的处理过程为例说明此类问题的处理方法,其他环境下的处理方法类似:
环境:IBM P630 + AIX + scsi raid卡 + 4块18G disk作raid5(no hotspare)
问题:一块硬盘先告警,未及时更换之前,又一块硬盘出现告警,导致RAID5阵列离线,卷组离线,数据无法读取。
#lspv
hdisk0 000b85cdf79f0ec5 rootvg
lspv输出只有hdisk0,而做完RAID5后的hdisk1消失。
#lsdev -Cc disk
hdisk0 Available 10-60-00-0,0 16 Bit LVD SCSI Disk Drive
hdisk1 Defined 20-60-00-0,0 SCSI Disk Array RAID 5
#varyonvg datavg[ *** 作失败,datavg不能varyon]
#diag [运行出现下面的错误]
The Service Request Number(s)/Probable Cause(s)
66D-111: The disk has been failed by the adapter
FRU: n/a CH/ID 2 B
Physical Disk
66D-111: The disk has been failed by the adapter
FRU: n/a CH/ID 2 C
Physical Disk
硬盘2B、2C处于failed状态,根据系统日志确定Channel 2 ID C先出现问题,Channel 2 ID B后出现问题。
*** 作步骤:
1、#smitty pdam
List PCI SCSI Disk Arrays
Create a PCI SCSI Disk Array
Delete a PCI SCSI Disk Array
Configure a Defined PCI SCSI Disk Array
Change/Show a PCI SCSI Disk Array
Reconstruct a PCI SCSI Disk Array
Revive a FAILED Drive in a PCI SCSI Disk Array
Fail a Drive in a PCI SCSI Disk Array
Change/Show PCI SCSI RAID Drive Status
Perform Consistency Check
Display Status of Adapter Write Cache
Recovery Options
选择:List PCI SCSI Disk Arrays
mscraid0 Available 20-60 PCI 4-Channel Ultra3 SCSI RAID Adapter
hdisk1 Defined Raid 5 20-60-00-0,0 52072 MB Status DEAD
hdisk1 2A Channel 2 ID A ONLINE
hdisk1 2B Channel 2 ID B FAILED DRIVE
hdisk1 2C Channel 2 ID C FAILED DRIVE
hdisk1 2D Channel 2 ID D ONLINE
2、#smitty pdam
选择:Revive a FAILED Drive in a PCI SCSI Disk Array
2B Channel 2 ID B FAILED DRIVE
2C Channel 2 ID C FAILED DRIVE
选择:2B Channel 2 ID B FAILED DRIVE
PCI SCSI Disk Array hdisk1
Channel ID 2B
会车后出现下面的提示:Continuing may delete information you may want to keep This is your last chance to stop before continuing Press Enter to continue Press Cancel to return to the application
敲会车键继续[确认命令成功完成,硬盘强行online成功]
3、通过List PCI SCSI Disk Arrays查看RAID的状态出现:
scraid0 Available 20-60 PCI 4-Channel Ultra3 SCSI RAID Adapter
hdisk1 Defined Raid 5 20-60-00-0,0 52072 MB Status DEGRADED
hdisk1 2A Channel 2 ID A ONLINE
hdisk1 2B Channel 2 ID B ONLINE
hdisk1 2C Channel 2 ID C FAILED DRIVE
hdisk1 2D Channel 2 ID D ONLINE
注意:2B已是online
4、执行diag命令进行诊断,结果显示入下
The Service Request Number(s)/Probable Cause(s)
causes are listed in descending order of probability):
66D-111: The disk has been failed by the adapter
FRU: n/a CH/ID 2C
Physical Disk
5、#varyonvg datavg
#mount /data
datavg varyon 成功,文件系统mount成功;
6、更换2C Channel上的硬盘,RAID5进行数据重建,数据重建完毕后,建议更换2B Channel上的硬盘,RAID5再次进行数据重建;
7、#smitty pdam
选择:List PCI SCSI Disk Arrays结果如下:
hdisk1 Available Raid 5 20-60-00-0,0 52072 MB Status OPTIMAL
hdisk1 2A Channel 2 ID A ONLINE - 17357Meg
hdisk1 2B Channel 2 ID B ONLINE - 17357Meg
hdisk1 2C Channel 2 ID C ONLINE - 17357Meg
hdisk1 2D Channel 2 ID D ONLINE - 17357Meg
8、数据恢复完毕。有一定危险性
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)