故障码rac节点掉线

故障码rac节点掉线,第1张

RAC 单点故障配置检查

罗海雄

2019-05-22

712

近期发现几个客户的RAC配置里存在单点故障的问题,希望大家重视一下,对于服务的客户,找时间做一个排查。

1. 网卡单点故障

有一个客户的心跳网卡和对外网卡都是只有一个,并且其中一个对外网卡和两个心跳网卡连接在同一个交换机上。在这种情况下,如果这个交换机发生故障,心跳断掉,RAC会选择其中一个RAC节点作为存活节点,而关掉另一个节点;如果这个存活节点的对外网卡正好也接在这个故障交换机上,就会导致整个系统无法对外提供服务,这个交换机就成了单点故障。

2. OCR/Voting Disk 单点故障

有一个客户的OCR/voting 磁盘在配置的时候出现失误,多个盘其实都是多路径的伪盘,最终其实只有一个磁盘。而这个磁盘出问题时,就成了单点故障(5/1期间实际发生了故障)。

oracle

一、磁盘阵列的维护基本知识1、阵列的四种主要状态:。Online(在线):Cluster中有控制权的节点的阵列状态。。Offline(脱机):Cluster中无控制权的节点的阵列状态,或有控制权,但处于脱机状态。。Critical(临界状态):在Cluster中,处于此状态的阵列不允许进行切换,必须在原来有控制权的机器上对阵列进行恢复,即进行Rebuild或其它恢复 *** 作。。Blocked(阻塞状态):只出现在RAID0级别中。在Cluster中,处于此状态的阵列不允许进行切换或读写 *** 作,必须在原来有控制权的机器上对阵列进行恢复。2、磁盘的两种主要状态:。Online(在线):硬盘灯为绿色或指示灯不亮(与阵列柜型号有关)。此时阵列的状态为Online。。Defunct(非在线、失效):硬盘灯为红色。此时阵列的状态为Offline、Critical或Blocked。3、每次切换后,磁盘阵列都会进行一次数据的同步,此时硬盘灯出现有规则的闪烁,持续时间大概为2小时左右(与阵列容量有关)。同时仍然可以进行其它 *** 作,但是一定不能断电或进行热插拔 *** 作,否则阵列信息将丢失。4、硬盘的Firmware版本查看:在ServeRaidManager的物理磁盘组中,点击要查看硬盘,屏幕上将显示该硬盘的的Firmware版本号。说明:版本要求为1.09(或S96E)以上。5、阵列卡的Firmware及Bios版本查看:在ServeRaidManager中,点击要查看的控制卡,屏幕上将显示该阵列卡的Firmware及Bios版本号。说明:Firmware版本应为3.70以上、Bios版本应为4.0以上。现象观察1、查看阵列柜的前面板的状态灯提示一般阵列柜中硬盘有两个指示灯,一个为状态灯(红),一个为硬盘读写指示灯(绿)。。若干磁盘的绿灯不规则闪烁表示为对该盘当前有读写 *** 作(此时绿灯较亮),阵列为Online状态;。全部磁盘的绿灯规则闪烁表示阵列作同步 *** 作(此时绿灯较暗),阵列为Online状态;。磁盘的绿灯全灭表示当前无 *** 作,阵列处于Online状态;。单个硬盘亮红灯表示此盘状态为DDD(不可用)或OffLine;。某个硬盘绿灯及桔黄灯交替规则闪烁表示该盘正在Rebuild;。两个以上硬盘亮红灯时表示阵列柜已坏,Cluster必然当机。2、通过ServeRaidManager管理工具查看在有控制权的节点启动ServeRaidManager。。控制器、逻辑盘处于OK状态;。构成阵列的物理硬盘处于Online状态(如果存在HotSpare盘,可看到本机的HotSpare盘状态为HotSpare,另一节点的HotSpare盘状态为Ready);。如果存在HotSpare硬盘,则在HotSpare菜单中可以找到该硬盘;。如果某物理硬盘状态为DDD,说明该盘已不可用,需要修复或替换;。如果某块物理硬盘状态为Offline,表示该盘为脱机状态(未损坏);。在RAID1、RAID1E、RAID5及RAID5E中如果某一硬盘状态为DDD或Offline,则阵列或逻辑盘状态为Critical,即临界状态;。在RAID0中,如果某一硬盘状态为DDD或Offline,则阵列或逻辑盘状态为Blocked,即阻塞状态,此时对硬盘不能进行任何 *** 作,等待恢复完后,手工将Blocked状态设为UnBlocked状态;


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/bake/11727611.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-18
下一篇2023-05-18

发表评论

登录后才能评论

评论列表(0条)

    保存