背景
节点1数据库正常,集群crsd资源异常。
节点2数据库及集群都挂掉,无法启动。
之前两个节点发生过磁盘空间满的问题,现在启动crsd资源失败。
分析
节点1,尝试启动crsd进程报错CRS-1019,之前曾经报错ORA-09817: Write to audit file failed。
目录满报错ORA-09817: Write to audit file failed
清理完目录后,crsd报错CRS-1019
节点2,在集群文件系统目录满后,集群重启和操作系统重启后,无法启动crsd资源,connect to master not complete。但是节点2的磁盘组可以手动拉起,数据库实例能够启动到nomount,启动到mount时等待crs call completion无法启动,无法调用crs资源。
基于以上信息,首先在crsd资源无法启动情况下,可以手动挂载磁盘组,说明磁盘组和数据没有问题。节点2的crsd提示信息connect to master not complete与节点1的crsd异常有关。判断需要先解决节点1crsd问题,尝试重启gipc进程及手动启动ora.crsd进程都不行。
由于是从集群目录满之后,引发的一系列问题,尝试重启节点1集群,看是否能够恢复。
重启的风险预案:
1.rman做了一次全库备份+归档备份
2.重启如果还起不来,基于磁盘组和数据没有问题,可以重新运行节点1 root.sh重新配置集群信息。
最后是通过重启节点1集群恢复正常。重启过程中db和asm实例都无法正常停止,同样等待crs call completion,文件系统满后很多集群资源都受到影响。
标签:RAC,crsd,启动,重启,CRSD,满后,集群,报错,节点 From: https://blog.csdn.net/Story_begins/article/details/142881973