事件背景描述:
环境:Linux/Oracle12.2.0.1.0/RAC
问题:数据库监听无法连接,集群异常
问题处理过程:
1.登录数据库查看相关状态,如下,发现crsd进程状态为cleaning
2.发现crsd进程异常后,判断可能是网络层面问题,通过查杀gipc进程集群并未恢复正常
3.联系主机工程师上线排查网络问题,网络工程师排查后发现网络无问题
4.主机工程师网络排查无问题后,和数据库日志报错预期不一致,紧急处理问题,对数据库主机进行重启系统操作,重启系统后,数据库正常online
5.第二天进行复查,查看相关alert.log日志,查询到如下信息
日志中的相关信息指向日志:/grid/app/diag/crs/cimdb2/crs/trace/ohasd_orarootagent_root.trc
#查看ohasd_orarootagent_root.trc日志发现如下信息,并且数据库和监听状态是正常的,仅仅是监听在Oracle用户下不正常
6.查看crsd相关日志信息
通过以上信息在mos上查询,精确匹配bug:27060167 mos_id: 2352557.1
该bug修改在19.1版本,且为内部补丁,无法修复
总结及建议:
1. 如下次出现此类情况,建议通过命令进程重启crsd进程:crsctl start res ora.crsd -init。
2. 通过:crsctl start res ora.crsd -init无法恢复,对主机进行重启操作,快速恢复数据库。