首页 > 其他分享 >JMS集群故障

JMS集群故障

时间:2022-10-20 11:00:09浏览次数:43  
标签:134 JMS 重启 宿主机 故障 集群 主机

集成平台JMS故障

故障描述

集成平台业务通信中断 业务不可用

故障处理过程

  1. 发现134机器无法登陆,监控脚本报错,weblogic控制台页面显示该主机状态为SHUTDOWN,

  2. 私有云团队对134机器排查时发现,虚拟化控制台显示该主机黑屏且无法操作,通过授权后对这台机器进行重启,准备恢复这台主机;

  3. 将JMS集群中其余三台主机135/136/137重启JMS服务,但重启失败,显示重启需要加载的文件被锁定,无法打开文件,经过排查发现被锁定的文件,之前均被134这台主机使用,被JMS应用加文件锁;

  4. 私有云团队反馈无法重启134这台主机,报错内容为“由于保护JCPT_core_8.32_BCLinux7.3_45.vmdk的锁定已丢失可能是基础存储出现问题”确定是宿主机有问题,准备重启宿主机。

  5. 私有云团队反馈重启宿主机有报错,该宿主机共有6台虚拟机,为了不影响其他5台虚拟机业务,正在迁移5台虚拟机到其他宿主机上,保留jms单台虚拟机,迁移完成后对该问题宿主机进行重启;

  6. 私有云团队反馈已经将134主机关闭;

  7. 第二次在135/136/137重启服务,日志依然报错,集群启动所依赖的文件还是处于被锁定的状态,判断私有云控制台虽显示关闭的该主机,实际并未真正关闭,访问文件的链路未释放,现在需要尽快停掉

  8. 等待134宿主机关机,先进行重启,如果重启成功则系统恢复正常,如果重启不成功则说明文件损坏,先备份损坏的文件,备份完成后删除损坏文件后再进行重启;

  9. 将宿主机上的其他5台正常虚拟机迁移完成,成功关闭宿主机;

  10. 关闭所有JMS进程,准备第四次重新启动虚拟机

  11. 135/136/137启动服务并持续观察日志是否有报错;

  12. 通过日志观察到仍然有三个文件被锁定,分别JMSSERVER_ISC_FileStore;JMSSERVER_YDXY_FileStore;JMSSERVER_YJY_FileStore;

  13. 134启动成功后,135主机日志报错恢复,但集群状态异常,集中运维团队将JMS集群所有关于JMS服务的进程KILL掉后,再次重启JMS集群;

  14. 重启整个集群4台1134-137主机上JMS服务

  15. JMS集群服务启动成功,日志无报错,故障恢复,业务验证通过;

故障原因

134所在的宿主机跟存储之间的通信出了问题导致虚拟机异常;进而导致操作系统层异常,引起JMS应用异常,致使部分缺省分配在134主机上的JMS持久化存储文件被锁,其余3台主机无法读取被该主机锁定的文件,引起JMS server集群内漂移失败,直至整个集群故障。

问题结局

  1. 联系Oracle高服,评估并解决因虚拟机故障锁定文件资源的问题,实现可以手动操作加载任意资源或其他JMS应用主机可以解锁共享文件
  2. 减小影响范围,在JMS集群内实现134与135之间自由漂移,136与137之间自由漂移,这样一台主机故障仅影响两台主机,防止一台主机故障拖垮整个集群;
  3. 通知与JMS集群对接的系统进行JMS消息处理优化,尽快消费掉JMS集群内的消息;当前JMS集群存储的消息的时间为5-10天,尽量减少存储的时间,减轻JMS集群的未处理消息的数据量和处理压力;
  4. 当前集群的共享存储为NFS,NFS性能较差,每月消息堆积的数据量在20G-50G,都会进行定期JMS持久化操作,考虑更换读取IO性能更好的存储;
  5. 做好宿主机与存储、虚拟机与存储、物理设备和存储设备间网络状况的监控,及时发现问题,及时解决

标签:134,JMS,重启,宿主机,故障,集群,主机
From: https://www.cnblogs.com/softcloud/p/16808993.html

相关文章

  • 【k8s】本地部署单节点测试集群
    前言k8s本地部署方式常见的有kubeadmin,minikube,rke等等,但是这几个在国内网络环境下都不好使,经常就是镜像拉取不下来。经过几轮测试,发现kind是最容易部署的部署方式......
  • Helm部署Zookeeper+Kafka集群
    三、Helm部署Zookeeper集群3.1、helm准备#Helm客户端安装文档https://helm.sh/docs/intro/install/#添加bitnami和官方helm仓库:helmrepoaddbitnamihttps://cha......
  • Hadoop集群搭建前的大数据环境配置
    Hadoop集群安装配置教程1.大数据环境配置统一当Hadoop采用分布式模式部署和运行时,存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。这时,数据就......
  • Kubernetes集群架构与组件
    Kubernetes集群架构图:简化版架构图:kube-apiserver:集群的统一入口,各组件协调者,以RESTfulAPI提供接口服务,所有对象资源的增删改查和监听都交给aipserver处理后在提交......
  • Linux服务器下php网站解决故障常用方法
    1、查看nginx进程命令:ps-ef|grepnginx2、查看php进程命令:ps-aux|grepphp3、查看cpu、内存使用情况命令:top4、查看磁盘空间df-h5、查看当前目录的大小du-sh......
  • K8S 故障排错新手段:kubectl debug 实战
    K8SINTERNAL系列容器编排之争在Kubernetes一统天下局面形成后,K8S成为了云原生时代的新一代操作系统。K8S让一切变得简单了,但自身逐渐变得越来越复杂。【K8SInternals......
  • win10录音机内录故障排查思路
    驱动问题声音->录制界面如果没有立体声混音选项,说明没有安装声卡驱动,前往主板制造商的官网下载独占问题若已安装声卡驱动,立体声混音选项出现,问题依然没有解决。进行如下......
  • 从主机名谈真实Hadoop集群与虚拟机集群管理
    由于本人不定期会整理相关博文,会对相应内容作出完善。因此强烈建议在原始出处查看此文。随着大数据的普及,Hadoop应用也越来越广泛,然而不断扩展的节点数量对运维管理也提出了......
  • CPU高利用率及IO高负载故障定位分析
    一、系统表说明MySQL5.7版本起,performance_schema.threads线程表可以查询各个线程的信息,THREAD_OS_ID值对应OS中的线程,这就为故障定位提供了便捷,SQL如下:参数:30502为OS......
  • 深入剖析Redis系列: Redis集群模式搭建与原理详解
    前言在Redis3.0之前,使用 哨兵(sentinel)机制来监控各个节点之间的状态。RedisCluster是Redis的 分布式解决方案,在3.0版本正式推出,有效地解决了Redis在 分布式 ......