背景

操作系统：CentOS 7.5

MongoDB：4.4.7

现网有mongodb分片集群共3个节点（3个分片副本集，不包括config副本集），后续因业务增长需扩容3个新节点（新增3个分片副本集）。扩容的服务器采用克隆原集群中node3节点的方式进行，故上线时只需进行部分配置修改即可。

现象

上线后集群6个节点均正常运行数月，突然有一天开始，新扩的3个节点中其中一个节点（node4）上运行的3个分片mongodb进程有一个down掉了。随后立即手动把down的进程启起来，查看分片进程对应的程序日志，操作系统日志等等，未发现任何异常报错信息，只能先观察。

在随后的时间里，新扩的3个节点（node4-6）上的mongodb进程会出现不规律的down的情况，且现象与第一次一样，没有任何错误日志信息，同时原有的3个节点（node1-3）未出现任何异常。为了减少人工每次去启动进程的工作，故在这3个节点上运行了定时任务去检查进程运行情况，若发生down的情况，自动去启起来，并记录日志。

分析

在集群异常的期间也翻看了网络上关于mongodb进程crash的案例，都没有相同的情况。分享出来的案例主要集中为两种情况：1. mongodb程序（OOM）导致操作系统杀掉进程；2. mongodb程序bug导致某种特定情况下引起崩溃。但是无论哪种情况，mongodb的日志或系统日志至少会有相应的错误信息。

处理

无奈只能选择将集群所有节点升级小版本到最新版4.4.18试试。然而，升级后仍然出现进程down的情况，此时只能祭出大招，重启服务器了。惊喜的是重启后观察半个月居然恢复正常，没有再次出现问题。。。

总结

遇到实在解决不了的问题重启一般有90%的概率可以解决。

标签：mongodb,down,报错,分片,进程,日志,节点
From： https://www.cnblogs.com/Before/p/17195538.html

FastAPI 启动事件 tart_event(),停止事件shutdown_event()
作用需要在应用程序启动之前或者关闭时进行，例如数据库迁移，定时任务·····实际代码main.pyimportuvicornfromappimportcreate_appapp=create_app()if......
使用npm安装依赖包时报错，解决办法
npmERR!code1npmERR!pathF:\Awork\D\v1\lotus\node_modules\node-sassnpmERR!commandfailednpmERR!commandC:\WINDOWS\system32\cmd.exe/d/s/cnodesc......
Prism报错
Rules.Default..WithoutFastExpressionCompiler()报错说没有找到容器1、查看Prism.Wpf源码获取DryIoc容器规则2、证明项目中出现了另外一个DryIoc容器，它的规则不适用......
snappyHexMesh报错
使用snappyHexMesh划分网格的时候报错：Numberofcellsinmesh:4000doesnotequalsizeofcellLevel:1ThismightbebecauseofarestartwithinconsistentcellLe......
调用torch.randn(1, n_mels, 3000).to(device)时报错RuntimeError: CUDA error: devic
调试Whisper时，不管执行什么命令都会报错RuntimeError:CUDAerror:device-sideasserttriggered问题这个错误通常意味着CUDA运行时检测到了某些问题，例如尝试访问不存在......
改变容器存储位置后启动mongo失败，报错Failed to unlink socket file tmpmongodb-27017
一.改变容器存储位置默认存储位置是/var/lib/docker1.停止dockersystemctlstopdocker有时候会报错Warning:Stoppingdocker.service,butitcanstillbeactiva......
python连接oracle 19c报错误ORA-01017: invalid username/password
环境:db:19cpython:3.6最近有使用到cx_oracle(5.3)模块，这里记录下出现的问题由于我的项目一直在是windows上测试，最近把项目更新到linux下后，再去跑代码，发现代码报出ORA-2......
FTP传输文件报错
错误原因：文件名为中文 ......
Eclipse报错：Failed toload JavaHL Library解决方法
Eclipse出现FailedtoloadJavaHLLibrary解决方法今天打开Eclipse的时候弹窗说FailedtoloadJavaHLLibrary。。。很是纳闷，于是上网......
MariaDB修改密码报错
错误:“ERROR1356(HY000):View‘mysql.user’referencesinvalidtable(s)orcolumn(s)orfunction(s)ordefiner/invokerofviewlackrightstousethem”，......

mongodb进程down，无报错

背景

现象

分析

处理

总结

相关文章

赞助商

阅读排行