Exadata存储节点大量nvmecli进程，导致系统出现卡顿现象

时间：2023-11-21 21:26:09浏览次数：34

标签：存储 09 -- 导致系统 nvmecli 节点 2023 Exadata 08

1、故障概要

同事在执行Exadata巡检时，发现客户Exadata环境中的celadm01存储节点存在卡顿的现象。相同的命令，在其他的存储节点很快就返回输出结果，而celadm01这台存储节点需要很长时间才返回输出结果。

2、故障分析

（1）. 检查主机负载情况。发现celadm01这台存储节点的负载（load average）高达几万，远远高于其他几台存储节点。

（2）. 同事在该存储节点执行了top命令，未发现有异常进程独占CPU的情况，但发现该存储节点的进程数高达3万多，真正running的进程只有几个，剩余的进程基本上都处于sleeping状态，具体如下所示。

top - 06:56:56 up 594 days, 10:46, 1 user, load average: 27093.61, 27092.08, 27086.28

Threads: 31029 total, 3 running, 30797 sleeping, 0 stopped, 0 zombie

%Cpu(s): 5.0 us, 4.2 sy, 0.0 ni, 90.1 id, 0.0 wa, 0.6 hi, 0.0 si, 0.0 st

KiB Mem : 13148553+total, 43384912 free, 64332044 used, 23768580 buff/cache

KiB Swap: 2097084 total, 2097084 free, 0 used. 61548536 avail Mem

正常情况下，存储节点的进程数应该在1000个左右，当前这台存储节点上的进程数已经远远超过正常范围。

（3）. 分析ps命令输出，发现如下类似的进程占绝大多数，具体如下所示。

可以看出，当前主机上存在大量的进程正在执行nvmecli --identify --device=/dev/nvme3n1 --detail命令，从这个命令可以推测系统想获取/dev/nvme3n1这块闪存的信息，但这块闪存很可能出现了硬件故障，导致无法获取相关的信息，所以nvmecli命令一直卡着。最终，导致主机上的进程越来越多。

（4）. 从目前的情况来看，celadm01存储节点已经异常，建议重启该节点的存储服务，但同事在关闭存储服务时，该存储节点的主机自动重启了。

2023-10-27T17:27:48+08:00 critical "CELLSRV shutdown failure. Cell was power cycled."

主机自动重启后，该存储节点恢复正常。

（5）. 查看存储软件的日志。

2_1 2023-09-22T14:08:30+08:00 critical "Flash disk entered confinement offline status. ....

2_2 2023-09-22T14:08:34+08:00 critical "Flash disk entered poor performance status. ....

2_3 2023-09-23T02:28:16+08:00 critical "Flash disk failed. Status : FAILED ...

3_1 2023-09-22T14:17:49+08:00 warning " Processes may be in an uninterruptible sleep (D) state......

3_2 2023-09-23T02:21:50+08:00 info " The following processes may be in an uninterruptible sleep (D) state: Command kworker/u80:0 Tree PID PPID Command 18859

3_3 2023-09-23T02:22:50+08:00 info " The following processes may be in an uninterruptible sleep (D) state: Command /usr/lib/systemd/systemd-udevd Tree PID PPID

3_4 2023-09-23T02:23:50+08:00 info " The following processes may be in an uninterruptible sleep (D) state: Command nvmecli --identify --device=/dev/nvme3n1 --detail

3_5 2023-09-23T02:24:50+08:00 info " The following processes may be in an uninterruptible sleep (D) state: Command nvmecli --identify --device=/dev/nvme3n1 --detail

3_6 2023-09-23T02:25:50+08:00 info " The following processes may be in an uninterruptible sleep (D) state: Command nvmecli --identify --device=/dev/nvme3n1 --detail

从存储软件的日志可以看出：

2023-09-22T14:08分，有一块闪存出现故障，进入poor performance状态，9分钟后，有一个进程进入D状态，这个进程很可能就是检测闪存信息的nvmecli命令。

2023-09-23T02:21开始，又出现多个进程进入D状态，这些进程中有多个进程是执行nvmecli命令检测闪存信息。最终，在2023-09-23T02:28分，闪存进入FAILED状态。

3、建议

个人认为这应该是存储软件的一个BUG，既然存储软件识别出这块闪存已经出现故障，就不应该再生出这么多检测闪存状态的进程。但搜索MOS资料库，未找到已知的BUG，建议升级存储软件。

标签：存储,09,--,导致系统,nvmecli,节点,2023,Exadata,08
From： https://www.cnblogs.com/missyou-shiyh/p/17847632.html

Exadata的闪存卡损坏，导致业务系统IO堵塞
1、故障概要一套ExadataX6-2（4个计算节点+7个存储节点），上午11点多，业务部门反馈业务系统当前出现了严重的堵塞现象，大量的单据出现积压，数据库的活跃会话增多，出现大量的bufferbusywaits等待事件。 2、故障原因分析2.1检查Exadata所有节点的alerthistory日志，发现其中......
记敏感词导致系统登录无任何反应的排查
客户处经常反馈系统动不动就不能正常登录，而我们在公司环境中各种测试，就是不能重现出来。这种令人恼火的Bug，追了很长时间。今天终于忍不住决心找下原因，用谷歌浏览器F12下各种追查无果。客户用的奇安信浏览器，下载安装后继续追查无果，下载......
Exadata磁盘损坏导致磁盘组无法mount恢复（oracle一体机磁盘组异常恢复）---惜分飞
联系：手机/微信(+8617813235971)QQ(107644445)标题：Exadata磁盘损坏导致磁盘组无法mount恢复（oracle一体机磁盘组异常恢复）作者：惜分飞©版权所有[未经本人同意,不得以任何形式转载,否则有进一步追究法律责任的权利.]OracleExadata客户,在换盘过程中,cell节点又一块磁盘损坏,导致......
Exadata存储节点image升级，patch_check_prereq阶段报错
1、某客户有一台ExadataX4-2，当前的image版本为11.2.3.3.1，计划将image版本升级到18.1.34.0.0。当针对存储节点执行升级前的预升级检查工作时报错。具体如下所示：[root@dm01dbadm01patch_18.1.34.0.0.210717]#./patchmgr-cellscell_group-patch_check_prereq-rolling ......
Exadata X4-2 刷机至18.1.34版本遇到的问题
客户有一套ExadataX4-2，计划从目前的11.2.3.3.1版本升级至18.1.34版本，但其中的一台计算节点在升级过程中遇到很多的故障，最终决定将这个已经升级失败的计算节点刷机至18.1.34版本。本文主要记录将ExadataX4-2刷机至18.1.34版本时，遇到的一些异常情况。在刷机刚开始不久，会进入......
生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程
原因:因为主机扩容内存重启以后发现有七台服务器无法进入系统,重启之前Centos7的启动项被修改过导致无法重启,只能重新安装操作系统,但是HDFS的数据是保存到data盘中.系统OS:CentOSLinuxrelease7.6.1810(Core)CDH版本:6.2.1重新安装操作系统的服务器10.170.12.43db-pro-da......
Exadata X6-2，出现RS-7445 [Serv CELLSRV hang detected] [It will be restarted]
1、驻场的同事发现X6-2的某个存储节点，出现7445错误。#cellcli-elistalerthistory2023-03-27T23:01:44+08:00critical"RS-7445[ServCELLSRVhangdetected][Itw......
安装宝塔面板导致系统两套底层依赖库问题
2023年3月2日09:25:31最近遇到一个问题，在宝塔环境下安装出现一个很奇怪的问题，如果装了php就会出现两套依赖库[root@docker~]#rpm-qglibcglibc-2.17-326.el7_9.x86_6......
记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导
在自己没有管理多台高负荷的ubuntu显卡服务器之前，我是万万想不到linux服务器居然也是如此容易死机的。什么每个版本的TensorFlow调用显卡驱动时和内核不兼容，什么系统自动升......
记录一次实验室linux系统的GPU服务器死机排查过程——某显卡满负荷导致内核进程超时导
在自己没有管理多台高负荷的ubuntu显卡服务器之前，我是万万想不到linux服务器居然也是如此容易死机的。什么每个版本的TensorFlow调用显卡驱动时和内核不兼容，什么系统自动......

Exadata存储节点大量nvmecli进程，导致系统出现卡顿现象

相关文章

赞助商

阅读排行