首页 > 其他分享 >20240509xxx集群xx节点PLEG超时问题

20240509xxx集群xx节点PLEG超时问题

时间:2024-05-09 17:34:22浏览次数:14  
标签:卡住 PLEG xx 20240509xxx 集群 pod 节点

20240509xxx集群xx节点PLEG超时问题

//20240509 写在前面

xxx集群xx节点又又又又又卡住了,经过一系列排查,终于解决了问题,由于这次找到了通用解法,所以在此记录下

ps:国内的搜索引擎是真的shi。。搜出来的帖子都是抄来抄去的,还不解决问题,还得是google/大拇指

问题起因:

  • 偷得浮生半日闲,看到集群里一个节点监控没了,寻思是不是又是df卡住了,然后进去一看,果然,Ready 和 NotReady状态之间鬼畜,遂开始排查

解决流程:

  • 先说结论,核心就一句命令:

    for i in `docker ps -aq`; do echo $i; docker inspect $i 1>/dev/null 2>&1; done
    # 卡住的即为有问题的容器
    
  • 首先需要了解PLEG的原理,看看他到底在干什么,这里我不赘述,可以看Ref第一条,老哥说的很清楚;总结出来就一个点“遍历检查所有pod所属容器的状态”

  • 那既然知道了在干什么,分析就变得很简单了,又如下几点:

    • PLEG过程中哪里夯住了
    • pod太多,预设阈值中3分钟处理不完【这种一般很少见了,因为PLEG是节点级别的,一个节点不会有那么多pod,除非超级节点。。】
  • 所以有以下几个排查方向:

    • 节点pod数
    • docker状态【或者说底层CRI的状态】
      • 因为PLEG需要的信息是从底层接口中获取的
    • 本地所有由kubelet产生的容器信息
      • 使用开头的那句命令即可,PLEG拿到的信息,从inspect也可以拿到,如果拿不到,那肯定是有问题
  • 找到问题之后,处理问题节点即可,本案例是因为ceph挂载卡住,杀死相关进程即可【容器杀不掉,只能强杀进程】

Ref:

标签:卡住,PLEG,xx,20240509xxx,集群,pod,节点
From: https://www.cnblogs.com/lavender-pansy/p/18182786

相关文章

  • docker安装xxljob
    dockersearchxxl-jobdockerpullxuxueli/xxl-job-admin:2.4.0dockerrun-d\-p8088:8088\-v/tool/xxl-job/logs:/data/applogs\-v/tool/xxl-job/application.properties:/xxl-job/xxl-job-admin/src/main/resources/application.propert......
  • 解决Vue3项目警告:xxxis-declared-but-its-value-is-never-read
    刚刚在Vue3项目引入的一个组件Person下有红线,系统给出了警告,这是因为TypeScript会检查代码中未使用的变量,我定义了'Person'的变量,但是后续代码没有使用到它,从而导致Vetur(Vue的语法检查工具)给出了这个警告。解决方法:方法一:你可以删除或者在代码中使用'Person'变量或类型,以......
  • [Cmake Qt]找不到文件ui_xx.h的问题?有关Qt工程的问题,看这篇文章就行了。
    前言最近在开发一个组件,但是这个东西是以dll的形式发布的界面库,所以在开发的时候就需要上层调用。如果你是很懂CMake的话,ui_xx.h的文件目录在$下然后除了有关这个ui_xx.h,还有一些别的可以简单聊聊的一、父子工程组织,或者说依赖关系在使用CMake进行开发的时候,一般可以有......
  • flexx:创建交互式的 Web 页面
    Github地址:https://github.com/flexxui/flexxClicktheimagebelowforaninteractiveexample:[Flexx是一个强大的Python库,用于创建交互式的Web应用程序和用户界面。它提供了灵活的组件和布局管理器,使开发者可以轻松构建具有丰富交互性和动态性的应用。本文将详细介绍......
  • @RefreshScope导致xxl-job jobhandler naming conflicts项目启动报错
    问题项目里使用xxl-job定时任务框架,某个任务定义如下:@Slf4j@RefreshScope@Component@JobHandler("xxxTask")publicclassXxxTaskextendsIJobHandler{@Value("${xxx.enable:false}")privatebooleanenable;@OverridepublicReturnT<S......
  • xxe-基于Pikachu的学习
    XXE漏洞XML外部实体注入(XXE)的原理和应用_xml注入原理-CSDN博客XXE(XML外部实体注入)漏洞分析——pikachu靶场复现_pikachuxxe-CSDN博客原理XML外部实体注入漏洞(XMLExternalEntityInjection)简称XXE,XXE漏洞发生在应用程序解析XML输入时,没有禁止外部实体的加载,导致可加载恶意......
  • GUI利器 python界面开发PySimpleGUI
    大家好,很多人都想写一个自己的桌面程序,那么PySimpleGUI 是一个非常好的选择,它旨在简化GUI(图形用户界面)的创建过程。它基于几种流行的PythonGUI库,如tkinter、Qt、WxPython和Rem)i,但提供了一个更简单直观的接口。通过PySimpleGUI,即使是没有图形界面开发经验的开发者也可以......
  • Only a type can be imported. XXX resolves to a package
    在编写jsp页面是,导入需要的包,运行时报错main.jsp<%@pagelanguage="java"contentType="text/html;charset=UTF-8"pageEncoding="UTF-8"%><%@pageimport="java.util.List"%><%@pageimport="com.beans.E......
  • 【Netty】【XXL-JOB】时间轮的原理以及应用分析
    1 前言今天晚上看了一本70多页的讲解时间轮的PDF,从是什么为什么以及原理到源码中的应用分析,讲的真好。这节我就按我理解的思路捋一下,记录一下哈。2 时间轮概述2.1 时间轮是什么时间轮是一种高效利用线程资源进行批量化调度的一种调度模型。把大批量的调度任务全部绑......
  • xxl-job
    部署拉取镜像dockerpullxuxueli/xxl-job-admin:2.4.1docker-composeversion:'3'services:xxl-job-admin:image:xuxueli/xxl-job-admin:2.4.1container_name:xxl-job-adminrestart:alwaysports:-8087:8080environment:......