在K8S中，节点状态notReady如何排查?

时间：2024-03-01 12:35:27浏览次数：28

标签：NotReady 插件 kubectl notReady kubelet 排查 K8S 节点

在 Kubernetes (K8s) 集群中，当一个节点(Node)的状态变为NotReady时，意味着该节点可能无法运行Pod或不能正确响应Kubernetes控制平面。排查NotReady节点通常涉及以下步骤：

1. 获取基本信息

使用 kubectl 命令行工具获取节点状态：
```
kubectl get nodes
```
检查具体出现问题的节点详情：
```
kubectl describe node <node-name>
```

2. 检查事件(Event)

查看节点的事件以了解与NotReady状态相关联的具体错误：
```
kubectl describe node <node-name> | grep -A 10 'Conditions:'
```

3. 条件(Conditions)分析

在输出中关注Conditions部分，特别是Ready状态及其原因和消息。
不同原因可能包括但不限于：
- 网络问题：如节点与Master通信中断、CNI网络插件问题等。
- Kubelet问题：kubelet进程未运行或配置错误。
- 容器运行时问题：Docker、containerd或其他容器引擎未能启动或报告错误。
- 资源不足：磁盘空间满、内存或CPU不足等。
- 节点健康状况探测失败：如kubelet定期向API Server汇报节点状况（通过心跳机制）出现问题。

4. 具体排查步骤

网络连通性：确保节点能够正常与集群中的其他组件通信。
kubelet服务：检查kubelet服务是否运行正常，以及日志中是否有错误信息。
```
systemctl status kubelet
journalctl -u kubelet -xe
```
容器运行时：确认容器运行时服务也正在运行，并无错误。
磁盘空间与资源使用：检查节点的磁盘空间和系统资源使用情况。
```
df -h
free -m
```
健康检查和PLEG：Kubelet有一个Pod生命周期事件Generator (PLEG)，负责监测Pod的生命周期。若PLEG停滞可能导致节点NotReady，查看kubelet的pod状态。
CNI插件：确认网络插件工作正常，有时网络配置或插件故障也会导致节点NotReady。
操作系统健康：检查操作系统层面是否有内核警告、硬件故障或安全组规则阻止必要的端口通信。

5. 恢复操作

根据排查结果采取相应措施，例如重启kubelet服务、清理磁盘空间、修复网络配置、更新容器运行时等。

如果需要，也可以尝试将节点从集群中删除并重新加入，以触发重新初始化过程：

kubectl drain <node-name> --delete-local-data --force --ignore-daemonsets
kubectl delete node <node-name>
# 确保节点问题已解决后...
kubectl uncordon <node-name>

综上所述，在实际环境中，排查过程应结合具体情况灵活调整，并可能需要深入了解Kubernetes的内部工作机制及特定版本的特性。

标签：NotReady,插件,kubectl,notReady,kubelet,排查,K8S,节点
From： https://www.cnblogs.com/huangjiabobk/p/18046704

使用kubeadm安装k8s 1.29单机版
环境及版本信息kubernetes:1.29.0容器运行时：containerd1.6.28虚拟机系统：centos7.9虚拟机内核版本：5.4.238-1.el7.elrepo.x86_64在单虚拟机节点进行服务器设置参考：https://kubernetes.io/zh-cn/docs/setup/production-environment/tools/kubeadm/install-kubeadm/设置......
k8s资源管理中request和limit的区别
在Kubernetes（K8s）中，request和limit是两个重要的概念，用于控制和管理容器的资源使用。Request（请求）：request定义了容器启动时需要保证的最小资源量。这表示Kubernetes在调度Pod到节点时，会确保该节点上有足够的资源来满足Pod的request。只有当节点上的可分配资源大于或等于Pod的req......
k8s资源管理之ResourceQuota、LimitRange和QoS
ResourceQuotaResourceQuota是Kubernetes中的一个资源配额对象，用于限制命名空间（Namespace）中资源的使用量。ResourceQuota可以限制命名空间中的Pod数量、特定类型资源对象的数量（如Services、Deployments等），以及命名空间内所有Pod可以使用的计算资源总量（如CPU、内存等）。......
K8S-Pod 进阶
Pod进阶资源限制当定义Pod时可以选择性地为每个容器设定所需要的资源数量。最常见的可设定资源是CPU和内存大小，以及其他类型的资源。当为Pod中的容器指定了request资源时，代表容器运行所需的最小资源量，调度器就使用该信息来决定将Pod调度到哪个节点上。当还为容器......
k8s使用
查看节点[root@k8s-masterdata]#kubectlgetpodNAMEREADYSTATUSRESTARTSAGEhelloworld-deployment-cddb745bf-5cvdm0/1ImagePullBackOff033mjava-68cd4b9d4b-l4zc7......
zookeeper的znode节点过多无法通过zkCli.sh移除节点
背景描述：zookeeper的一个目录下的znode节点过多，导致在执行ls和rmr命令的时候，直接终止会话退出，无法递归删除下面的子节点，具体情况如下（生产环境的zookeeper是clickhouse的元数据管理集群，有一个故障是clickhouse副本同步堆积问题），接下来的操作需要知道这个子节点中的znode有序节点是......
kafka节点故障恢复原理
Kafka的LEO和HWLEOLEO是Topic每一个副本的最后的偏移量offset+1HW（高水位线）HighWaterMark是所有副本中，最小的LEOFollower副本所在节点宕机由于数据同步的时候数据是先写入Leader，然后Follower副本向Leader同步只要Leader和其他的Follower副本继续往前存储数据，挂掉的节点在......
在K8S中，ingress该如何使用?
在Kubernetes(K8s)中，Ingress是一种API对象，它提供了对外部请求进入集群内部服务的一种统一入口和路由机制。Ingress控制器是一个运行在集群中的守护进程，它监听Ingress对象的变化并配置相应的负载均衡器或代理服务，以便根据定义的规则转发HTTP(S)请求到后端的Service。以下是使用......
在K8S中，如果pod处于不健康状态怎么排查?
在Kubernetes（K8s）中，Pod处于不健康状态可能由多种原因导致。为了排查这个问题，你需要采取一系列步骤来确定问题的根源。下面是一个详细的排查过程：检查Pod的状态：使用kubectlgetpods命令来查看Pod的当前状态。不健康的Pod可能处于CrashLoopBackOff、Error、Pending或Unknown等状......
在K8S中，CNI有什么作用?
在Kubernetes（简称K8s）中，ContainerNetworkInterface（CNI）起着至关重要的作用，它主要解决了容器网络配置及通信的问题，确保了Pod间的网络连通性及其与外部世界的通信。CNI的具体作用包括但不限于以下几个方面：网络配置自动化：当Kubernetes创建或销毁Pod时，CNI插件会自动为Pod中的每个......