首页 > 其他分享 >Kubernetes 集群 troubleshooting

Kubernetes 集群 troubleshooting

时间:2023-10-09 15:27:28浏览次数:46  
标签:node Kubernetes ulimit failed 集群 troubleshooting go calico

Kubernetes 集群 troubleshooting – 陈少文的网站 (chenshaowen.com)

1、FailedCreatePodSandBox

  • 错误

Error response from daemon: OCI runtime create failed: container_linux.go:380: starting container process caused: process_linux.go:402: getting the final child's pid from pipe caused: EOF: unknown

  • 处理

清理 cache:

echo 3 > /proc/sys/vm/drop_caches

原因:内存碎片过多。

2、calico-node 不停重启 increase max user

  • 错误

runtime: failed to create new OS thread (have 11 already; errno=11),runtime: may need to increase max user processes (ulimit -u)

  • 处理

增加 ulimit 限制额度

    ulimit -u unlimited

原因:用户进程耗尽。

3、calico-node BIRD is not ready

  • 错误

Readiness probe failed: calico/node is not ready: BIRD is not ready: Error querying BIRD: unable to connect to BIRDv4 socket: dial unix /var/run/calico/bird.ctl: connect: connection refused

  • 处理

执行 ifconfig 找到当前主机 IP 绑定的网卡,例如 ens192

kubectl -n kube-system edit ds calico-node

- name: IP_AUTODETECTION_METHOD
value: can-reach=$(NODEIP)

改为

- name: IP_AUTODETECTION_METHOD
value: "interface=ens192"

原因:没有正确识别到网卡

4、Pod 创建慢

  • 错误

    Sep 11 08:23:17 node3 kubelet[1437]: E0911 08:23:17.770706 1437 kubelet_volumes.go:225] "There were many similar errors. Turn up verbosity to see them." err="orphaned pod \"10ff3c51-ebf2-47dd-b837-fd584319a754\" found, but error not a directory occurred when trying to remove the volumes dir" numErrs=10

  • 原因
  • 可能的原因之一是,创建 Pod 依赖 Secret、ConfigMap 等资源,但在当前命名空间下,这些资源不存在,导致 Kubelet 一直尝试去获取这些资源,直到超时,影响了 Pod 的创建。

  • 处理
  • 找到缺失的资源,创建之。

标签:node,Kubernetes,ulimit,failed,集群,troubleshooting,go,calico
From: https://www.cnblogs.com/vzhangxk/p/17751791.html

相关文章

  • k8s修改集群IP--重置集群
     原来IP地址192.168.10.138k8s-master192.168.10.139k8s-node1192.168.10.140k8s-node2新IP地址192.168.10.148k8s-master192.168.10.149k8s-node1192.168.10.150k8s-node2cp-Rf/etc/kubernetes//etc/kubernetes-bakpki证书目录保留下来:rm-rf/etc/kuberne......
  • k8s修改集群IP--不重置集群
    正常在用集群想要更换ip master节点ip192.168.10.138改为192.168.10.148node1节点ip192.168.10.139改为192.168.10.149node2节点ip192.168.10.140改为192.168.10.150master节点1)执行脚本1233.sh 1233.sh内容如下:#master节点exportoldip1=192.168.10.138expor......
  • 使用 kubeadm 安装 k8s 集群
    背景之前使用过kubespray​的ansibleplaybook安装集群,尽管此剧本是官方推荐使用的,但是它有以下缺点:剧本的编排太过于晦涩创建集群的过程中,会产生许多必要的配置文件和依赖​​以上种种,导致使用kubespray​安装的集群不利于后续的维护和部分运维功能的二次开发。一些集群......
  • Docker 安装 Redis 单机&集群总结
    前言Redis是一个开源的使用ANSIC语言编写、遵守BSD协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库redis版本:redis:6.2.13作者:易墨安装单机版安装源:DockerHub默认配置文件:配置文件示例6.2运行时指定配置文件docke......
  • 二进制部署k8s集群
    1.配置主机hostname2.配置hosts映射并拷贝至其他节点3.配置时间同步yum-yinstallchrony.x86_64vim/etc/chrony.confserverntp.aliyun.comiburstserverntp1.aliyun.comiburstserverntp2.aliyun.comiburstserverntp3.aliyun.comiburstsystemctlstar......
  • Kubernetes 部署 Python Flask 项目
    1、编写源代码及Dockerfiletest.pyfromflaskimportFlaskimportsocketapp=Flask(__name__)@app.route('/')defhello():returnsocket.gethostbyname(socket.gethostname())if__name__=='__main__':app.run(host='0.0.0.0......
  • hadoop集群搭建及编程实践
    Hadoop集群搭建前期准备及JDK,hadoop安装设置主机名和添加主机映射验证连通性SSH无密码登录配置集群/分布式环境修改workers修改文件core-site.xml修改hdfs-site.xml修改mapred-site.xml修改yarn-site.xml分发到其他结点格式化namenode执行分布式实例javaAPI与H......
  • 使用 Rancher 部署管理 K8S 集群
    目录使用Rancher部署管理K8S集群主机规划部署docker-ce(rancher)部署rancher使用Rancher部署管理K8S集群主机规划主机名称角色IP地址基础软件rancher管理k8s集群10.0.0.203docker-cemasterk8s集群主节点10.0.0.200docker-cenode1k8s集群......
  • kubernetes基础排错
    目录删除ping不通pod的IP要查看Kubernetes集群是否正常运行,可以执行以下操作:集群节点状态检查:运行以下命令检查集群中所有节点的状态:CopyCodekubectlgetnodes输出将显示集群中每个节点的名称、状态和相关信息。确保所有节点都处于正常的Ready状态。POD状态检查:......
  • kubernetes 持久化存储
    目录kubernetes持久化存储k8s存储介绍特地对象存储本地存储网络共享存储EmptyDir类型hostPath类型type类型说明持久化存储PV和PVCPV和PVC生命周期PV和PVC需要注意的地方pv资源清单PVC资源清单POD要挂载PVCwordpress完整综合实践mysqlwordpressmysql主从复制实......