k8s学习-记录一次集群kube-controller,scheduler等多个pod重启的问题解决

时间：2023-02-18 23:35:11浏览次数：58

标签：选主 scheduler manager controller etcd pod kube 日志

问题

一次，集群的kube-controller,scheduler等容器重启，查看日志，发现时间很集中，在秒级范围内多个pod同时重启。

查看pod状态

kubectl get pod -n kube-system | grep kube-control

k8s学习-记录一次集群kube-controller,scheduler等多个pod重启的问题解决_连接超时

kube-controller-manager反复重启了200多次了。

排查

查看kube-control日志，日志显示“failed to renew lease kube-system/kube-controller-manager: failed to tryAcquireOrRenew context deadline exceeded”

kubectl logs -f kube-controller —previous

现renew list失败，租约续签失败，主动关闭容器。

k8s学习-记录一次集群kube-controller,scheduler等多个pod重启的问题解决_连接超时_02

查看api-server容器状态发现api-server日志中有请求的返回时间过长，请求延迟均在10s左右，部分请求时间延迟超过11s，常规请求回复时间应为毫秒级别。

api-server请求需要和etcd通讯，查询etcd容器状态和日志。发现etcd日志中：

journalctl -u etcd

k8s学习-记录一次集群kube-controller,scheduler等多个pod重启的问题解决_连接超时_03

k8s学习-记录一次集群kube-controller,scheduler等多个pod重启的问题解决_重启_04

wal日志同步过慢，需要8s以上，期望值为1s
etcdserver：read-only range request......took too long with etcd
grpc：Server.ProcessUnaryRPC failed to write status: connection error : desc = "transport is closing”.
Etcd日志显示11点04分出现lost leader报错，同时指出网络连接较慢。

查看prometheus监控，当时磁盘读写时间明显增大

k8s学习-记录一次集群kube-controller,scheduler等多个pod重启的问题解决_连接超时_05

分析

重启的pod为kube-controller-manager、kube-scheduler等均为需要选主的服务。
以kube-controller-manager为例，配置文--leader-elect=true选项开启选主，--leader-elect-renew-deadline duration选项官方推荐默认配置为10s，超过十秒则选主续约失败，相应endpoint更新失败，默认连接超时，关闭容器进行重启
etcd、api-server日志均显示当时请求超时。
推测当时连接磁盘较慢，IOwait时间长。

总结

kubernetes集群依赖etcd键值库进行请求应答，尤其是有选主需求的服务，选主续约失败会进行自动重启。etcd与数据盘的IO就显得十分重要。

后续考虑采用本地SSD盘方式部署etcd集群。同时将etcd集群与kubernetes的master节点剥离，保证其可用性和IO。

参考：

1. etcdserver: read-only range request took too long with etcd 3.2.24 · Issue #70082 · kubernetes/kubernetes · GitHub

2. kube-controller-manager | Kubernetes

3. [Tuning | etcd](https://etcd.io/docs/v3.3/tuning/#:~:text=By default, etcd uses a 100ms heartbeat interval.,By default, etcd uses a 1000ms election timeout.)

4. https://www.cnblogs.com/360linux/p/12919521.html

标签：选主,scheduler,manager,controller,etcd,pod,kube,日志
From： https://blog.51cto.com/u_11555417/6065697

K3S 系列文章-5G IoT 网关设备 POD 访问报错 DNS 'i/o timeout'分析与解决
开篇《K3s系列文章》《Rancher系列文章》问题概述202206065GIoT网关设备同时安装K3SServer,但是POD却无法访问互联网地址，查看CoreDNS日志提示如下：...[......
记录k8s进行持续挂卷，但是pod并没有running的问题
在进行持续挂卷，必须配置pv和pvc但是配置了mysql之后pod并没有running，我的解决步骤一、查看kubectldescribepodmysql-72bl7 Events:FirstSeenLastSeenCo......
Controller代码，无侵入统一返回
https://mp.weixin.qq.com/s/LnuVCks5LOUqf8Ad44N7aw//定义注解用于不是统一返回的@Target({ElementType.METHOD})@Retention(RetentionPolicy.RUNTIME)public@inter......
K8s:开源安全平台 kubescape 实现 Pod 的安全合规检查/镜像漏洞扫描
写在前面生产环境中的k8s集群安全不可忽略，即使是内网环境容器化的应用部署虽然本质上没有变化，始终是机器上的一个进程但是提高了安全问题的处理的复杂性分享一个开......
SpringMVC源码(八)：Controller控制器执行流程
在MVC请求流程中，获取到HandlerAdapter适配器后，会执行handler处理器(Controller控制器)的相关逻辑，通过适配器的handle()方法，完成目标Controller处理器的调用。在源码(七......
python 基于APScheduler的定时任务
指定时间执行指定任务：1#--*--coding:utf--8--*--2#__author__='xxx'34fromdatetimeimportdatetime5fromapscheduler.schedulers.blockingimpo......
kube-system命名空间pod启动一直：ContainerCreating
kube-system命名空间pod启动一直：ContainerCreating K8S中coredns服务提示：networkPlugincnifailedtosetuppod"coredns-c8c45564f-dpwmw_kube-system"network......
pod拷贝文件
root@4f9ac7537bd7:/app/ui/sql#kubectlcp3.7.sql-ncemsapp-7d76f8e0-ng31-68bfcb4b5b-rj652:/data/web/root@4f9ac7537bd7:/app/ui/sql#kubectlexec-ti-nc......
CentOS中部署jar包时提示:org.quartz.SchedulerException: Couldn‘t get host name
场景jar包在本地Windows系统上运行不报错，在CentOS服务器上运行时提示:org.quartz.SchedulerException:Couldn'tgethostname 注：关注公众号霸道的程序猿获取编程......
容器与 Pod 的区别和联系
容器本可以成为轻量级虚拟机的替代品。但是，由于Docker/OCI的标准化，最广泛使用的容器形式是每个容器只有一个进程服务。这种方法有很多优点——增加隔离性、简化水平扩展、......

k8s学习-记录一次集群kube-controller,scheduler等多个pod重启的问题解决

问题

排查

分析

总结

相关文章

赞助商

阅读排行