- 问题说明:
- 生产环境 K8s 1.24.0 版本
- sealos 4.0.0 版本
- 操作系统 Centos 7.6 内核 5.4
- 出现问题: (prod 环境需要增加节点来应对线上业务的压力. 截止目前所有节点资源内存使用均在70%左右)
- 执行: sealos add --nodes 10.0.0.116 时出现添加失败, 缺少基础文件的情况, 在成功添加节点后2分钟 集群剩余节点都变为 NotReady 状态, 后端服务正常运行一段时间后, 都停掉, 整个影响线上业务的访问和使用.
- 排查思路:
- 检查节点的状态,
- kubectl describe no node1
- 发现节点kublet False 不能用
- 查看coredns 是否正常运行
- 重启节点 containerd kubelet 服务, k8s 等一会儿健康机制会重新拉取服务为正常状态
- 添加节点出现缺少cni 网络插件, 需要从主节点拷贝等操作
- 对比排查sealos 版本, 官网未做说明 4.0.0 版本能维护 k8s 1.24.0 版本
- 最后尝试升级sealos 版本为最新 4.1.7 版本解决添加节点的问题, (4.1.0 都未能解决正常添加节点的问题)
- 检查节点的状态,