kubernetes-服务器重启后集群检查
搭建k8s集群的服务器因机房断电原因挂掉。以下是恢复后的常规检查
检查k8s的master组件服务
systemctl status kube-apiserver.service kube-controller-manager.service kube-scheduler.service
检查k8s的node组件服务
systemctl status kubelet.service kube-proxy.service
检查calico、coredns、metrics的pod状态
# kubectl get pods -n kube-system -owide
检查集群节点
# kubectl get nodes
常见问题:
- pod无法解析svc
报错如图
pod中无法解析“maorong-gateway”这个svc
排查:
- 查看svc的网络
# kubectl get svc
ip是:10.96.0.1
2. 在node上对查出的ip进行网络测试
# telnet 10.96.0.1 443
# telnet 10.96.0.10 53
如图,53端口是dns解析的端口,该端口无法连通。
3. 查看coredns的pod是否正常
# kubectl get pods -n kube-system
# kubectl get deploy -n kube-system -owide
- 恢复 coredns服务
coredns获取镜像失败,我们修改正确镜像路径:
# kubectl edit deploy -n kube-system coredns
再次检查coredns:
# kubectl get pods -n kube-system -owide
-
登录node节点,进行验证53端口:
-
将报错pod进行重启
# kubectl rollout restart deploy -n haian-sit vchain-scf-admin-front
标签:kubectl,service,kubernetes,get,集群,coredns,服务器,pod,kube
From: https://www.cnblogs.com/zoujiaojiao/p/18067676