kubernetes集群故障恢复

时间：2024-04-09 20:59:37浏览次数：26

标签：bridge cri kubernetes -- 故障集群 master kube root

前提概要：该k8s集群为测试集群

故障报错1：

排障：

查询kube-apiserver服务状态：

可以看出cni使用了docker和cri-dockerd两种，所以涉及：unix:///run/containerd/containerd.sock unix:///var/run/cri-dockerd.sock两个

查询etcd服务状态：

etcd的数据文件损坏了，要做数据恢复，而我这是实验环境，没搞etcd备份就只能重置集群了

需要在每台机器上执行：

然后初始化集群：

在master节点执行:

[root@master ~]# kubeadm init --ignore-preflight-errors=SystemVerification --cri-socket unix:///var/run/cri-dockerd.sock
I0409 07:02:10.310074   11794 version.go:256] remote version is much newer: v1.29.3; falling back to: stable-1.28
[init] Using Kubernetes version: v1.28.8
[preflight] Running pre-flight checks
error execution phase preflight: [preflight] Some fatal errors occurred:
        [ERROR FileContent--proc-sys-net-bridge-bridge-nf-call-iptables]: /proc/sys/net/bridge/bridge-nf-call-iptables contents are not set to 1
[preflight] If you know what you are doing, you can make a check non-fatal with `--ignore-preflight-errors=...`
To see the stack trace of this error execute with --v=5 or higher

如果遇到报错：

[ERROR FileContent--proc-sys-net-bridge-bridge-nf-call-iptables]: /proc/sys/net/bridge/bridge-nf-call-iptables contents are not set to 1
解决办法：# echo "1">/proc/sys/net/bridge/bridge-nf-call-iptables

当出现上面信息时，表示init初始化成功，然后在node1、node2节点进行加入到节点：

[root@master ~]# mkdir -p $HOME/.kube
[root@master ~]#   sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
[root@master ~]#   sudo chown $(id -u):$(id -g) $HOME/.kube/config
[root@master ~]# kubectl get nodes
NAME     STATUS   ROLES           AGE   VERSION
master   Ready    control-plane   82s   v1.28.2
node1    Ready    <none>          17s   v1.28.2
node2    Ready    <none>          6s    v1.28.2

但是执行kubectl apply -f kube-flannel.yml一直报错：

Error registering network: failed to acquire lease: node "master" pod cidr not assigned

报错信息是cidr没有分配，于是继续reset，然后init的时候加上该参数：

[root@master ~]# kubeadm init --ignore-preflight-errors=SystemVerification --cri-socket unix:///var/run/cri-dockerd.sock --service-cidr=10.96.0.0/16 --pod-network-cidr=10.244.0.0/16

然后node1、node2继续join：

[root@node1 ~]# kubeadm join 192.168.77.100:6443 --token caidkf.z5ygdrotujz09y1z \
>         --discovery-token-ca-cert-hash sha256:a753ca9b794a43912b3bfca5e52a788ca222e672a3630879b585f2eb841fc65e --cri-socket unix:///var/run/cri-dockerd.sock

[root@node2 ~]# kubeadm join 192.168.77.100:6443 --token caidkf.z5ygdrotujz09y1z \
>         --discovery-token-ca-cert-hash sha256:a753ca9b794a43912b3bfca5e52a788ca222e672a3630879b585f2eb841fc65e --cri-socket unix:///var/run/cri-dockerd.sock

然后master节点做一些config配置：

[root@master ~]# rm -rf  /root/.kube/*
[root@master ~]# mkdir -p $HOME/.kube
[root@master ~]#   sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
[root@master ~]#   sudo chown $(id -u):$(id -g) $HOME/.kube/config

集群状态，pod状态如下：

[root@master ~]# kubectl get nodes
NAME     STATUS   ROLES           AGE   VERSION
master   Ready    control-plane   59s   v1.28.2
node1    Ready    <none>          22s   v1.28.2
node2    Ready    <none>          27s   v1.28.2

如果上述过程中出现如下报错：

[root@master ~]# kubectl get nodes
Unable to connect to the server: tls: failed to verify certificate: x509: certificate signed by unknown authority (possibly because of "crypto/rsa: verification error" while trying to verify candidate authority certificate "kubernetes")
[root@master ~]# kubectl get nodes
Unable to connect to the server: tls: failed to verify certificate: x509: certificate signed by unknown authority (possibly because of "crypto/rsa: verification error" while trying to verify candidate authority certificate "kubernetes")

解决办法：

先删除config缓存，然后创建新的：

[root@master ~]# rm -rf  /root/.kube/*
[root@master ~]# mkdir -p $HOME/.kube
[root@master ~]#   sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
[root@master ~]#   sudo chown $(id -u):$(id -g) $HOME/.kube/config

参考文章：

https://zhuanlan.zhihu.com/p/646238661

https://blog.csdn.net/qq_40460909/article/details/114707380

https://blog.csdn.net/qq_21127151/article/details/120929170

标签：bridge,cri,kubernetes,--,故障,集群,master,kube,root
From： https://www.cnblogs.com/jsonhc/p/18124777

Kubernetes学习笔记13
K8s集群核心概念：Service我们在之前的学习过程中遇到一个问题，就是如果Pod被误删除，那么Controller重新拉起一个新的Pod时，我们发现PodIP地址是变化着的，我们访问必须更新IP地址。这样对于大量的Pod运行应用来说，我们对Pod完全无法控制的，因此在K8s集群中我们引入另一个概念Service......
Kubernetes学习笔记12
k8s核心概念：控制器：我们删除Pod是可以直接删除的，如果生产环境中的误操作，Pod同样也会被轻易地被删除掉。所以，在K8s中引入另外一个概念：Controller（控制器）的概念，用于在k8s集群中以loop的方式监视pod状态，如果其发现Pod被删除，将会重新拉起一个Pod，以让Pod一直保持在用户期望的状态。......
Kubernetes 升级不弃 Docker：KubeKey 的丝滑之道
作者：尹珉，KubeSphereAmbaasador&Contributor，KubeSphere社区用户委员会杭州站站长。引言随着Kubernetes社区的不断发展，即将迎来Kubernetes1.30版本的迭代。在早先的1.24版本中，社区作出一个重要决策：不再默认集成Docker作为容器运行时，即取消了对Docker的默认支持。这......
丐版pxc集群
同步systemctlstopfirewalld&&systemctldisablefirewalldsystemctlstopNetworkManager&&systemctldisableNetworkManagersetenforce0sed-is/SELINUX=enforcing/SELINUX=disabled//etc/selinux/configswapoff-ased-ri's/.swap./......
在CentOS7上搭建hadoop集群
hadoop官方下载地址https://hadoop.apache.org/releases.html用到的命令/root/hadoop-3.4.0/bin/hdfsnamenode-format，start-all.sh，stop-all.sh1.三台虚拟机分别设置静态ip2.设置免密登录（更改主机名、添加映射）3.配置hadoop（添加环境变量）core-site.xmlhdfs-site.......
全国首个！天翼云上海临港国产单池万卡液冷算力集群启用！
3月22日，中国电信宣布，天翼云上海临港国产万卡算力池正式启用，八家合作伙伴宣布将作为首批用户入驻临港国产算力池。这是国内首个投入正式运营的国产单池万卡液冷算力集群，也是业内领先的全国产化云智一体公共智算中心。通过中国电信天翼云打造的人工智能公共算力服务平台，将以公共......
Kubernetes统一管理vGPU：原理、实现与挑战
目录一、vGPU原理与需求二、Kubernetes统一管理vGPU的实现三、面临的挑战与解决方案四、拟解决方案五、总结导言：随着云计算和虚拟化技术的快速发展，GPU资源的共享和统一管理成为了云计算领域的一个重要课题。Kubernetes，作为容器编排领域的领头羊，其对于GPU资源的管理能......
Redis中的集群(一)
集群概述Redis集群是Redis提供的分布式数据库方案，集群通过分片(sharding)来进行数据共享，并提供复制和故障转移功能节点一个Redis集群通常由多个节点(node)组成，在刚开始的时候，每个节点都是相互独立的，它们都处于一个只包含自己的集群当中，要组建一个真正可工作的集群，则必须......
使用腾讯云Kubernetes部署SpringBoot项目
使用流程创建集群创建Serverless类型的kubernetes集群（更加简单），不需要集群管理费用，但创建容器还是收费的。创建容器要确保当前账号有充足的余额在创建过程中，主要选择镜像，可以从自己的镜像仓库（需要先将自己的SpringBoot项目创建docker镜像并推送到远程仓库），或者Docker公共......
Kubernetes有状态任务
有状态任务是指执行期间需要维护一定状态或数据的任务或工作。这些任务通常需要记录并维护数据、状态、上下文或进度信息，并且这些信息在任务执行期间保持持久。有状态任务的解决目标是确保任务在不同的环境、节点或时间点之间维持一致的状态和标识。这种任务通常需要持久性存储......

kubernetes集群故障恢复

相关文章

赞助商

阅读排行