为系统守护进程预留计算资源

标签：slice reserved -- system kubelet cgroup 预留计算资源守护

参考文档：http://arthurchiao.art/blog/k8s-cgroup-zh/

--cgroups-per-qos

默认开启。开启这个参数后，kubelet 会将所有的 pod 创建在 kubelet 管理的 cgroup 层次结构下（这样才有了限制所有 Pod 使用资源总量的基础）。要想启用 Node Allocatable 特性，这个参数必须开启

Kubernetes 会将所有 pod 分成三种 QoS，优先级从高到低：Guaranteed > Burstable > BestEffort。三种 QoS 是根据 requests/limits 的大小关系来定义的：

Guaranteed: requests == limits, requests != 0，即正常需求 == 最大需求，换言之 spec 要求的资源量必须得到保证，少一点都不行；
Burstable: requests < limits, requests != 0，即正常需求 < 最大需求，资源使用量可以有一定弹性空间；
BestEffort: request == limits == 0，创建 pod 时不指定 requests/limits 就等同于设置为 0，kubelet 对这种 pod 将尽力而为；有好处也有坏处：
- 好处：node 的资源充足时，这种 pod 能使用的资源量没有限制；
- 坏处：这种 pod 的 QoS 优先级最低，当 node 资源不足时，最先被驱逐

--cgroup-driver

指定 kubelet 使用的 cgroup driver。默认为 cgroupfs，还可以是 systemd，但是这个值需要和 docker runtime 所使用的 cgroup driver 保持一致

--cgroup-root

可选。指定给 pod 使用的根 cgroup，容器运行时会尽量将 pod 的资源限制在这个根 cgroup 下面。默认为空，即使用容器运行时作为根 cgroup

--enforce-node-allocatable

指定 kubelet 为哪些进程做硬限制，可选的值有：pods, kube-reserved, system-reserve

这个参数开启并指定 pods 后 kubelet 会为所有 pod 的总 cgroup 做资源限制(通过 cgroup 中的 kubepods.limit_in_bytes)

调度器可以限制节点上所有创建的 pod 的 request 量不会超过 allocatable，已可以保证不会有超过 allocatable 的 pod 跑在该节点上，这里还要用 cgroup 再做硬限制的意义是：pod 使用的资源是可以大于 request 的，所以，虽然在调度阶段限制了所有 request 的总量不会超过 allocatable 的值，但不能保证真正运行起来后所有 pod 的资源使用量不会超过 allocatable；而用 cgroup 做了硬限制后，当所有 pod 使用量达到 allocatable 后，会有 pod 被 OOM killer 机制杀掉，以保证实际使用量不会超过allocatable

--eviction-hard

设置进行 pod 驱逐的阈值，这个参数只支持内存和磁盘。通过 --eviction-hard 标志预留一些内存后，当节点上的可用内存降至保留值以下时，kubelet 将会对 pod 进行驱逐

Kube 预留值：

--kube-reserved-cgroup=

这个参数用来指定 k8s 系统组件所使用的 cgroup。注意，这里指定的 cgroup 及其子系统需要预先创建好，kubelet 并不会为你自动创建好

--kube-reserved=[cpu=100m][,][memory=100Mi][,][ephemeral-storage=1Gi][,][pid=1000]

kube-reserved 用来给诸如 kubelet、容器运行时、节点问题监测器等 Kubernetes 系统守护进程记述其资源预留值。该配置并非用来给以 Pod 形式运行的系统守护进程预留资源

除了 cpu、内存和 ephemeral-storage 之外，pid 可用来指定为 Kubernetes 系统守护进程预留指定数量的进程 ID

系统预留值：

--system-reserved-cgroup=

这个参数用来指定系统守护进程所使用的cgroup。注意，这里指定的cgroup及其子系统需要预先创建好，kubelet并不会为你自动创建好

--system-reserved=[cpu=100m][,][memory=100Mi][,][ephemeral-storage=1Gi][,][pid=1000]

system-reserved 用于为诸如 sshd、udev 等系统守护进程记述其资源预留值。 system-reserved 也应该为 kernel 预留内存，因为目前 kernel 使用的内存并不记在 Kubernetes 的 Pod 上。同时还推荐为用户登录会话预留资源（systemd 体系中的 user.slice）

例子一：只限制 pod 资源总量

将以下内容添加到 kubelet 的启动参数中：

--enforce-node-allocatable=pods \

--cgroup-driver=cgroupfs \

--kube-reserved=cpu=1,memory=1Gi,ephemeral-storage=10Gi \

--system-reserved=cpu=1,memory=2Gi,ephemeral-storage=10Gi \

--eviction-hard=memory.available<500Mi,nodefs.available<10%

按以上设置：

节点上可供 Pod 所 request 的资源总和 allocatable 计算如下：
allocatable = capacity - kube-reserved - system-reserved - eviction-hard
节点上所有 Pod 实际使用的资源总和不会超过：capacity - kube-reserved - system-reserved

例子二：同时限制pod、k8s系统组件

修改 kubelet 配置：

方式一：将以下内容添加到 kubelet 的启动参数中：

--enforce-node-allocatable=pods,kube-reserved \

--cgroup-driver=cgroupfs \

--kube-reserved=cpu=500,memory=512Mi,ephemeral-storage=10Gi \

--kube-reserved-cgroup=/kubelet.slice

方式二：修改 kubelet 配置文件（默认配置文件 /var/lib/kubelet/config.yaml）

cgroupDriver: systemd

cgroupsPerQOS: true

enforceNodeAllocatable:

- pods

- kube-reserved

kubeReserved:

cpu: 500m

memory: 512Mi

ephemeral-storage: 10Gi

kubeReservedCgroup: /kubelet.slice

重启 kubelet 服务：

systemctl restart kubelet

需要注意，如果 --kube-reserved-cgroup 对应的路径不存在，Kubelet 不会创建它，启动 Kubelet 将会失败

报错内容：缺少对应的 cgroup 路径

Dec 15 14:41:14 instance-lx0qsle2 kubelet[75445]: E1215 14:41:14.299424 75445 kubelet.go:1511] "Failed to start ContainerManager" err="Failed to enforce Kube Reserved Cgroup Limits on \"/kubelet.slice\": cgroup [\"kubelet\"] has some missing paths: /sys/fs/cgroup/hugetlb/kubelet.slice, /sys/fs/cgroup/cpuset/kubelet.slice, /sys/fs/cgroup/cpu,cpuacct/kubelet.slice, /sys/fs/cgroup/cpu,cpuacct/kubelet.slice, /sys/fs/cgroup/systemd/kubelet.slice, /sys/fs/cgroup/pids/kubelet.slice, /sys/fs/cgroup/memory/kubelet.slice"

根据提示创建对应的 cgroup 路径：

mkdir /sys/fs/cgroup/hugetlb/kubelet.slice

mkdir /sys/fs/cgroup/cpuset/kubelet.slice

mkdir /sys/fs/cgroup/cpu,cpuacct/kubelet.slice

mkdir /sys/fs/cgroup/systemd/kubelet.slice

mkdir /sys/fs/cgroup/pids/kubelet.slice

mkdir /sys/fs/cgroup/memory/kubelet.slice

注意：systemd 的 cgroup 驱动对应的 cgroup 名称是以 .slice 结尾的，比如如果你把 cgroup 名称配置成 kubelet.service，那么对应的创建的 cgroup 名称应该为 kubelet.service.slice。如果你配置的是 cgroupfs 的驱动，则用配置的值即可。无论哪种方式，通过查看错误日志都是排查问题最好的方式

再次重启 kubelet 依然报错：

Dec 15 14:44:01 instance-lx0qsle2 kubelet[76089]: I1215 14:44:01.285110 76089 node_container_manager_linux.go:125] "Enforcing kube reserved on cgroup" cgroupName="/kubelet.slice" limits={"cpu":"500m","ephemeral-storage":"10Gi","memory":"512Mi"}

Dec 15 14:44:01 instance-lx0qsle2 kubelet[76089]: E1215 14:44:01.285971 76089 kubelet.go:1511] "Failed to start ContainerManager" err="Failed to enforce Kube Reserved Cgroup Limits on \"/kubelet.slice\": Unit kubelet.slice is not loaded."

启动 kubelet.slice

systemctl start kubelet.slice

再次重启 kubelet 成功

查看限制：

cat /sys/fs/cgroup/memory/kubelet.slice/memory.limit_in_bytes

536870912 # 内存限制 512Mi

查看节点详细描述：

kubectl describe node 10.100.0.98

Node Allocatable Resource = Node Capacity - Kube-reserved

例子三：同时限制pod、k8s系统组件、linux系统守护进程资源

修改 kubelet 配置：

方式一：将以下内容添加到 kubelet 的启动参数中：

--enforce-node-allocatable=pods,kube-reserved,system-reserved \

--cgroup-driver=cgroupfs \

--kube-reserved=cpu=500m,memory=512Mi,ephemeral-storage=10Gi \

--kube-reserved-cgroup=/kubelet.slice \

--system-reserved cpu=500m,memory=512Mi,ephemeral-storage=10Gi \

--system-reserved-cgroup=/system.slice \

--eviction-hard=memory.available<500Mi,nodefs.available<10%

方式二：修改 kubelet 配置文件（默认配置文件 /var/lib/kubelet/config.yaml）

cgroupDriver: systemd

cgroupsPerQOS: true

enforceNodeAllocatable:

- pods

- kube-reserved

- system-reserved

kubeReserved:

cpu: 500m

memory: 512Mi

ephemeral-storage: 10Gi

kubeReservedCgroup: /kubelet.slice

systemReserved:

cpu: 500m

memory: 512Mi

ephemeral-storage: 10Gi

systemReservedCgroup: /system.slice

evictionHard:

memory.available: 500Mi

nodefs.available: 10%

重启 kubelet 服务：

systemctl restart kubelet

报错信息：缺少对应的 cgroup 路径

Dec 15 15:45:23 instance-lx0qsle2 kubelet[22282]: I1215 15:45:23.212655 22282 node_container_manager_linux.go:116] "Enforcing system reserved on cgroup" cgroupName="/system.slice" limits={"cpu":"500m","ephemeral-storage":"10Gi","memory":"512Mi"}

Dec 15 15:45:23 instance-lx0qsle2 kubelet[22282]: E1215 15:45:23.212740 22282 kubelet.go:1511] "Failed to start ContainerManager" err="Failed to enforce System Reserved Cgroup Limits on \"/system.slice\": cgroup [\"system\"] has some missing paths: /sys/fs/cgroup/hugetlb/system.slice"

创建缺少的 cgroup 路径：

mkdir /sys/fs/cgroup/hugetlb/system.slice

再次重启 kubelet 服务成功：

systemct restart kubelet

查看 system.slice 状态：正常运行

systemctl status system.slice

查看限制：

cat /sys/fs/cgroup/memory/system.slice/memory.limit_in_bytes

536870912 # 内存限制 512Mi

查看节点详细描述：

kubectl describe node 10.100.0.98

节点上可供 Pod 所 request 的资源总和 allocatable 计算如下：
allocatable = capacity - kube-reserved - system-reserved - eviction-hard
节点上所有 Pod 实际使用的资源总和不会超过：capacity - kube-reserved - system-reserved

标签：slice,reserved,--,system,kubelet,cgroup,预留,计算资源,守护
From： https://www.cnblogs.com/xiaosongblog/p/18001574

为系统守护进程预留计算资源

相关文章

赞助商

阅读排行