k8s规范 - IPS99技术分享

标签：服务 Kubernetes 规范集群确保使用 Pod k8s

为了更全面地提升 Kubernetes 集群的效率、安全性、可维护性，以下是更为详尽的 Kubernetes 使用规范，涵盖架构设计、监控、扩展、安全性等多个维度的最佳实践。

1.架构设计规范

1.1 多环境隔离

开发、测试、生产环境分离：为不同环境使用不同的命名空间或集群，确保开发环境的错误不影响生产环境。
使用多个集群：对于大型企业或多租户应用，建议使用多个 Kubernetes 集群来隔离故障域。可以通过 federation 或 multi-cluster 管理多个集群。

1.2 微服务架构规范

服务间的独立部署：每个微服务都应该是独立的 Kubernetes 资源，具备自己的生命周期和独立更新机制，通常每个微服务对应一个 Deployment。
服务发现与负载均衡：利用 Kubernetes 的 Service 进行内部的服务发现与负载均衡，避免硬编码服务的 IP 地址。

1.3 使用水平扩展

无状态服务首选：尽可能将应用设计为无状态（Stateless），使得服务可以通过简单扩展 Pod 的副本数来应对负载变化。避免将数据存储在本地文件系统中。
应用程序设计应具备可扩展性：确保应用程序支持水平扩展，利用 Kubernetes 的 HorizontalPodAutoscaler (HPA) 进行自动扩展。

2.服务管理规范

2.1 服务类型的正确使用

ClusterIP：用于集群内部的通信。
NodePort：用于将服务暴露到每个节点上的特定端口，适合简单的外部访问。
LoadBalancer：通过云供应商提供的负载均衡器来暴露服务，适合大规模、负载均衡的外部访问。

2.2 DNS 和服务发现

Kubernetes 默认提供内置的 DNS 机制，所有 Service 都有自己的 DNS 名称。服务间通信应使用 Service 的 DNS 名称，而不是 IP 地址，确保应用程序的灵活性和可迁移性。

2.3 Ingress 资源使用规范

HTTPS 支持：使用 Ingress 控制器（如 NGINX 或 Traefik）将 HTTP/HTTPS 流量路由到集群内的服务。建议启用 HTTPS，确保所有外部流量的安全性。
使用证书管理工具：使用 cert-manager 自动管理 TLS 证书，确保证书自动续期和管理。

3.容器镜像和存储规范

3.1 容器镜像管理

私有镜像仓库：对于敏感或企业内部的应用，建议使用私有容器镜像仓库（如 Harbor 或阿里云的容器镜像服务）。同时，确保设置正确的认证机制，避免镜像仓库被未授权访问。
镜像版本化管理：不要使用 latest 标签，始终为镜像指定具体的版本号，并确保每次发布新版本时更新镜像版本，避免不确定的行为。

3.2 镜像安全

扫描镜像漏洞：使用工具（如 Clair、Trivy 等）定期扫描容器镜像中的安全漏洞，确保镜像中不含有已知漏洞。
最小化镜像大小：构建时选择更小的基础镜像（如 alpine），并移除不必要的文件和依赖，减小镜像体积，提升容器启动速度。

3.3 持久化存储规范

PersistentVolumeClaim (PVC)：对于需要持久化数据的应用，应使用 PVC 关联 PersistentVolume，确保数据持久化。避免直接在容器中存储持久数据，以防止数据在容器重启或失败时丢失。
StorageClass：为每种存储类型创建合适的 StorageClass，并根据应用的需求动态分配持久存储资源（如 SSD、HDD 等）。

4.安全管理规范

4.1 RBAC (基于角色的访问控制)

启用并强制使用 RBAC 控制权限。为不同的用户、服务账户分配最小权限原则（Least Privilege），避免过度授权。
创建独立的 Role 和 RoleBinding，将权限细分到具体的命名空间和资源。

4.2 网络策略 (NetworkPolicy)

使用 NetworkPolicy 限制 Pod 之间的网络流量。默认情况下，Kubernetes 中的 Pod 可以相互访问，网络策略允许对这些流量进行控制。
创建允许的出入站规则，确保应用之间的通信仅限于必要的网络端口。

4.3 安全上下文 (SecurityContext)

在 Pod 和 Container 中设置适当的安全上下文，避免容器以 root 身份运行：

securityContext:
  runAsUser: 1000
  runAsGroup: 3000
  fsGroup: 2000
  allowPrivilegeEscalation: false

使用 readOnlyRootFilesystem: true 使容器文件系统只读，增加安全性。
限制容器的权限，避免使用特权模式 (privileged)，并关闭 allowPrivilegeEscalation。

4.4 审计日志

启用并定期检查 Kubernetes 集群的审计日志。可以通过配置 AuditPolicy 来记录 API 请求，确保集群中的操作可被追踪和审计。

5.资源和监控管理

5.1 资源请求和限制

为每个容器定义 CPU 和内存的请求与限制，确保合理使用集群资源，防止资源不足或过度使用：

resources:
  requests:
    cpu: "500m"
    memory: "256Mi"
  limits:
    cpu: "1"
    memory: "1Gi"

5.2 监控与告警

使用 Prometheus、Grafana 等工具对集群进行监控。定期检查节点和 Pod 的健康状态、资源使用情况，并设置告警。
节点健康监控：定期监控 Kubernetes 节点的 CPU、内存、磁盘和网络使用情况。使用 node-exporter 收集节点的系统级别数据。

5.3 日志管理

使用中央化日志管理工具（如 ELK、Fluentd）收集容器日志，便于跟踪和排查问题。确保应用日志输出到标准输出 (stdout) 和标准错误 (stderr)。

6.弹性与高可用性规范

6.1 应用高可用

为应用设置 replicas 副本数量，确保服务在 Pod 失败或升级时保持可用。推荐至少设置 replicas: 3，以避免单点故障。

6.2 Pod 分布

使用 PodDisruptionBudget 确保集群升级或维护期间，应用总是有足够的 Pod 副本在线，避免应用短暂不可用。
使用 affinity 和 anti-affinity 控制 Pod 在不同节点上的分布，确保应用的高可用性：

affinity:
  podAntiAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
            - key: app
              operator: In
              values:
                - my-app
        topologyKey: "kubernetes.io/hostname"

6.3 滚动更新

使用滚动更新策略 (RollingUpdate) 来无缝更新应用。限制每次更新的 Pod 数量，确保更新期间服务不中断：

strategy:
  type: RollingUpdate
  rollingUpdate:
    maxUnavailable: 1
    maxSurge: 1

6.4 自动恢复

启用 自我修复 功能。通过 Kubernetes 控制器（如 Deployment、StatefulSet）自动检测并重启失败的 Pod。

7.集群维护和升级

7.1 定期升级

定期升级 Kubernetes 集群、节点组件（如 kubelet、kube-proxy）、Ingress 控制器和其他第三方工具，确保集群处于支持的版本范围内，避免安全漏洞。

7.2 备份与恢复

对关键组件（如 etcd 数据库）进行定期备份，确保在集群故障时可以快速恢复。

8.CI/CD 和自动化部署规范

8.1 自动化部署

使用 CI/CD 工具（如 Jenkins、GitLab CI、ArgoCD）自动化应用的构建、测试

9.网络与安全策略

9.1 服务网格 (Service Mesh)

引入 Istio 或 Linkerd 等服务网格：对服务间的通信进行更细粒度的控制、监控和管理。服务网格可以提供安全的服务通信（如 mTLS），自动负载均衡和流量路由。
服务网格策略：利用服务网格中的策略控制流量的转发、熔断、超时和重试机制，优化服务的可靠性和弹性。

9.2 加密流量

内部通信加密：使用 NetworkPolicy 限制 Pod 之间的流量，确保流量仅限于授权的 Pod 之间传输。同时可以通过服务网格启用 mTLS（Mutual TLS）来加密服务间的通信。
Ingress 加密：确保所有对外暴露的服务都通过 HTTPS 访问。使用 cert-manager 自动管理 TLS 证书，简化证书的申请和续期。

9.3 Pod 安全策略 (PodSecurityPolicy)

严格控制容器的运行权限：通过 Pod 安全策略，限制容器使用的权限，如禁止使用特权容器（privileged: false）、禁止主机网络（hostNetwork: false）等。
Seccomp 和 AppArmor：启用 Seccomp 和 AppArmor 等安全机制，限制容器能够执行的系统调用，减少攻击面。

10.应用发布与版本管理

10.1 蓝绿发布

蓝绿部署策略：通过同时运行两个独立的环境（蓝/绿）来发布新版本应用，确保新版本可以在验证通过后切换流量，而老版本可作为备份环境。在 Kubernetes 中可以通过两个不同的 Deployment 配合 Service 切换流量实现蓝绿部署。

10.2 金丝雀发布

金丝雀发布策略：逐步将部分流量引导到新版本应用中，监控其稳定性后，再逐步增加流量。可以使用 Istio 等服务网格工具自动化和细粒度地管理金丝雀发布。
流量分配：使用 Ingress 或 Service 结合标签或选择器，将不同的流量比例引导到不同的应用版本。

10.3 回滚策略

支持快速回滚：每次更新都应该支持自动或手动回滚。如果发布失败，能够快速将流量切回上一个稳定的版本。Kubernetes Deployment 的回滚功能可以通过 kubectl rollout undo 实现快速回滚。

10.4 标签和版本化

标签版本化：为每次发布创建唯一的标签，确保不同版本应用的清晰识别和管理。避免使用通用标签（如 latest），而是使用具体的版本号。
命名空间隔离：在不同的命名空间中运行不同的版本或环境，确保不同环境之间相互隔离。

11.资源优化和成本控制

11.1 节点选择器和亲和性

节点亲和性：使用 NodeAffinity 来将特定的工作负载调度到特定的节点上，以便更好地利用资源。例如，可以将高性能计算任务分配到 GPU 节点上。

affinity:
  nodeAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
      nodeSelectorTerms:
        - matchExpressions:
            - key: kubernetes.io/e2e-az-name
              operator: In
              values:
              - e2e-az1
              - e2e-az2

11.2 资源调度器

自定义调度器：对于复杂的调度需求，可以使用自定义调度器或插件来优化资源分配。例如，基于应用的特定需求将任务分配到有 GPU 的节点上。
资源隔离：使用 taints 和 tolerations 来隔离不同的工作负载。例如，生产工作负载可以标记为不可被测试或开发任务调度到，以保证生产环境的稳定性。

11.3 批处理工作负载

使用 Job 和 CronJob：对于需要定期执行的批处理任务，使用 Job 或 CronJob 来管理任务执行和重试。确保批处理任务不会干扰在线服务的稳定性。

11.4 成本控制

自动缩放节点：利用 Kubernetes 的自动扩展工具（如 Cluster Autoscaler）动态调整节点数量，确保集群中资源的有效利用，降低不必要的成本。
按需资源请求：为容器配置合理的 requests 和 limits，防止资源过度分配导致成本上升。

12.开发与调试规范

12.1 开发环境模拟

Minikube 或 Kind：使用 Minikube、Kind 或 K3s 等轻量级工具在本地模拟 Kubernetes 集群，便于开发人员进行调试和验证。
多环境管理：使用 Helm 或 Kustomize 等工具在开发、测试和生产环境之间管理不同的配置和部署需求。

12.2 调试工具

Kubectl Debug：使用 kubectl debug 工具调试在集群中运行的容器，便于快速排查问题。确保 kubectl logs 和 kubectl exec 功能正常工作，便于监控和调试。
Pod 状态监控：使用 kubectl describe pod 和 kubectl get events 查看 Pod 的详细状态和最近的事件，帮助诊断启动失败或重启的原因。

12.3 日志和监控

中央化日志管理：将应用程序的日志输出到标准输出 (stdout) 和标准错误 (stderr)，并使用 Fluentd、Logstash 或 Elasticsearch 等工具收集、分析和查询日志。
日志级别控制：根据需要调整应用程序的日志级别，在开发阶段启用详细日志，在生产环境减少日志量以降低资源开销。

13.CI/CD 与自动化

13.1 GitOps 流程

GitOps 实践：将集群的配置和应用部署定义为代码，并通过 Git 仓库管理。利用工具（如 ArgoCD、Flux）实现 GitOps 流程，自动同步集群状态与代码仓库中定义的配置。
配置管理：通过 Helm、Kustomize 等工具管理 Kubernetes 配置文件，确保应用配置的可重现性和一致性。

13.2 CI/CD 管道

自动化部署：构建和发布应用时，使用 CI/CD 工具（如 Jenkins、GitLab CI）自动化执行构建、测试和部署任务。
构建优化：在 CI/CD 中使用 Docker 缓存、层级缓存等技术来优化镜像的构建速度和减少构建时间。

13.3 集成测试

在 CI 中集成测试：在 CI 管道中自动执行集成测试，确保每次提交都经过充分验证。可以使用 Kubernetes 测试框架（如 kube-test）模拟集群环境中的测试场景。

14.高可用与灾备

14.1多区域集群

多区域部署：为了提升应用的容灾能力，可以将 Kubernetes 集群部署在多个可用区或数据中心，通过云服务提供商的负载均衡器实现跨区域的流量分发和容灾。
跨集群容灾：使用工具（如 Velero）来备份和恢复 Kubernetes 集群状态和数据，确保在灾难发生时可以快速恢复集群。

14.2 定期备份

Etcd 数据备份：定期对 Kubernetes 的 etcd 数据库进行备份，确保集群配置和状态在发生错误或故障时可以恢复。
应用数据备份：对应用的持久化存储数据（如数据库、文件系统）定期备份，尤其是生产环境中的数据，确保数据的安全性。

14.3 服务自愈

监控 Pod 状态：使用 Kubernetes 的自动修复机制，如 Liveness 和 Readiness 探针，确保 Pod 处于健康状态。集成监控系统来自动重启或替换出错的容器。
横向扩展与恢复：通过 HorizontalPodAutoscaler 和 VerticalPodAutoscaler 来动态调整服务的副本数，确保负载突增时服务的稳定性和可用性。

15.性能调优

15.1 Pod 启动与重启优化

初始化容器 (InitContainers)：通过使用 InitContainers，确保主应用容器在所有前置条件满足后才启动。特别适用于需要在应用启动前执行数据准备或配置文件更新的场景。
启动探针 (Startup Probe)：对启动时间较长的应用，使用 Startup Probe 避免容器在初始化过程中被错误地认为失败，从而导致重启或终止。

15.2 资源隔离与 Cgroup 管理

Cgroups 调优：Kubernetes 使用 Cgroups 管理 CPU、内存等资源。通过适当的 Cgroup 配置，可以提高集群资源的利用率，避免容器间的资源竞争。对关键任务的容器可以设置更严格的资源隔离规则。
NUMA 优化：对于多核节点，特别是在使用高性能计算任务时，可以针对 Non-Uniform Memory Access (NUMA) 进行优化，通过为特定任务分配专用 CPU 和内存区域来提高性能。

15.3 垃圾回收与调度

镜像与日志垃圾回收：定期清理不再使用的容器镜像和日志，避免磁盘空间不足。可以配置 kubelet 来自动执行垃圾回收：

imageGCHighThresholdPercent: 85
imageGCLowThresholdPercent: 60
maxPerPodContainer: 2

15.4 调度优化

优先级和抢占：通过为 Pod 设置优先级 (PriorityClass)，在集群资源紧张时优先调度高优先级的 Pod。如果资源不足，Kubernetes 会中止低优先级的 Pod，释放资源供高优先级的 Pod 使用：

apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: high-priority
value: 1000000
globalDefault: false
description: "This priority class should be used for critical applications"

拓扑感知调度：通过拓扑感知调度（Topology-Aware Scheduling）实现更高效的资源分配，避免同一物理节点上的过载或资源竞争。

16.网络优化与多集群策略

16.1 服务网格增强

服务网格与链路追踪：引入 Istio、Linkerd 等服务网格工具，实现更精细的流量管理。结合链路追踪工具（如 Jaeger、Zipkin），可以对微服务的性能瓶颈进行深入分析。
动态流量管理：使用服务网格动态管理流量策略，进行负载平衡、熔断、重试等操作，确保服务在高负载和故障时的稳定性。

16.2 跨集群通信

多集群策略：在需要跨区域或跨集群的应用中，使用 Kubernetes Federation 或跨集群的网络插件（如 Cilium、Calico）进行统一的服务发现和网络管理，确保跨集群通信的高效性和安全性。

16.3 网络策略优化

粒度更细的 NetworkPolicy：在 NetworkPolicy 中定义具体的流量控制策略，限制 Pod 间的网络流量，以避免不必要的内部通信，减少安全风险。例如，只允许特定命名空间中的服务进行通信：

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: deny-all
  namespace: default
spec:
  podSelector: {}
  policyTypes:
  - Ingress
  ingress:
  - from:
    - namespaceSelector:
        matchLabels:
          environment: production

17.开发协作与工作流管理

17.1 Helm Chart 管理

模块化配置管理：使用 Helm 管理应用的 Kubernetes 配置，以模块化方式定义应用的各项参数，使不同环境（开发、测试、生产）的配置更易于管理和复用。
Helm 版本控制：在版本控制系统中管理 Helm Chart，确保每次部署的版本是可追踪和回滚的。

17.2 Kustomize 使用

环境差异化管理：利用 Kustomize 来管理不同环境下的 Kubernetes 配置，避免复杂的环境变量嵌入到应用代码中，通过分层次的 Overlay 模型管理不同的部署环境（如开发、测试、生产）。

17.3 开发流程优化

开发容器化：在开发环境中使用与生产一致的容器镜像，避免由于开发和生产环境的差异导致的问题。在 CI/CD 流程中，使用 Kubernetes 模拟生产环境进行自动化测试。

17.4 本地开发调试

Skaffold 使用：在本地开发时使用 Skaffold 自动同步代码变化并快速重建容器，减少开发人员与 Kubernetes 集群的交互成本。

18.自动扩展与弹性架构

18.1 基于事件的自动扩展

KEDA (Kubernetes Event-Driven Autoscaling)：使用 KEDA 处理事件驱动的扩展需求。例如，基于消息队列的任务负载，可以通过 KEDA 根据消息队列中的未处理任务数量自动扩展 Pod。
使用 HPA 和 VPA：水平 Pod 自动扩展（HPA）和垂直 Pod 自动扩展（VPA）可以根据 CPU、内存和自定义指标动态调整应用副本和资源请求。

18.2 自定义扩展指标

Prometheus Adapter：通过 Prometheus Adapter 定义自定义的扩展指标，将应用的业务指标（如请求数、数据库连接数）引入到 HPA 中，进行更精准的自动扩展决策。

19.服务发现与动态配置

19.1 外部服务发现

Consul 或 etcd 集成：对于跨集群或跨环境的服务发现需求，可以集成 Consul 或 etcd 等外部服务发现工具，与 Kubernetes 内部的 DNS 系统配合，解决跨集群的服务发现问题。

19.2 动态配置管理

ConfigMap 与 Secret 动态更新：确保应用可以检测并动态加载配置文件的变化。对于配置文件的更新，不需要重启 Pod，而是直接在运行时应用配置。可以使用 Volume Reload 或 Watch 机制来监控 ConfigMap 和 Secret 的变化。

20.高可用与灾备策略

20.1 分布式数据库与存储

多区域数据同步：对于有高可用需求的应用，建议使用支持多区域同步的分布式数据库（如 Cassandra、CockroachDB），避免单点故障影响业务连续性。
存储解决方案：选择合适的存储解决方案，避免过于依赖本地存储（如使用 NFS、Ceph、GlusterFS 等分布式存储），确保在节点失效时数据仍然可用。

20.2 服务弹性与故障隔离

优雅关闭：配置 preStop 钩子确保在应用关闭时可以完成未处理的请求，避免数据丢失或服务中断。
Pod 自愈能力：结合 liveness 和 readiness 探针配置自动修复机制，确保当服务发生异常时 Kubernetes 可以自动重新调度和修复。

20.3 多集群冗余

跨集群冗余架构：为了应对集群级别的故障，采用多集群冗余部署。在多云或混合云环境中，可以通过 Kubernetes Federation 或服务网格统一管理多个集群。

21.运营与管理规范

21.1 生命周期管理

节点池与资源分层管理：对于不同类型的工作负载（如计算密集型、I/O 密集型），可以使用不同的节点池来进行隔离，确保高效使用不同类型的资源。

21.2 滚动升级

无停机滚动升级：确保每次升级应用时，Pod 逐个进行滚动替换，避免服务中断。使用 readiness 探针确保每个新 Pod 在流量切换之前已完全启动和准备好。

21.3 版本控制与审计

资源清单的版本管理：通过 GitOps 或 Helm 管理 Kubernetes 资源清单文件，确保所有资源变更可以被追溯，并且支持快速回滚。

22.多租户与隔离策略

22.1 命名空间隔离

多租户隔离：为不同的应用或团队提供独立的命名空间，并通过 NetworkPolicy 实现网络隔离，确保各租户的资源使用互不干扰。

22.2 资源配额与限制

资源配额 (Resource Quotas)：为每个命名空间定义资源配额，限制租户能够使用的 CPU、内存和存储，防止某个租户过度占用资源，影响其他租户。

标签：服务,Kubernetes,规范,集群,确保,使用,Pod,k8s
From： https://www.cnblogs.com/lizexiong/p/18421039