首页 > 其他分享 >华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台

时间:2023-12-29 11:03:32浏览次数:33  
标签:维度 运维 诊断 华为 集群 CCE 健康

本文分享自华为云社区《新一代云原生可观测平台之华为云CCE集群健康中心》,作者:云容器大未来。

"Kubernetes运维确实复杂,这不仅需要深入理解各种概念、原理和最佳实践,还需要对集群的健康状态、资源利用率、容器的稳定性等多个方面进行风险评估。当集群出现故障时,我们通常需要花费大量时间来分析各种日志和监控信息,以找出问题的根本原因。"一位IT公司运维总监如此说道。

近年来,越来越多的公司转向了基于Kubernetes的云原生架构。随着微服务和云原生架构的变得越来越复杂,我们也收到不少客户反馈在生产中进行监控和故障排除变得越来越困难。虽然CCE云原生可观测平台提供了监控、告警、日志等功能,能够让用户更加方便的定位问题,但是同样也无形中提高了运维人员的技术门槛。为了让运维和开发人员能够从繁重的故障定位排查中解脱出来,CCE服务提供了集群健康诊断能力。

CCE集群健康诊断集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出对应的修复建议供您参考。

▎开箱即用:免开通零依赖,一键健康诊断

集群健康诊断功能作为CCE内置健康专家系统,可以在不依赖任何插件和其他服务的情况下独立运行。用户无需繁琐的开通与配置流程,就可以一键触发集群健康诊断。

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台_最佳实践

图1 一键健康诊断

▎定时巡检:无人值守,持续守护集群健康

在主动运维场景,比如集群升级前后或业务重保期间,用户可随时主动触发健康诊断来保障业务的顺利运行。另一方面,在日常运维中,我们无法一直盯屏保障,为了将客户从这种低级的劳动中解放出来,健康诊断支持定时巡检功能,只需要简单的配置定时任务,健康诊断任务就可以在后台守护您的集群健康,并将检查结果定时存档,方便随时回溯复盘。

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台_最佳实践_02

图2 健康检查结果

▎多维诊断:丰富的诊断项,集群全方位体检

CCE集群健康诊断提炼了运维专家提供的高频故障案例,覆盖了集群/核心插件/节点/工作负载/外部依赖等多种维度的健康检查,并且所有的诊断项都给出了风险评级、影响风险、以及修复建议。

  • 集群维度:包括集群运维能力检查,安全组配置检查,集群资源规划检查等诊断项。

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台_云原生_03

图3 集群维度诊断项

  • 核心插件维度:覆盖监控、日志、coredns、存储等核心插件的健康检查。

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台_Pod_04

图4 核心插件维度诊断项

  • 节点维度:包括节点资源负载情况和节点状态诊断。

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台_云原生_05

图5 节点维度诊断项

  • 工作负载维度:包括工作负载配置检查,Pod资源负载检查,Pod状态诊断等。

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台_运维_06

图6 工作负载维度诊断项

  • 外部依赖维度:主要包括ECS和云硬盘等资源配额检查。

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台_最佳实践_07

图7 外部依赖维度诊断项

▎智能分析:智能健康评级,专业修复建议

CCE集群健康诊断会针对故障和潜在风险,给出风险等级并提供修复建议。风险等级按照紧急程度分为高风险和低风险两种:

  • 高风险:说明该诊断项会危及到集群或应用稳定性,可能造成业务损失,需要尽快修复。
  • 低风险:说明该诊断项不符合云原生最佳实践,存在潜在的风险,但是不会马上对业务造成重大影响,建议修复。

在每一次健康诊断完成之后,所有的诊断结果会被汇总分析,并给出最终的集群健康评分,该评分反映了集群的整体健康状况。健康评分较低的集群往往存在较大的故障风险,需要引起集群管理员的高度重视。

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台_最佳实践_08

图8 健康风险等级评估

▎案例分析:一次安全组误操作导致的业务故障

CCE作为通用的容器平台,安全组规则的设置适用于通用场景。集群在创建时将会自动为Master节点和Node节点分别创建一个安全组。如果用户不小心误操作了默认安全组中的规则,可能会导致节点网络不通等问题,而且这种问题往往比较难以排除,需要花费较多的时间才能定位到安全组的原因,影响业务恢复速度。这种情况我们可以通过健康中心的巡检功能来进行故障诊断。

例如修改一个集群的默认安全组规则,将Master与Node通信规则,从允许改为拒绝。

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台_Pod_09

图9 修改安全组规则

以上操作会导致集群部分功能异常,如网络不通出现无法执行kubectl命令的问题。

这种问题往往难以排查,会消耗用户大量的时间来寻找根因。此时如果用户在CCE健康中心执行一次健康巡检,会发现安全组高风险巡检项提示:

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台_云原生_10

图10 安全组异常提示

通过诊断详情可以直接定位异常安全组,便于进行针对性修复:

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台_运维_11

图11 定位异常安全组

整个故障诊断流程方便快捷,可以大幅减低故障排查时间,帮助客户业务更稳定的运行在CCE集群上。

▎结语

CCE集群健康诊断功能,集成沉淀了大量的专家运维经验,目标是为客户提供更加智能、快捷的运维能力。当前该能力依然在快速迭代,后续我们会增加巡检结果通知、风险评估阈值调整以及更丰富的诊断项等能力,为大家带来更智能、更可靠稳定的云原生系统。

服务体验请访问

点击关注,第一时间了解华为云新鲜技术~

标签:维度,运维,诊断,华为,集群,CCE,健康
From: https://blog.51cto.com/u_15214399/9024564

相关文章

  • 运维基础
    课程目标1了解Linux下常见的软件包分类掌握rpm如何获取掌握rpm包的安装思考:Linux软件包有哪些类型?如何获取rpm包?如何选择rpm包?一、软件包的类型二进制包:已编译好,直接安装xlockmore-5.31-2.el6.x86_64.rpm二进制源码包(半成品):xxx.src.rpm-->rpm|......
  • 华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台
    本文分享自华为云社区《新一代云原生可观测平台之华为云CCE集群健康中心》,作者:云容器大未来。"Kubernetes运维确实复杂,这不仅需要深入理解各种概念、原理和最佳实践,还需要对集群的健康状态、资源利用率、容器的稳定性等多个方面进行风险评估。当集群出现故障时,我们通常需要花费大......
  • openGauss学习笔记-176 openGauss 数据库运维-实例主备切换
    openGauss学习笔记-176openGauss数据库运维-实例主备切换176.1操作场景openGauss在运行过程中,数据库管理员可能需要手工对数据库节点做主备切换。例如发现数据库节点主备failover后需要恢复原有的主备角色,或怀疑硬件故障需要手动进行主备切换。级联备机不能直接转换为主机,只能......
  • 重磅发布|博睿数据2023年度精选案例集—— IT运维之光
    当前,数字经济已经成为全球经济增长的重要引擎。随着新技术的飞速发展,企业数字化转型机遇不断涌现,而稳定、安全、可靠的IT运维环境是实现数字化转型的关键。在此背景下,AIOps智能运维正成为企业高效管控种类繁多数量庞大的物理设备、精准定位故障信息、实时防护网络攻击、快速迭代需......
  • Databend 部署与运维概要:本地部署 Meta 服务并利用 Kubernetes 管理 Query 服务
    本指南旨在介绍如何部署和运维Databend,并且采用结合本地部署Meta服务和使用K8s管理Query服务的形式,以平衡元数据管理持久化和计算资源弹性调度的需求。由于Databend的部署逻辑在单机模式和集群模式下的一致性,部署模式可以从单机轻松拓展到多节点集群,所以本指南中只基于......
  • 海康华为大华宇视等摄像头以及各种直播流地址(RTSP/RTMP/FLV/HLS等)通过LiveNVR转成标准
    @目录1、背景说明2、通道配置2.1、直播流地址配置2.2、配置RTSP接入2.3、配置Onvif接入2.4、配置SDK接入2.4.1、海康SDK接入2.4.2、大华SDK接入2.4.3、天地伟业SDK接入2.5、配置拉转视频文件2.6、海康ISUP接入2.6.1、海康ISUP接入配置2.6.2、海康设备接入2.6.2.1、海康EHOME接......
  • 运维和编程语言
    1.脚本注释,脚本开发规范1.1.在shell脚本中,#后面的内容代表注释掉的内容,提供给开发者或使用者观看,系统会忽略此行1.2.注释可以单独写一行,也可以跟在命令后面1.3.尽量保持爱写注释的习惯,便于以后回顾代码的含义,尽量使用英文,而非中文 2.执行shell脚本的方式:2......
  • 如何在华为云欧拉系统 ECS 实例新建私有 REPO 源并制作安全 RPM 包
    写在前面工作中遇到,简单整理博文内容为华为云开发者认证实验笔记理解不足小伙伴帮忙指正对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的,是人的逃避方式,是对大众理想的懦弱回归,是随波逐流,是对内心的恐惧——赫尔曼·......
  • 【干货】Linux运维人员必备的实用工具!
    对于Linux运维人员来讲,工具是必不可少的,因为一款好的工具不仅可以保证服务器正常运行,还可以帮助我们排除故障,那么Linux运维人员必备的实用工具有哪些?本文为大家详细介绍一下。1、Nethogs:查询进程占用带宽情况Nethogs是一个终端下的网络流量监控工具,它的特别之处在于可......
  • SLA阿里云,腾讯云,华为云服务测量指标
    SLA的由来在云计算时代,越来越多企业的服务迁移到云上,各大云服务厂商有自己服务发布的SLA,SLA是服务提供商与客户之间定义的正式承诺。我们使用云服务提供商为我们提供的APP或者网站,如果出现购物无法下单、看视频打不开类似的问题,会严重影响用户体验。如果故障持续的时间比较久,那......