本文分享自华为云社区《新一代云原生可观测平台之CCE服务监控篇》,作者: 云容器大未来。
在云原生容器化浪潮的当下,监控是确保业务稳定性最受关注的问题之一。那么,华为云CCE容器服务又是如何帮助用户提高运维效率呢?
半年来,CCE容器服务的运维团队持续拜访用户,并总结用户在云原生运维场景下的痛点问题,主要有以下三大痛点问题:
- 搭建云原生集群监控系统涉及的配置项多,包括集群自身的组件、资源的监控、业务组件的监控等,技术门槛较高。
- 云原生场景下的监控指标涵盖五大类,近数十万项,同时不同类型指标之间相互关联,传统监控难以将这些信息可视化。
- Promtheus已成为业界云原生监控的事实标准。但开源方案在商用场景下仍存在一些非功能性问题,尤其是海量监控指标带来的高资源消耗,导致成本显著增加。
图1 云原生运维的痛点问题
基于上述几个痛点,CCE联合AOM服务团队从开箱即用:一键启用容器监控能力、全景观测:多维度全场景监控视图、开源增强:兼容开源Promtheus,全方位能力提升等维度共同打造新一代云原生监控平台,为用户提供更加方便快捷的运维手段。
开箱即用:一键启用容器监控能力
为了方便用户快速触达监控中心,我们对开启监控中心的步骤进行了极致的简化,并将AOM服务上的监控信息整合到CCE的监控中心。现在,只需前往监控中心一键开启,即可在集群监控中心中查看容器基础资源、Kubernetes资源对象和Kubernetes服务组件的监控指标。
图2 创建集群时开通监控中心
图3 监控中心一键开通
全景观测:多维度全场景监控视图
CCE监控中心提供集群内涵盖基础资源、K8s资源对象、K8s服务组件、K8s集群Node、云原生上层业务等五大类,总计近数十万项指标的全景可观测能力,致力打造一站式运维的极致体验。
集群健康总览:监控中心首页会呈现整个集群中关键的控制面组件信息、资源占用最高的组件等,能让您对集群的健康情况一目了然。图4 集群健康总览
资源健康总览:监控中心提供了节点、工作负载、POD等Kubernetes资源的独立监控页面。资源监控页面中提供资源的基本监控信息,并且能够纵览对应的资源概况,快速发现异常对象。图5 资源健康总览
关联资源一屏可见:在监控中心中,在资源监控详情页中能看到关联资源的监控详情,并且可以方便的进行跳转查看(如在看节点监控时可以下钻至节点上的Pod,查看Pod的监控)。图6 资源监控详情页
监控大盘:监控中心中提供了丰富的监控大盘,从集群、Node、控制组件等不同的视角呈现集群的健康状态。图7 监控中心仪表盘
开源增强:兼容开源Promtheus,全方位能力提升
Prometheus是CNCF社区推荐的云原生监控方案,也是业界云原生监控的事实标准,它的服务发现、时序数据等能力能够很好地解决云原生场景下多变、海量数据的问题。同时,Prometheus也是用户使用最多的监控工具。
为了更好地符合用户的使用习惯,降低学习成本,CCE提供基于Prometheus开源生态能力的监控组件,兼容Prometheus的开源配置,同时在开源能力基础上对安全、性能、安装部署等方面做了商用增强。
在安全上,使用防护能力更强的华为自研的加密算法,对Prometheus使用的敏感信息进行加密;在性能上,一方面对监控指标进行分层管理,满足不同类型用户的监控诉求,另一方面,降低本地存储数据的时效,有效地降低了用户的资源消耗;在安装部署上,需要用户配置的参数由30+优化至0配置一键安装。
除此之外,针对Prometheus在海量数据下资源消耗巨大的问题,我们还提供了托管Prometheus+轻量化采集Agent的解决方案,用户侧仅需要负担轻量化采集Agent的资源即可支持海量指标监控,同时大大降低了用户的运维复杂度。
对比维度 |
开源Prometheus |
CCE监控套件 |
---|---|---|
安全性 |
认证信息使用base64加密,安全防护弱 |
认证信息使用华为云自研算法加密,安全防护强 |
资源消耗 |
200节点消耗256G内存 |
200节点消耗8G内存 |
安装部署 |
需要准备30+的yaml部署文件 |
页面一键安装,无需配置 |
指标管理 |
指标管理需要后台找到对应的采集任务(CRD)进行配置 |
监控指标支持通过界面分层管理,基础指标默认启用,高级指标灵活配置(即将上线) |
我们非常期待本期带来的监控中心能力能够有效地提升您的运维体验,同时我们也会对监控中心进行持续的优化。期待您的使用以及宝贵的改进意见。
后续我们还会有其他运维特性的介绍,如告警中心,健康诊断、日志中心等,敬请期待。
服务体验请访问
相关链接
- https://support.huaweicloud.com/bulletin-cce/cce_bulletin_0066.html
- https://bbs.huaweicloud.com/blogs/413722