首页 > 其他分享 >监控系统企业架构演进史-跨地域混合云

监控系统企业架构演进史-跨地域混合云

时间:2023-12-30 11:04:05浏览次数:34  
标签:架构 演进 系统 查询 监控 组件 Thanos 告警

原文出自:https://blog.mickeyzzc.tech/posts/opentelemetry/prometheus-evolution-history-two/

前情概述:

在《监控系统企业架构演进史-初入Prometheus》中,监控系统已经从单体架构升级到单IDC分布式架构了。 前一篇文章的内容是适用于虚拟机部署和容器部署的。Prometheus是云原生时代的产物,一般和Kubernetes配套使用,但是Prometheus本身也能在非Kubernetes取替传统监控如Zabbix使用的。 在该篇文章中,开始以Kubernetes的部署来升级整个监控系统架构,使之在跨地域混合云的业务场景中更具灵活性。

架构设计

跨地域的三层结构设计

设计三层区域结构,同时规范区域命名标签化来实现快速辨识服务的地域详细信息。 在第三层中的Cluster和VPC是同级,分别代表集群内或者某网段的隔离服务。

监控系统企业架构演进史-跨地域混合云_Prometheus

前端查询入口逻辑架构

Thanos Query实现前期的层级架构

利用Thanos内的GRPC通讯协议和聚合查询能力来实现递级数据汇聚到最上层Thanos Query组件,再聚合计算时间线结果集前端展示。

监控系统企业架构演进史-跨地域混合云_Prometheus_02

引入Thanos Query Frontend完成统一前端查询入口

Thanos Query Frontend组件有以下配置能力优化查询,需根据实际情况调整:

  • 时间线的纵向切割查询 比如查15天的数据,由于样本量的数据庞大,会在原始数据读取到内存时导致OOM问题。通过纵向切割比如把15天的聚合查询逻辑拆分成每6小时的聚合查询。 Thanos Query组件就会得到4 * 15个并发查询去完成样本查询并聚合成不同时间段的结果集再拼接展示,且每完成一个子查询聚合均及时释放内存高效优化了资源利用率。
  • 查询结果集缓存 通过对查询语句和时间周期的HASH KEY缓存结果集到内存或者Redis以重复利用,减轻上游压力。

监控系统企业架构演进史-跨地域混合云_Prometheus_03

利用Kubernetes赋予更具弹性的冗余能力

监控系统企业架构演进史-跨地域混合云_Prometheus_04

自研架构组件

在基于原生开源项目的基础架构下,已基本实现对跨地域混合云的能力。但是要做到企业日常管理还远远不够,需要完善管理架构和前台能力才称得上企业服务。

基础设计逻辑

为了让整个架构具备灵活性和通用性,分别设计了几个组件:

  • Self-research service discovery 用于对接第三方系统,比如CMDBCICD等收集业务系统和资产信息,并计算各个业务系统和基建关联关系,通过地域信息来调度资源信息同步给P-sidcar组件。
  • P-sidcar用于在边缘管理Prometheus,从 Self-research service discovery得到就近采集器的信息,以http_sd方式给Prometheus发现exporter采集的同时实现精细化label注入。
  • msg route agent 用于对接飞书、钉钉等通讯服务,同时从Conf/Rule Sync同步告警的责任人以实现高效的最后一公里定向信息推送。
  • A-sidcar 用于对Alertmanger集群的配置管理,并准实时同步抑制策略来对告警实现更精确的管理。
  • Conf/Rule Sync对接各个边缘组件。准实时同步状态信息和后台管理策略。

监控系统企业架构演进史-跨地域混合云_Prometheus_05

进阶扩展

底座设计尽量精而简,又不能失去灵活性。在此之上通过自研前台服务、中间件和边缘组件逐步丰富企业能力。

  • 服务发现组件主打和各种三方系统对接,不限于CMDB/CICD系统,还可以对接工单系统或作业系统。
  • 告警组件逐步升级为统一告警系统平台,和服务发现组件联动实现更高级的动态调度告警能力。
  • 配置同步组件和Grafana逐步融合成前台系统,集管理和展示一体。

监控系统企业架构演进史-跨地域混合云_Prometheus_06

整个系统的用户侧切面逻辑如下图

监控系统企业架构演进史-跨地域混合云_Prometheus_07

到这个阶段,平台已经具备一定的复杂性了,但是对用户而言需要简化他们的理解。

监控系统企业架构演进史-跨地域混合云_Prometheus_08

统一告警系统

基本上监控平台发展到一定阶段,告警风暴问题必然会开始困扰企业内部各个技术支撑部门。告警收敛治理就会优先提上日程。 这个时候,告警的组件就可以从一开始的只是告警定向推送能力逐步丰富周边能力了。

监控系统企业架构演进史-跨地域混合云_Prometheus_09

下期期待:《数据处理-高维度的思考》

标签:架构,演进,系统,查询,监控,组件,Thanos,告警
From: https://blog.51cto.com/mickeyzzc/9039403

相关文章

  • 性能集成监控系统exporter+Prometheus+Grafana
    Prometheus是一个时序数据库,存数据exporter是收集器,来收集被监控的数据,想要监控不同的内容,就使用不同的exporter,这个exporter应该放在被测服务器上,再把exporter和Prometheus进行关联。一、环境搭建参考文档 https://blog.csdn.net/xiaoyu_0829/article/details/123253186P......
  • 大厂性能测试监控指标及分析调优指南
    一、哪些因素会成为系统的瓶颈CPU:如果存在大量的计算,他们会长时间不间断的占用CPU资源,导致其他资源无法争夺到CPU而响应缓慢,从而带来系统性能问题,例如频繁的FullGC,以及多线程造成的上下文频繁的切换,都会导致CPU繁忙,一般情况下CPU使用率<75%比较合适。内存:Java内存一般是通过jvm......
  • 冠赢互娱基于 OpenKrusieGame 实现游戏云原生架构升级
    作者:力铭关于冠赢互娱冠赢互娱是一家集手游、网游、VR游戏等研发、发行于一体的游戏公司,旗下官方正版授权的传奇类手游——《仙境传奇》系列深受广大玩家们的喜爱。基于多年MMORPG类型游戏的自研与运营经验,冠赢互娱正式推出了2DMMO游戏开发引擎Thousand,并成功应用至近期上线......
  • 冠赢互娱基于 OpenKrusieGame 实现游戏云原生架构升级
    作者:力铭关于冠赢互娱冠赢互娱是一家集手游、网游、VR游戏等研发、发行于一体的游戏公司,旗下官方正版授权的传奇类手游——《仙境传奇》系列深受广大玩家们的喜爱。基于多年MMORPG类型游戏的自研与运营经验,冠赢互娱正式推出了2DMMO游戏开发引擎Thousand,并成功应用至近期......
  • GB28181监控系统LiteCVR视频监控技术在农业种植园中的应用
    随着科技的进步,LiteCVR视频监控技术已经成为农业现代化不可或缺的一部分。在农业种植园中,这种技术的应用为农业生产带来了诸多便利。首先,LiteCVR视频监控技术为种植园提供了24小时的实时监控。无论是白天还是夜晚,管理人员都可以通过视频监控系统随时了解种植园的情况,掌握作物的生......
  • 浅谈居民小区配电房动力环境监控系统研究与应用
    安科瑞张田田摘要:智配电站动力环境监控系统通过构建三级监控网络,基于TCP/IP网络协议作为通讯构架,组建IP网络与监控中心进行传输。实现对配电站房的远程监控管理。同时采用了集中式管理模式,快速实现区域内配电站房的有效覆盖,为用户提供配电站所的配变电压、电流、有功功率、无功......
  • 智能分析网关V4+太阳能供电模式,搭建鱼塘养殖远程视频监控方案
    一、行业背景传统的鱼塘养殖模式由于养殖区域面积大、管理难度高,经常会出现偷钓者、盗窃鱼苗、非法入侵等监管难题,给养殖户带来了不小的经济损失。为了解决这些问题,搭建鱼塘远程监控系统成为了必要之举。通过远程监控系统,管理人员可以实时掌握鱼塘的各项数据和情况,及时发现并解决......
  • 在SpringBoot中自定义指标并使用Prometheus监控报警
    公众号「架构成长指南」,专注于生产实践、云原生、分布式系统、大数据技术分享在10分钟教你使用Prometheus监控SpringBoot工程中介绍了如何使用Prometheus监控SpringBoot提供的默认指标,这篇介绍如何自定义业务指标,并使用Prometheus进行监控并报警,同时在Grafana进行展现示例......
  • 在k8s中快速搭建基于Prometheus监控系统
    公众号「架构成长指南」,专注于生产实践、云原生、分布式系统、大数据技术分享前言K8s本身不包含内置的监控工具,所以市场上有不少这样监控工具来填补这一空白,但是没有一个监控工具有prometheus全家桶使用率高,因为它由CNCF维护,已经成为了监控k8s集群的事实上的行业标准,下面介......
  • 【年度盘点】监控告警复盘要点总结
    转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。前言监控告警是业务稳定性建设非常重要的一环,告警项的配置、告警阈值的设置、告警信息的发送和响应,都影响着业务稳定性。随着系统版本迭代,监控告警工具的变更,人员的变动等诸多因素......