首页 > 其他分享 >如何从自建开源 Prometheus 迁移到阿里云托管 Prometheus 服务

如何从自建开源 Prometheus 迁移到阿里云托管 Prometheus 服务

时间:2024-07-26 18:17:22浏览次数:18  
标签:https 自建 开源 Prometheus 阿里 监控 prometheus

作者:颍川

引言

Prometheus [ 1] 已成为可观测指标领域的事实标准。由于各方面因素,当前还有部分用户的部分场景仍使用“自建开源 Prometheus+自建开源 Thanos+自建 Grafana”来实现基础设施和业务应用的指标监控和告警。阿里云可观测监控 Prometheus 版 [ 2] 全面对接开源 Prometheus 生态,支持类型丰富的组件观测,提供高性能、高可用、高扩展、低成本、易维护的指标可观察能力。为了便于用户从自建开源 Prometheus 迁移到阿里云 Prometheus,本文讨论在各个典型场景下的迁移方案。

自建开源 Prometheus + Thanos 的典型部署场景

图片

目前典型自建开源 Prometheus+Thanos 的部署场景包括:

  • Kubernetes 集群内安装开源 Prometheus:
    • 阿里云容器服务集群内安装。
    • 其他云厂商的容器服务集群内安装。
    • 自建 IDC 内的自建 Kubernetes 集群内安装。
  • 非 Kubernetes 集群上安装开源 Prometheus:
    • 阿里云 ECS 上安装。
    • 其他云厂商的 ECS 上安装。
    • 自建 IDC 内的 VM 上安装。

为了满足长期监控需求,通常用户在自建开源 Prometheus 的基础上,都会再部署一套或多套自建 Thanos,将多个自建开源 Prometheus 数据集中、长期存储。

自建开源 Prometheus+Thanos 的痛点

对于自建开源 Prometheus+Thanos,企业通常面临如下主要问题:

  • 业务系统使用到的各种组件,需要自行安装 exporter、配置大盘和告警规则,工作量大,且通常开源 Grafana 大盘和告警规则不够专业,缺少结合观测组件的原理和最佳实践进行深入优化后的大盘和告警规则。
  • 由于企业部门或业务系统不同,需要在不同的容器集群或 VPC 内,安装多套自建开源 Prometheus,导致部署成本高、运维复杂等。
  • 对于容器集群或 ECS 规模较大时,自建开源 Prometheus 无法承载大流量的指标处理。
  • 引入自建 Thanos 进行集中、长周期存储后,增加了整个指标可观察体系复杂性。同时由于存在非 Kubernetes 场景,需要 Thanos Receiver 支持,导致整个 Thanos 部署和运维较复杂,成本高。

阿里云可观测监控 Prometheus 版的能力框架

阿里云可观测监控 Prometheus 版是一款全面对接开源 Prometheus 生态,支持类型丰富的组件观测,提供多种开箱即用的预置观测大盘,且提供全托管的混合云/多云 Prometheus 服务。除了支持阿里云容器服务、自建 Kubernetes、Remote Write 外,阿里云可观测监控 Prometheus 版还提供混合云+多云 ECS 应用的 metric 观测能力;并且支持多实例聚合观测能力,实现 Prometheus 指标的统一查询,统一 Grafana 数据源和统一告警。

图片

自建开源 Prometheus 与阿里云可观测监控 Prometheus 版对比

图片

自建开源 Prometheus 迁移到阿里云可观测监控 Prometheus 版 技术方案

从自建开源 Prometheus 迁移到阿里云可观测监控 Prometheus 版包含指标采集、可视化分析、告警配置等三个阶段步骤,下面分别对这三个阶段在不同自建 Prometheus 部署场景下的方案进行讨论。

步骤一:指标采集迁移

指标采集是指 Prometheus 根据采集 Job 配置,定时从目标监控组件或其对应的 Exporter 拉取和保存指标数据。

阿里云容器服务场景:容器集群监控 [ 4]

图片

迁移要求

  • 阿里云 Prometheus 配置、验证完,需要 n 天(现有自建开源 Prometheus 数据保存天数)后,才能完成迁移,以便阿里云 Prometheus 采集到完整监控数据。

迁移步骤

  • 在阿里云 Prometheus 控制台的“接入中心 [ 5] ”,选择“容器集群监控”接入,完成“容器环境”实例创建。

图片

  • 在阿里云 Prometheus 控制台的“接入管理 [ 6] ”,配置容器集群内各个监控组件的接入 [ 7] ,以便阿里云 Prometheus 生成采集 Job、抓取监控数据、生成默认大盘和默认告警规则。

图片

  • 【可选】对于用户自定义的采集任务(ServiceMonitor、PodMonitor 和自定义 Job),可在“接入管理”的对应环境实例进行自定义采集规则配置 [ 8]

图片

  • 验证阿里云 Prometheus 上容器集群的容器集群大盘和各组件的默认大盘是否正常。

图片

自建 Kubernetes 场景:容器集群监控

图片

此场景与“自建 Kubernetes 场景:容器集群监控”一样,只是需要先将自建 Kubernets 集群注册为阿里云容器服务的“注册集群 [9 ] ”即可。

阿里云 ECS 场景:ECS 监控 [ 10]

图片

迁移要求

  • 阿里云 Prometheus 配置、验证完,需要 n 天(现有自建开源 Prometheus 数据保存天数)后,才能完成迁移,以便阿里云 Prometheus 采集到完整监控数据。

迁移步骤

  • 在阿里云 Prometheus 控制台的“接入中心”,选择“主机监控”,并按界面向导接入后,创建出“ECS 环境”实例,同时部署 ECS 主机监控的 Exporter 和采集配置。

图片

  • 在阿里云 Prometheus 控制台的“接入管理”,配置 VPC 内各个要监控组件的接入,以便阿里云 Prometheus 生成采集 Job、抓取监控数据、生成默认大盘和默认告警规则。
  • 【可选】对于用户自定义的采集任务,可在“接入管理”的对应环境实例进行自定义采集规则配置。
  • 验证阿里云 Prometheus 上各组件的默认大盘是否正常。

自建 IDC 场景:ECS 监控

图片

迁移要求

  • 阿里云 Prometheus 配置、验证完,需要 n 天(现有自建开源 Prometheus 数据保存天数)后,才能完成迁移,以便阿里云 Prometheus 采集到完整监控数据。
  • 需要将自建 IDC 通过 VPC 专线等 [ 11] 方式与用户的某个阿里云 VPC 打通。
  • 需要用户自行在自建 IDC 的各个 VM 上安装 Node/Process Exporter。

迁移步骤

  • 在阿里云 Prometheus 控制台的“接入中心”,选择“主机监控(自助安装+IP 域选择)”,并按界面向导接入后,创建出“ECS 环境”实例,同时生成主机监控的采集配置。
  • 在阿里云Prometheus控制台的“接入管理”,配置 VPC 内各个要监控组件的接入,以便阿里云 Prometheus 生成采集 Job、抓取监控数据、生成默认大盘和默认告警规则。
  • 【可选】对于用户自定义的采集任务,可在“接入管理”的对应环境实例进行自定义采集规则配置。
  • 验证阿里云 Prometheus 上各组件的默认大盘是否正常。

通用 RemoteWrite 场景:通用实例

图片

迁移要求

  • 阿里云 Prometheus 配置、验证完,需要 n 天(现有自建开源 Prometheus 数据保存天数)后,才能完成迁移,以便阿里云 Prometheus 采集到完整数据。

迁移步骤

  • 在阿里云 Prometheus 控制台的“实例列表 [ 12] ”,点击“新建 Prometheus 实例”,选择“通用实例”后创建出实例。

图片

  • 修改自建开源 Prometheus 配置,将监控数据 Remote Write 到阿里云 Prometheus [ 13]
  • 在阿里云 Prometheus 控制台的“指标中心 [ 14] ”,查询并验证自建开源 Prometheus Remote Write 上来的指标数据。

步骤二:可视化分析迁移

在上述指标采集迁移过程中,涉及到的容器集群和各个常用组件(如 Mysql、Redis 等),阿里云 Prometheus 都已内置默认的、专业的、开箱即用的大盘。

  • 对于容器/Kubernetes 和 ECS 监控场景:
    • 在阿里云 Prometheus 控制台的“接入管理”的“大盘查询 [ 15] ”界面,即可查看各组件的默认大盘。
    • 对于用户的自定义大盘,需要用户新建专家版 Grafana [ 16] ,然后自建 Grafana 迁移 [ 17] 或导入指定大盘 [ 18] 即可。

图片

  • 对于 RemoteWrite 场景的通用实例:用户继续使用已有的自建 Grafana,只需要将 grafana 的数据源改为阿里云 Prometheus 对应实例数据源 [19 ] 即可。
  • 对于期望将多个容器/Kubernetes/ECS/IDC 的监控数据进行聚合展示的场景,使用阿里云 Prometheus 的全局聚合实例 [ 20] 能力即可轻松实现。

图片

图片

步骤三:告警配置迁移

与可视化分析迁移一样,在指标采集迁移过程中,涉及到的容器集群和各个常用组件(如 Mysql、Redis 等),阿里云 Prometheus 也已创建了专业的、开箱即用的告警规则。

  • 对于容器/Kubernetes 和 ECS 接入场景,在阿里云 Prometheus 控制台的“接入管理”的“已接入组件”界面,点击对应组件的“告警列表”即可查看该组件默认生成的告警规则。

图片

  • 对于用户自定义告警规则,可在阿里云 Prometheus 控制台的“Prometheus 监控”的“Prometheus 告警规则 [ 21] ”菜单创建和管理,或通过“Prometheus 告警规则模板 [ 22] ”导入已有的 Prometheus 告警规则。

图片

  • 对于期望将多个容器/Kubernetes/ECS/IDC 的监控数据进行聚合告警的场景,使用阿里云 Prometheus 的全局聚合实例能力即可方便快捷地实现。

图片

关于阿里云可观测监控 Prometheus 版

阿里云可观测监控 Prometheus 版是基于云原生可观测事实标准 - Prometheus 开源项目构建的全托管观测服务。默认集成常见云服务,兼容主流开源组件,全面覆盖业务观测/应用层观测/中间件观测/系统层观测。通过开箱即用的 Grafana 看板与智能告警功能,全面优化探针性能与系统可用性,帮助企业快速搭建一站式指标可观测体系。帮助业务快速发现和定位问题,减轻故障给业务带来的影响,并免去系统搭建与日常维护工作量,有效提升运维观测效率。

与此同时,阿里云可观测监控 Prometheus 作为阿里云可观测套件的重要组成部分,与 Grafana 服务、链路追踪服务,形成指标存储分析、链路存储分析、异构构数据源集成的可观测数据层,同时通过标准的 PromQL 和 SQL,提供数据大盘展示,告警和数据探索能力。为 IT 成本管理、企业风险治理、智能运维、业务连续性保障等不同场景赋予数据价值,让可观测数据真正做到不止于观测。

图片

点击此处立即开通阿里云可观测监控 Prometheus 版,领取每月 50GB 免费额度试用!加入钉钉群(群号:34590319)获得在线技术支持。

相关链接:

[1] Prometheus

https://prometheus.io/

[2] 阿里云可观测监控 Prometheus 版

https://help.aliyun.com/zh/prometheus/product-overview/product-introduction/

[3] 全局聚合实例

https://help.aliyun.com/zh/prometheus/use-cases/unified-multi-account-monitoring-based-on-prometheus-global-aggregation-instance

[4] 容器集群监控

https://help.aliyun.com/zh/prometheus/container-observable

[5] 接入中心

https://arms.console.aliyun.com/?#/intgr/integrations

[6] 接入管理

https://arms.console.aliyun.com/#/intgr/integration-management

[7] 监控组件的接入

https://help.aliyun.com/zh/prometheus/user-guide/access-component-management

[8] 自定义采集规则配置

https://help.aliyun.com/zh/prometheus/user-guide/manage-container-environments-custom-collection-rules/

[9] 注册集群

https://help.aliyun.com/zh/prometheus/use-cases/use-registered-kubernetes-clusters-to-implement-multi-cloud-kubernetes-cluster-monitoring

[10] ECS 监控

https://help.aliyun.com/zh/prometheus/host-observable

[11] VPC 专线等

https://help.aliyun.com/zh/vpc/user-guide/connect-a-data-center-to-a-vpc

[12] 实例列表

https://help.aliyun.com/zh/prometheus/user-guide/instance-management

[13] Remote Write 到阿里云 Prometheus

https://help.aliyun.com/zh/prometheus/user-guide/write-open-source-prometheus-data-to-an-alibaba-cloud-prometheus-instance-through-a-remote-write-address

[14] 指标中心

https://help.aliyun.com/zh/prometheus/user-guide/metrics-center/

[15] 大盘查询

https://help.aliyun.com/zh/prometheus/user-guide/search-out-of-the-box-with-a-large-tray

[16] 新建专家版 Grafana

https://help.aliyun.com/zh/arms/observable-visualization-grafana-edition/manage-workspaces

[17] 自建 Grafana 迁移

https://help.aliyun.com/zh/arms/observable-visualization-grafana-edition/migrate-self-managed-grafana

[18] 导入指定大盘

https://help.aliyun.com/zh/arms/observable-visualization-grafana-edition/how-to-export-and-import-the-grafana-dashboard

[19] 阿里云 Prometheus 对应实例数据源

https://help.aliyun.com/zh/prometheus/user-guide/data-query-and-grafana-data-source-settings

[20] 全局聚合实例

https://help.aliyun.com/zh/prometheus/use-cases/use-prometheusrule-to-create-prometheus-alert-rules

[21] Prometheus 告警规则

https://help.aliyun.com/zh/prometheus/user-guide/create-an-alert-rule-for-a-prometheus-instance

[22] Prometheus 告警规则模板

https://help.aliyun.com/zh/prometheus/use-cases/use-prometheusrule-to-create-prometheus-alert-rules

标签:https,自建,开源,Prometheus,阿里,监控,prometheus
From: https://www.cnblogs.com/alisystemsoftware/p/18325991

相关文章

  • k8s集群部署prometheus
    目录一、Prometheus简介1.1、前言1.2、prometheus架构1.3、prometheus时间序列数据1.3.1、什么是序列数据?1.3.2、时间序列数据特点1.3.3、Promethues适合场景二、部署配置2.1、Prometheus部署2.1.1、创建命名空间2.1.2、创建RBAC规则2.1.3、创建ConfigMap类型的Prometheus配置文件......
  • Telegram纸飞机统计机器人源码,TG群记账群发机器源码人,TG自动记账全开源版本
    Telegram纸飞机统计机器人源码,TG群记账群发机器源码人,TG自动记账全开源版本一.thinkphp6框架开发按thinkphp6部署+伪静态+php7.4数据库连接信息在config文件夹database.php文件修改后台账号:admin密码123321.(有个小数点)二.机器人部署1.去tg官方申请机器人获取到token......
  • Linux 安装 ZenTao(禅道开源版)项目管理系统
    ZenTao(禅道)是一款优秀的开源项目管理软件,适用于各种规模的团队。本教程将指导您在Linux系统上安装ZenTao开源版。1.系统要求Linux操作系统(本教程以Ubuntu为例)root权限或sudo权限稳定的网络连接2.安装步骤2.1进入安装目录首先,进入 ​​/opt​​ 目录:cd......
  • 助力数字化运营,实现智能化升级的智慧交通开源了。
    智慧交通视觉监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。通过人流密集检测和区域逗留统计,商场管理者可以了解不......
  • 开源项目tiny11builder对Windows11进行精简
    由于采用的是Powershell脚本,系统默认的策略是阻止运行的,需要以管理员身份运行Powershell后,输入以下命令:1Set-ExecutionPolicyunrestricted将「tiny11builder」解压,在文件“tiny11maker.ps1”上鼠标右键→使用PowerShell运行。   提前下载好官方原版W......
  • 【开源所有代码-全在线智能音箱】树莓派智能音箱,自定义唤醒词,大模型LLM GPT对话
    安装sounddevicepipinstallsounddevice安装portAudiosudoapt-getinstalllibportaudio2sudoapt-getinstalllibasound-devsudoapt-getinstallportaudio.devsudoapt-getinstallpython3-pyaudiopipinstallpyaudio安装wavepipinstallwave......
  • 白鲸开源CEO郭炜荣获「2024中国数智化转型升级先锋人物」称号
    2024年7月24日,由数据猿主办,IDC协办,新华社中国经济信息社、上海大数据联盟、上海市数商协会、上海超级计算中心作为支持单位,举办“数智新质·力拓未来2024企业数智化转型升级发展论坛——暨AI大模型趋势论坛”数据猿“年中·特别策划季——数智化转型升级”主题策划活动。在这场......
  • 基于.NET开源、强大易用的短链生成及监控系统
    前言今天大姚给大家分享一个基于.NET开源(MITLicense)、免费、强大易用的短链生成及监控系统:SuperShortLink。项目介绍SuperShortLink是一个基于.NET开源(MITLicense)、免费、强大易用的短链生成及监控系统,包含了短URL的生成、短URL跳转长URL、短URL访问统计以及Web后台监控页面,......
  • 企业级开源自定义表单优点多吗?好用吗?
    当前,应用专业的低代码技术平台能实现降本、增效、提质的目的。什么样的服务商能提供低代码技术平台?可以了解流辰信息企业级开源自定义表单的主要优势特点。它操作起来更灵活、更可靠、维护也方便、可视化操作界面,是很多中大型企业实现流程化办公的理想表单。欢迎随时来了解企业级......
  • Prometheus之数据类型和函数
    前言:在了解Prometheus数据类型前,我们先了解下面几个统计学名词概念:平均数(Mean):平均数是所有数据加起来除以数据个数得到的结果。它表示数据的中心趋势。最大值(Maximum):最大值是数据集中最大的数值。它表示数据的上限。最小值(Minimum):最小值是数据集中最小的数值。它表示......