首页 > 其他分享 >TiDB 多集群告警监控-初章-监控融合、自动告警处理

TiDB 多集群告警监控-初章-监控融合、自动告警处理

时间:2024-01-11 10:48:00浏览次数:29  
标签:数据源 业务组 集群 初章 监控 TiDB 告警

author:longzhuquan

背景

随着公司XC改造步伐的前进,越来越多的业务选择 TiDB,由于各个业务之间需要物理隔离,避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana,但对于运维来说几十套集群的监控、告警、巡检均需消耗巨大的精力。

“融合工具” - 拥抱开源

虽然 TiDB 本身的 Prometheus 也可进行数据的整合,但场景太过于单一,达不到预想效果。对于运维以及业务来说几十套集群上百个节点均需要做到告警消息及时告知、监控大盘、可在单一页面上便捷的查看所有Grafana信息、Dashboard监控可进行语句级别的查询。TiDB 是一款优秀的开源软件,本着拥抱开源的心态,经过大量的调研以及基于成本的考量,最终选择了在监控领域的开源产品夜莺。夜莺产品架构如下:

20230531103435

选择夜莺监控主要有两点:

1、兼容多个数据源接口,Prometheus、Zabbix、ES 等。这使得对于多套集群的 TiDB 无需做额外改动,只需要将 Prometheus 数据源接入即可获得所有采集数据。从而进行后续告警数据加工,且 ES 等数据源的支持也可为后续多集群日志整合提供可能性。

2、完全开源,成本低。无论是适配成本以及资源成本在同类产品中都占据优势。

20230531103435data

工具安装

工具安装

详细的安装步骤请参考官网 安装部署详解 这里不在赘述。

由于整体项目为XC,监控也需要进行XC考量,所以将监控底层存储 MYSQL 替换为TiDB。Redis替换为某国产中间价。实际测试可百分百兼容。

业务组设计

整个监控的告警、监控不仅仅是面向 DBA,对应业务组的重要应用人员也有权知道后端数据库资源使用情况。业务组之间耦合性较低,每个业务仅关心自己的业务,DBA 则需要管控所有集群。针对此种场景在进行监控具体指标设计之前,需要按照不同需求进行业务组、角色、团队设计。

设计规则

用户管理:1、LDAP用户登录帐号,2、虚拟机器人+token地址(内部飞书告警)

20231204171336

20231204171514

团队管理:以一级部门名称+产品名称+业务系统命名(对应飞书接收群组名称),对应告警接收组 eg :ITXX部门- TiDB-XXX业务系统

20231204171633

业务组管理:以产品名称+一级部门+产品名称+系统名称命名(对应告警规则组),此处第一个产品名称为自动折叠设置。

20231204171833

角色管理:告警机器人账户、业务组人员账户、监控管理员账户,不同角色不同权限。

20231204171942

告警规则制定

制定完成业务组后,第一步实现飞书自动告警功能。

添加数据源

为方便管理数据源命名规范为:

部门_中间件名_业务系统_环境_IP(prometheus)

eg:XXIT_TiDB_ JAVA_PRO_127_0_0_1

20231204172111

添加告警规则

告警管理-告警规则-点击对于业务组-新增,同样为后续运维性考量,需严格设置规范命名规则。其中PromQL规则则按照自我需求编写即可,后续我司规则将会提交至开源社区,感兴趣可参考。

规则名称:业务系统描述+告警简介

备注:对应告警集群

数据源:只关联业务系统对应的数据源

告警接收组:对应业务组

20231204172235

20231204172420

20231204172644

告警模板制定(此处可根据需求自行编写通知模板)

系统配置-通知模板-飞书

告警环境: 测试环境 
服务名称: {{index .TagsMap "paasName"}}{{index .TagsMap "serviceName"}} 
级别状态: S{{.Severity}} {{if .IsRecovered}}Recovered {{else}}Triggered{{end}} 
告警对象: {{if.TargetIdent}}{{.TargetIdent}} {{else}}{{index .TagsMap "instance"}}{{end}} 
规则名称: {{.RuleName}}{{if .RuleNote}} 
规则备注: {{.RuleNote}}{{end}} 
监控指标: {{.TagsJSON}} 
{{if .IsRecovered}}
恢复时间: {{timeformat .LastEvalTime}}
{{else}}
触发时间: {{timeformat .TriggerTime}} 
触发时值: {{.TriggerValue}}
{{end}} 
发送时间: {{timestamp}}

成果展示

告警管理-业务组告警规则-不同业务组不同集群全部整合

20231204173041

飞书告警效果

20231204173336

结语

本篇文章粗浅的介绍了如何通过夜莺补齐 TiDB 告警融合缺失的问题,当然文章篇幅有限,实际会有更多细节,如感兴趣欢迎垂询。

下一章将会介绍如何融合多集群 Grafana ,以及 Dashboard 部分功能实现,做到一个页面即可查看几十甚至上百节点集群的难题。

标签:数据源,业务组,集群,初章,监控,TiDB,告警
From: https://www.cnblogs.com/ulricqin/p/17958037

相关文章

  • 系统运行监控程序
    #ThisisasamplePythonscript.importpsutilimportplatformimportmath#PressShift+F10toexecuteitorreplaceitwithyourcode.#PressDoubleShifttosearcheverywhereforclasses,files,toolwindows,actions,andsettings.defbytesHuman(......
  • Prometheus 监控告警系统搭建(对接飞书告警)
    Prometheus是一套开源的系统监控报警框架,非常适合大规模集群的监控。它也是第二个加入CNCF的项目,受欢迎度仅次于Kubernetes的项目。本文讲解完整prometheus监控和告警服务的搭建。prometheus监控是当下主流监控系统,它是多个服务组合使用的体系。整体架构预览如下:本篇教程......
  • Golang 监控文件夹内文件的增删改(包括子文件夹)
    你需要自己处理log部分packagemainimport("crypto/md5""fmt""go-admin/log""os""path/filepath""time""github.com/fsnotify/fsnotify")typeFileChangeCallback......
  • 监控系统企业架构演进史-拨测监控
    前情概述:在《监控系统企业架构演进史-跨地域混合云》中,监控系统已经逐步成熟且企业化发展。这一章节简单讲述一下期间的拨测能力搭建,以下是这套系统的发展史,在监控平台搭建的过程中,内部监控采集还不足以满足企业业务需求,在计划发展apm之前,异地拨测的黑匣子监控也纳入了该系统的一......
  • 智能分析网关V4方案:太阳能+4G+AI识别搭建智慧果园/种植园远程视频监控监管方案
    一、方案背景我国是水果生产大国,果园种植面积大、产量高。由于果园的位置大都相对偏远、面积较大、看守人员较少,值守的工作人员无法顾及园区每个角落,果园财产安全成为了关注的重点。人为偷盗、野生生物偷吃等事件时有发生,并且受极端天气如狂风、雷暴、骤雨等影响,果树木和灌木类也......
  • 安防视频监控平台EasyCVR使用RTMP推流但是通道显示不在线的原因排查
    安防视频监控平台EasyCVR采用了开放式的网络结构,支持高清视频的接入和传输、分发,平台提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储、视频集中存储、云存储等丰富的视频能力,此外,国标GB28181高清可视化视频监控云平台EasyCVR......
  • SD-WAN网关监控异地组网
    SD-WAN网关监控异地组网是指利用SD-WAN网关对远程网络设备进行监控与管理,确保网络连接的稳定性与安全性。这种智能网络设备支持多种连接方式(比如MPLS、互联网或无线网络),能够智能地选择最佳网络连接路径,以确保异地组网的稳定性与可靠性。它监控与管理远程网络设备状态与性能,提供各种......
  • 域智盾软件是电脑监控软件它都能做什么?
    域智盾软件:是保障企业网络安全的重要工具。在当今社会,网络安全问题日益凸显,众多安全问题不断困扰着企业等社会群体组织,作为企业网络安全的守护者,有着10年研发的域智盾软件可以保障局域网安全,为大家排忧解难。下面我将将详细介绍域智盾软件从它的特点、功能、优势以及应用场景。......
  • zabbix 6.2监控系统
    https://zabbix.com/documentation/current/en/manual/installation/containers1.Zabbixserver2.Zabbixwebinterface3.Zabbixproxy4.ZabbixJavagateway5.ZabbixWebService6.ZabbixSnmptraps7.Zabbixagent2......
  • Zabbix5.0监控Redis6.0实录
    Zabbix5.0监控Redis6.0实录1.环境描述ZabbixServer:5.0.12Redis:6.2.6(集群,有密码)操作系统:Centos72.监控步骤(1)通过yum安装zabbix-agent2#yum-yinstallzabbix-agent2这里安装的zabbix-agent2也是5.0版本。(2)配置zabbix-agent2配置文件,我的配置文件如下......