首页 > 其他分享 >直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路

时间:2023-08-02 16:04:11浏览次数:51  
标签:直击 运维 痛点 Grafana 监控 版本 告警 EasyMR

当企业的业务发展到一定的阶段时,在系统中引入监控告警系统来对系统/业务进行监控是必备的流程。没有监控或者没有一个好的监控,会导致开发人员无法快速判断系统是否健康;告警的实质则是“把人当服务用”,用告警通知人的方式去干预系统达到修正的目的。

监控告警在企业保障系统的稳定性和事故快速恢复的全周期链路中都是至关重要的一环。在新版本的 EasyMR 中袋鼠云开发团队也对监控告警功能进行了全新的优化,通过本文和大家分享一下监控告警功能的设计思路以及碰到各类问题痛点的解决方法。

EasyMR 监控告警设计

对于 EasyMR 的监控告警设计思路,考虑到 Zabbix 后端数据库使用 MySQL 对监控数据进行存储,无法满足多维度化的告警。而 openfalcon 整体架构上吸取了 Zabbix 的经验,解决了 Zabbix 的不足之处,但是社区活跃度不高。

所以我们选择了集成 Prometheus+Grafana 的解决方案搭建 EasyMR 的监控系统,这套解决方案是目前主流的方案,使用的人群较多,在推广使用上会降低门槛而且容易维护,也适合袋鼠云平台的容器化部署。整体架构图如下:

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路_新版本

首先我们在这套平台的基础上增加了一个 dt-alert 组件用来对接第三方的告警发送的处理,其次我们对 Grafana 进行了少量的二次开发。开发的内容主要在于打通 EasyMR 平台的告警通道和 Grafana 上的通道的对接,平台接入好主机和部署好服务后 Prometheus 就能通过服务发现的方式完成目标抓取作业的生成获取监控数据。

Grafana 从 Prometheus 中获取指标数据进行展示,同时触发告警时将告警内容发到 dt-alert 组件中,dt-alert 组件将告警信息发往第三方平台上。

EasyMR 监控告警痛点

基于上述告警监控的解决方案是否就是一个非常完美的方案呢,答案当然是否定的,接下来我们就讨论一下在使用此方案的过程中遇到的问题和痛点:

● 低版本 Grafana 漏洞频发

低版本 Grafana 漏洞频发,导致平台安全问题受到很大的挑战。漏洞是指计算机系统安全方面的缺陷,会使得系统或其应用数据的保密性、完整性、可用性、访问控制等方面面临威胁。由于早期版本的 EasyMR 是基于 Grafana5.3 版本做的二次开发,所以被扫描出来的漏洞非常多,遇到相应漏洞时只能想办法规避。

● 缺少分级告警

缺少分级告警,无法区分不同严重程度的告警。对于运维人员来说,监控告警是用来发现故障用的,但是存在一个问题,如果一个系统中所有的告警都是同一个级别,那么出现问题时,可能会同时出现很多的告警,告警没有分级不光会造成告警过多,还会让开发人员无法区分优先级,导致无法优先处理更紧急的问题。

● 无法对同一个仪表盘设置多条告警规则

由于我们是使用 Grafana 来设置告警规则,在老版本中同一个 panel 只能设置一条告警规则,如果我们想针对同一个监控指标设置多个告警规则的话只能新建一个相同指标的 panel 再设置新的告警规则,这在使用上来说是非常不便利的。

EasyMR 监控告警优化解决方案

基于以上三点痛点,袋鼠云开发团队在新版本的 EasyMR 中,将 Grafana 版本从 5.3.x 升级到了 8.5.x,新版本可以非常顺利地解决上述问题。基于新版本的二开前后端为了将 Grafana 很好的嵌入 EasyMR 产品页面中,做了很多的优化工作,包括但不限于隐藏侧边栏、隐藏 Grafana 一级菜单、取消 title 点击事件隐藏相关信息等等。

● 优化前

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路_新版本_02

● 优化后

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路_监控告警_03

如何配置 EasyMR 新版本告警规则

接下来给大家详细介绍一下如何配置新版本 EasyMR 的告警规则。

● 选中仪表盘

选择仪表盘,以 cpu_usage 告警为例,选中 Host_Overview。

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路_新版本_04

● 选中面板

在 System->cpu_usage 面板中点击下拉菜单,选中 Edit 选项。

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路_监控告警_05

● 创建告警

选中 Alert 项,点击创建告警规则。

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路_解决方案_06

编辑告警规则,告警参数参考如下模板,参数确认无误后点击保存。

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路_新版本_07

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路_监控告警_08

● 自定义告警模板

以 Redis 告警为例,在 Prometheus 查询的值为:

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路_解决方案_09

自定义模板可以引用标签和值变量:

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路_解决方案_10

钉钉告警示例如下:

直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路_监控告警_11

《数据治理行业实践白皮书》下载地址:https://fs80.cn/380a4b

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack

标签:直击,运维,痛点,Grafana,监控,版本,告警,EasyMR
From: https://blog.51cto.com/u_15137832/6939386

相关文章

  • 【.NET6 + Vue3 + CentOS7.9 + Docker + Docker-Compose + SSL】个人博客前后端运维部
    个人博客前端:https://lujiesheng.cn个人博客后端:https://api.lujiesheng.cn个人博客运维:https://portainer.lujiesheng.cn1.服务器准备我采用的是腾讯云轻量应用服务器(2C4G8M80G),配置如下图:安装镜像选择CentOS7.664bit:2.服务器防火墙设置添加防火墙出入站规则......
  • 大型集团企业一体化运维监控方案
        当前,云计算、大数据、人工智能等IT技术迅猛发展,企业的信息化步入了一个崭新的时代,企业规模不断壮大,业务不断拓展,企业信息化依赖的网络结构和IT技术越来越复杂。企业运维部门采用的运维工具和技术实力直接决定企业是否能提供稳定、可靠、快速、优质的服务。但传统网管......
  • 浅析互联网技术在分布式光伏发电运维平台的设计与实现
    摘要:随着光伏发电的不断发展,对于光伏发电监控系统的需求也日益迫切,“互联网+”时代,“互联网+”的理念已经转化为科技生产的动力,促进了产业的升级发展,本文结合“互联网+”技术提出了一种针对分散光伏发电站运行数据进行实时数据采集、分析、处理,查看实时运行情况,并通过移动APP对光伏......
  • 运维开发面试【运维篇】
    目录运维k8s基础组件有哪些?运维k8s基础组件有哪些?一、控制面Master节点的主要组件:kube-apiserver:负责对外提供集群各类资源的增删改查及Watch接口,它是Kubernetes集群中各组件数据交互和通信的枢纽。当收到一个创建Pod写请求时,它的基本流程是对请求进行认证、限速、......
  • Docker Installing spug 运维平台
    DockerInstallingRequirementEnvironment​DockerModernbrowserInstallSteps​Theflowofinstallationisbasedon Centos7.x.1.Installdocker​WARNINGifyouhaveinstalleddocker,youcanskipthisstep.Thefollowingstepsarefor Centos,pl......
  • 免费领 | 2000件“直击灵魂”的Polo衫,创龙科技10周年献礼!
       一件“有灵魂”的Polo衫时光荏苒,创龙科技即将迎来10周年庆!为感谢各位客户多年的支持与信任,创龙科技特推出10周年献礼活动——2000件“直击灵魂”的Polo衫,免费送,包邮到家!它是一件“有灵魂”的Polo衫,可衬托您明确的身份标识,并且四款“个性文字”、四种“个性颜色”可选,......
  • 【运维】Cobbler原理与实战(自动安装操作系统类似网克)
    https://blog.csdn.net/weixin_46108954/article/details/105869201https://blog.csdn.net/weixin_47219818/article/details/107504402?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2~default~CTRLIST~default-1-107504402-blog-1058......
  • 面了一些运维,发现3个共同点
    !!大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com最近因为一些原因,需要招一个运维人员,所以就筛选了很多简历,也面了很多人,我发现大家都有一些相同的问题。主要表现在以下几个方面:简历重点不明确会的多,但......
  • Shell脚本学习:提升系统运维效率的利器
    Shell脚本:提升系统运维效率的利器Day1:Shell基础入门学习目标学习内容1.Shell是什么?2.基本Shell命令行操作3.练习任务Shell脚本:提升系统运维效率的利器自动化任务:Shell脚本能够帮助系统管理员自动化繁琐的重复任务,如备份数据、清理临时文件等,从而节省时间和精力,并降低出错......
  • Java从零基础到架构师再到运维的学习路线
    Java从零基础到架构师再到运维的学习路线1.Java基础知识:-Java语法和基本数据类型-面向对象编程概念:类、对象、继承、封装、多态等-流程控制和循环:条件语句、循环语句-异常处理:异常类型、try-catch-finally块-集合框架:-数组:一维数组和多维数组,数组的操......