首页 > 其他分享 >DataLeap的全链路智能监控报警实践(一):常见问题

DataLeap的全链路智能监控报警实践(一):常见问题

时间:2023-06-06 15:12:44浏览次数:36  
标签:常见问题 DataLeap 运维 报警 任务 基线 监控 链路 SLA

随着字节跳动业务的快速发展,大数据开发场景下需要运维管理的任务越来越多,然而普通的监控系统只支持配置相应任务的监控规则,已经不能完全满足当前需求,在日常运维中开发者经常会面临以下几个问题:

  1. 任务多,依赖关系复杂:很难查找到重要任务的所有上游任务并进行监控。如果监控所有任务,又会产生很多无用报警,导致有用报警被忽略;
  2. 配置运维成本高:每个任务的运行情况不一样,承诺完成时间不一样,如果单独对每个任务设置监控,分析及人工对齐任务SLA成本非常高;
  3. 报警形式多样性:对于小时级的任务,不同时段的报警及时性要求不同,普通监控无法很好得满足不同时段多样的报警需求。
为了有效运维日常任务,保障数据质量,字节跳动数据平台开发套件数据开发团队自研了基于依赖关系的全链路智能监控报警——基线监控,能根据任务运行情况,智能决策是否报警、何时报警、如何报警以及给谁报警,保障任务的整体产出链路。基线监控已在字节跳动内部得到广泛使用,覆盖抖音、电商、广告等100+个项目,SLA任务的基线监控覆盖率超过80%。 目前,这一能力也已经通过火山引擎DataLeap向企业开放。企业可以通过火山引擎DataLeap基线监控,有效降低监控配置成本、避免无效报警及报警泛滥。

实际案例

本节将从一个实际案例出发,介绍基线监控相较于普通监控的核心优势。 用户小明有一个对外承诺了的SLA任务,10点前必须要产出。其上下游关系如下图所示,其中SLA任务和任务4、5属于项目B,其他项目属于项目A。小明仅具有项目B的运维权限。

 

在没有基线监控前,为了保障SLA任务产出符合预期,小明会在SLA任务及其相同项目B内的上游任务上配置一系列告警规则,来预防上游任务延迟导致的SLA破线。比如在SLA任务和任务4、5上都配置了3条基础告警,以保证SLA任务延迟的风险及时感知和暴露,如下图所示。

 

但这种方式的问题也是显而易见的:利用基础监控规则,至少需要配置9条规则,才能基本完成对SLA任务的监控;而且监控规则的配置方式大多来自于专家经验,但仍有遗漏的风险;基础监控规则只能监控到有运维权限的项目,不属于本项目的上游任务是无法监控到,因此小明也就无法提前感知到延迟风险。有了基线监控,小明就只需要将SLA任务作为“保障任务”加入到基线监控中,保障任务的所有上游节点默认会被基线监控覆盖,小明再也不用配置多条基础告警规则,极大降低了告警规则配置的难度;一旦基线监控配置好之后,任意上游任务延迟,对小明来说都可以快速感知到,可有效保障SLA任务按时产出。   通过上面的实际案例,你应该对基线有了一个大概的理解。下篇文章,就让我们一起了解下基线监控的相关概念和系统架构,并详细了解下基线监控的核心实现逻辑吧。

标签:常见问题,DataLeap,运维,报警,任务,基线,监控,链路,SLA
From: https://www.cnblogs.com/bytedata/p/17460595.html

相关文章

  • [笔记]计算机网络_数据链路层_数据链路层概述
    大的要来力(悲)数据链路层是历年考试重点,要求在了解数据链路层基本概念的基础上,重点掌握滑动窗口机制、三种可靠传输协议、各种MAC协议、HDLC协议、PPP协议,特别是CSMA/CD协议和以太网帧格式,以及局域网的争用期和最小帧长的概念、二进制指数退避算法等等各种贵物,此外中继器、网卡......
  • day09-SpringCloud Sleuth+Zipkin-链路追踪
    SpringCloudSleuth+Zipkin-链路追踪官网:spring-cloud/spring-cloud-sleuth:Distributedtracingforspringcloud(github.com)分布式链路追踪之SpringCloudSleuth+Zipkin最全教程!-bucaichenmou-博客园(cnblogs.com)1.Sleuth+Zipkin是什么在微服务框架中,一个由客户......
  • 计算机网络-----数据链路层
    《数据链路层的几个共同问题》《差错检测》 《点对点协议PPP》《解决!ppp中的透明传输问题》在PPP协议中帧的标志字段(表示一个帧的开始或结束)为0x7E(01111110)转义字符为0x7D(01111101)方法一:字节填充,适合于异步传输时(1)数据字段遇到标志字段的编码则将0x7E->......
  • 3D打印助力齿科数字化升级,黑格科技携全链路解决方案亮相北京展
    2023北京国际口腔展,如约而至黑格将携椅旁及技工厂端的数字化新思路、新实践亮相展区与齿科同行共享数字化成功经验共话数字化发展新篇章数字化新玩法,已就位精彩亮点,提前锁定!一:数字化口腔新范式,提升就诊体验黑格从患者角度出发带来“一日戴牙”系列解决方案方案广泛应用于数字......
  • IBM MQ 创建以及常见问题
    消息队列+发送队列+消息通道接收通道名称与发送端的发送通道名称要一致,修改通道信息后要执行startchannle(chlname)重启通道。常用的MQ命令 66.0.42.240用户mqm/mqm88.0.52.40mq队列服务器:mqm/1qaz2wsx二代:88.0.65.91vlog/1qaz2wsx监控:/cnaps/maintain/bin管理台:adm......
  • 绩效考核常见问题有哪些?
    绩效考核常见问题有很多,比如:绩效指标的设定不合理或不明确,导致考核结果与实际工作表现不符。绩效考核过程中缺乏有效的沟通和反馈,没有及时调整和改进。绩效考核的周期和频率不适当,不能及时反映员工的工作进展和成果。绩效考核的评分标准不一致或不公正,造成员工的不满和抵触......
  • Docker常见问题
    1、容器内无法输入中文当在Docker容器内输入中文或者复制中文内容时,有时会出现无法识别的情况。以下是解决方案:进入容器时在命令中添加环境变量:dockerexec-itcontainer_nameenvLANG=C.UTF-8/bin/bash在Dockerfile中使用ENV命令设置环境变量:ENVLANG=C.UTF-8这个......
  • abaqus有限元仿真常见问题(一):数值仿真在产品研发中的作用
    在当今欧美发达国家的工业企业中,有限元分析已成为产品研发过程中-个必不可少的重要环节。CAE工程师在校核设计方案、保证产品质量、改进产品设计、降低产品成本提高产品强度和寿命等方面肩负重要的职责。对于一些复杂的关键部件,如果不经CAE工程师分析确认设计方案,就不能投产,如果......
  • 计算机网络(四)数据链路层
    计算机网络(四)数据链路层1数据链路层概述2点对点通信数据链路层最基本、最重要的三个问题2.1封装成帧封装成帧是指数据链路层给上层交付的协议数据单元添加帧头和帧尾使之成为帧帧头和帧尾含有重要的控制信息​ 如以太网V2的MAC帧:​ PPP的帧格式:数据链路层将......
  • 这8个NumPy函数可以解决90%的常见问题
    NumPy是一个用于科学计算和数据分析的Python库,也是机器学习的支柱。可以说NumPy奠定了Python在机器学习中的地位。NumPy提供了一个强大的多维数组对象,以及广泛的数学函数,可以对大型数据集进行有效的操作。这里的“大”是指数百万行。Numpy快速而高效的原因是底层的C代码,这比使用......