首页 > 其他分享 >火山引擎 DataLeap 推出全链路智能监控报警平台

火山引擎 DataLeap 推出全链路智能监控报警平台

时间:2023-04-12 13:32:34浏览次数:50  
标签:引擎 DataLeap 报警 任务 基线 监控 链路

  更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

随着大数据开发场景下需要运维管理的任务越来越多,在日常运维中开发者经常会面临以下几个问题:

  1. 任务多,依赖关系复杂:很难查找到重要任务的所有上游任务并进行监控。如果监控所有任务,又会产生很多无用报警,导致有用报警被忽视;
  2. 配置运维成本高:每个任务的运行情况不一样,承诺完成时间不一样,如果单独对每个任务设置监控,分析及人工对齐任务服务级别协议(SLA)成本非常高;
  3. 报警形式多样性:对于小时级的任务,不同时段的报警及时性要求不同,普通监控无法满足不同时段多样的报警需求。

为了帮助企业开发者更好地解决这一问题,及时平稳完成日常运维、高效保障数据质量,字节跳动数据平台开发套件数据开发团队自研了基于依赖关系的全链路智能监控报警——基线监控,它能根据任务运行情况,智能决策是否报警、何时报警、如何报警以及向谁报警,贯穿整条任务产出链路,避免出现环节缺失,保障链路完整性。目前基线监控已在字节跳动内部得到广泛使用,覆盖抖音、电商、广告等 100+个项目,服务级别协议(SLA)任务的基线监控覆盖率超过 80%

当前,该能力已通过火山引擎 DataLeap 向企业开放。企业可以通过火山引擎 DataLeap 的基线监控功能,有效降低监控配置成本、避免无效报警及报警泛滥。

火山引擎 DataLeap 推出全链路智能监控报警平台_数据监控

图:火山引擎 DataLeap 监控范围

火山引擎 DataLeap 默认监控的范围包括:基线保障任务及保障任务上游的所有任务。如上图所示,保障任务 D,E 及它们所有的上游节点都会纳入基线监控范围,而任务 C,F 不受基线监控。值得一提的是,火山引擎 DataLeap 的基线监控允许用户配置基线监控只覆盖“指定项目”下的任务,此时基线监控的范围就只包含了保障任务及这些项目下的上游任务。

火山引擎 DataLeap 推出全链路智能监控报警平台_数据监控_02

图:火山引擎 DataLeap 基线监控整体架构

火山引擎 DataLeap 基线监控整体架构基线管理模块、基线实例生成、基线埋点检测等构成,各模块详细来看:

  1. 基线管理模块:负责基线创建、更新、删除等操作,管理基线元信息,包括保障任务,承诺时间,余量及报警配置等;
  2. 基线实例生成:火山引擎 DataLeap 每天定时触发生成基线实例,生成实例的同时根据保障任务,由下而上逐层遍历 (BFS)所有上游任务并生成基线监控埋点。

生成基线监控埋点的过程中,火山引擎 DataLeap 会计算每个任务节点的预测运行时长,承诺时间,预警时间,预警最晚开始时间,承诺最晚开始时间。此外,火山引擎 DataLeap 会给基线监控任务添加基线出错/变慢报警规则,当任务执行触发规则后,通过基础报警服务发送基线报警事件;

  1. 监控埋点校验:系统维护一个延迟队列,火山引擎 DataLeap 会根据校验时间点(预警最晚开始时间,承诺最晚开始时间以及破线加剧时间校验点),同时火山引擎 DataLeap 会定时触发监控埋点校验任务实例运行状态,如果在时间点实例未运行成功,产生基线预警/破线报警事件,发送报警。

未来,火山引擎 DataLeap 的研发人员将继续针对基线监控进行优化,如基线关键路径分析、基线实例生成效率优化等,不断提高基线监控算法性能,完善基线链路分析能力,提升用户体验,向企业级市场提供更强大的全链路监控运营服务。


点击跳转 大数据研发治理DataLeap 了解更多

标签:引擎,DataLeap,报警,任务,基线,监控,链路
From: https://blog.51cto.com/bytedata/6185511

相关文章

  • 数据链路层
        工作在数据链路层的主要网络是以太网 EthernetII是现在使用的主流IEEE802.3是EthernetII的前身(20世纪70年代)其中只有一个协议STP     主要的介质有双绞线和光纤双绞线就是网线只有一个头-水晶头光纤头分为好几种      协议类......
  • 使用篇丨链路追踪(Tracing)很简单:链路实时分析、监控与告警
    作者:涯海前文回顾:基础篇|链路追踪(Tracing)其实很简单使用篇|链路追踪(Tracing)其实很简单:请求轨迹回溯与多维链路筛选在前面文章里面,我们介绍了单链路的筛选与轨迹回溯,是从单次请求的视角来分析问题,类似查询某个快递订单的物流轨迹。但单次请求无法直观反映应用或接口整体服务状态,......
  • 浅谈全链路追踪系统在技术运营层面的应用
    随着微服务和分布式架构的引入,各类应用和基础组件形成了网状的分布式调用关系,这种复杂的调用关系就大大增加了问题定位、瓶颈分析、容量评估以及限流降级等稳定性保障工作的难度。正是这样的背景,催生了全链路追踪的解决方案。这里的一个核心技术点就是TraceID,当请求从接入层进来时......
  • 基于深度学习网络的5G通信链路信道估计算法matlab仿真
    1.算法描述        深度学习(英语:deeplearning),是一个多层神经网络是一种机器学习方法。在深度学习出现之前,由于诸如局部最优解和梯度消失之类的技术问题,没有对具有四层或更多层的深度神经网络进行充分的训练,并且其性能也不佳。但是,近年来,Hinton等人通过研究多层神经网络,......
  • 低至 200 元 / 月,火山引擎 DataLeap 帮你搭建企业级数据中台
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群企业数字化转型正席卷全球,这不仅是趋势所在,也是企业发展必然面对的考题。数字化不仅仅考验企业的技术“硬”实力,还考验选型、平台能力、数据部署方式等“软”技能。企业数字化转型离不开数据工......
  • 低至200元 / 月,火山引擎DataLeap帮你搭建企业级数据中台
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群企业数字化转型正席卷全球,这不仅是趋势所在,也是企业发展必然面对的考题。数字化不仅仅考验企业的技术“硬”实力,还考验选型、平台能力、数据部署方式等“软”技能。企业数字化转型离不开数据......
  • # 2023被行计网实验二数据链路层实验的设计性实验部分
    设计型实验(选作)一个公司需要组建局域网,公司主要有财务、人事、工程、研发、市场等部门,每个部门人数都不超过20人,另外公司还有一些公共服务器。请给出设计方案,并提供实验验证。要求满足:所有部门不能互相访问;每个部门都可以访问公共服务器。VLAN端口的分类交换机的端口可以......
  • 报警监测管理解决方案
    方案简介本系统主要是由智能终端节点,感知传感器,执行控制单元,云服务器,手机APP远程管理,WEB远程管理平台等构成的物联网解决方案,适用于环境监测、畜牧养殖、水产养殖、温室大棚、电力监测等应用领域,可实现无人值守,实时监测,异常报警,现场自动控制,视频监控,远程调控管理及数据分析等功能......
  • Kubernetes + Spring Cloud 集成链路追踪 SkyWalking
    一、概述1、什么是SkyWalking?分布式系统的应用程序性能监视工具,专为微服务、云原生架构和基于容器(Docker、K8s、Mesos)架构而设计。提供分布式追踪、服务网格遥测分析、度量聚合和可视化一体化解决方案。官网地址:http://skywalking.apache.org/2、SkyWalking特性多种监控手段,语言......
  • Sleuth+Zipkin 实现 Spring Cloud 链路追踪
    一、前言在全链路监控:方案概述与比较 一文中,我们有详细介绍过分布式链路跟踪的实现理论基础。我们看到上图,知道在微服务架构下,系统的功能是由大量的微服务协调组成的,例如:电商下单业务就需要订单服务、库存服务、支付服务、短信通知服务逐级调用才能完成。而每个服务可能是由不同......