首页 > 其他分享 >火山引擎DataLeap如何解决SLA治理难题(一):应用场景与核心概念介绍

火山引擎DataLeap如何解决SLA治理难题(一):应用场景与核心概念介绍

时间:2023-07-17 12:00:38浏览次数:48  
标签:保障 平台 任务 引擎 DataLeap 数据 SLA

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

 基于火山引擎分布式治理的理念,数据平台数据治理团队自研了火山引擎DataLeap SLA保障平台目前已在字节内部得到广泛使用,并支持了绝大部分数据团队的SLA治理需求,每天保障的SLA链路数量过千,解决了数据SLA难对齐、难保障、难管理的问题。

背景介绍

SLA(Service Level Agreement):服务级别协议,对互联网公司来说是网站服务可用性的保证。数据SLA,即数据可用性保证,一般以数据产出时间作为SLA。

 

 在海量数据任务开发场景中,因业务多样化、数据量大、数据任务复杂等问题,导致数据任务链路依赖复杂、链路长、跨团队节点依赖多,因此,在实际开发运维过程中,任务负责人为保证自身数据准时产出,会遇到如下困难:

  • 沟通成本高:任务负责人尝试与上游任务负责人约定SLA,但由于上游任务数多(可至上千个),且跨越多个团队,沟通成本非常高

  • 权责不清晰:由于链路复杂,如何制定SLA?谁来负责保障SLA?

  • 运维压力大:无法及时发现上游任务延迟,导致下游任务负责人承担绝大部分运维压力,且运维效果较差,往往发现延迟已经错过了补救的时间。

为解决上述问题,字节跳动数据平台通过自研的火山引擎DataLeap SLA保障平台,规范并推进各业务团队进行任务链路治理,有效保障数据的SLA,数据SLA达标率达到99.1%。

理想的一组任务的完成时间与对应SLA之间的关系如下图所示,即各个任务及其上游任务都在对应的SLA之前完成,这也是平台的治理目标。

 

应用场景

火山引擎DataLeap SLA保障平台除了解决上文的困难外,对不同的用户还有以下使用场景:

  • 数据业务方:“我们团队的业务很依赖一份重要数据,希望能对其进行保障,希望上游能承诺SLA”

  • 数据负责人:“我们团队有很多对外承诺SLA的数据,希望能有一个平台对SLA进行集中管理,并能提供一些统计大盘、风险分析等内容”

  • 数据治理方:“我们希望能提升团队内核心数据的数据质量,对齐进行SLA管理,及时发现风险,并进行事故复盘和改进,最终不断优化数据质量”

根据以上不同角色需求,SLA保障平台提出自身解决方案。针对团队数据治理需求,平台提供完善的治理看板能力;针对任务链路复杂导致的SLA难达成,平台通过各项优化,简化了SLA达成流程;针对下游任务运维压力大的问题,平台优化通知体系,及时播报SLA状态。

那么,火山引擎DataLeap SLA保障平台有哪些核心模块?平台是如何运转的呢?

核心概念介绍

角色:

  目前火山引擎DataLeap SLA保障平台的核心角色有三类,分别是:

  1. 申报人:即SLA提申报的人,一般是数据业务方,其提申报的目的是保障业务数据的SLA;

  2. 管理员:满足数据治理方的需求设置的角色,负责申报的审核、批准、管理、统计、登记、复盘等,其目的是不断优化所属团队的数据质量。

  3. 任务负责人:即待保障SLA数据链路中的任务owner,负责确定及签署所负责任务的SLA,平台会按照其签署的SLA进行保障;

任务:

即产出数据的任务,通过数据任务的元信息,可构建整条数据生产链路的完整DAG。在本平台中,所涉及的任务元信息一般需要包含以下内容:

 

申报单

申报人提起的一次申报内容,被称为一个“申报单”,一个申报单一般包含的核心内容如下:

 

点击跳转 火山引擎大数据研发治理套件DataLeap 了解更多

 

标签:保障,平台,任务,引擎,DataLeap,数据,SLA
From: https://www.cnblogs.com/bytedata/p/17559705.html

相关文章

  • MySQL 索引、事务与存储引擎
    目录一、索引1.概念2.作用3.副作用4.创建索引的原则依据5.优化6.分类二、事务1.事务的概念2.事务的特点(1)原子性(2)一致性(3)隔离性(4)持久性3.扩展事务之间的相互影响分为几种4.Mysql及事物隔离级别5.事务控制语句6.使用set设置控制事务三、存储引擎一、索引1.概念是......
  • 用字符串表达式执行引擎消除掉if else if
    背景最近我搞了个微信机器人,@机器人xxx这样来发送命令能拿到的信息有,消息内容,消息发送人,消息所在的群id等需要根据消息内容或者消息发送群id等不同的条件组合来决定走哪个处理逻辑。简单来说的话,就用很多ifelseifif(model.context.StartsWith("命令1") && model.from......
  • google引擎搜索技巧
    找歌词或忘记的句子【*】在谷歌搜索引擎中使用,代表所有可能性。如果你忘记了一段句子的某部分,可以加入*搜索,会过滤出所有可能性的句子。例如:youdon’t*me搜索完整句子【“”】如果你想要找某个东西,但是这个东西的单字都是有个别意思的,就好像巧克力蛋糕的“巧克力......
  • 机器翻译 | Improving Neural Machine Translation Robustness via Data Augmentation
    摘要神经机器翻译(NMT)模型在翻译干净文本时已被证明是强大的,但它们对输入中的噪声非常敏感。改进NMT模型的鲁棒性可以看作是对噪声的“域”适应的一种形式。最近创建的基于噪声文本的机器翻译任务语料库为一些语言对提供了噪声清洁的并行数据,但这些数据在大小和多样性方面非常有......
  • WiredTiger引擎的日志和检查点机制
    每个数据库系统都要确保持久性和可靠性。MongoDB使用journal和检查点来每个数据库系统都必须确保持久性和可靠性。MongoDB使用Journals和Checkpoints完成WAL(Write-Ahead-Logging)。从最基本的开始,为什么首先需要WAL?这是为了确保我们的数据在每次写操作之后都是持久的,并且在不......
  • 火山引擎 DataLeap 构建Data Catalog系统的实践(三):关键技术与总结
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群关键技术构建一个好的DataCatalog系统,需要考虑的核心产品设计和技术设计有很多。篇幅所限,本文只概要介绍技术设计中最核心重要的部分,更多细节展开可参照后续的文章。数据模型统一......
  • AIGC:新AI时代,推动数字人进化的引擎
    摘要:CV、NLP、大模型...AI技术的加持下,让数字人内外在更加生动真实。在未来的发展中,数字人的应用场景越来越广泛,并将发挥出重要的作用,让美好照进生活。本文分享自华为云社区《AIGC:新AI时代,推动数字人进化的引擎》,作者:华为云社区精选。现在我们在手机视频里经常看到,几百平方米的......
  • 三维GIS引擎用什么好?结合目前市面上的主流引擎进行分析
    相信大多数人在谈到三维GIS引擎时,第一个想到的首先是CesiumJS,CesiumJS以其免费开源的特点,快速占领了三维GIS这个领域,同时也催生了许多以CesiumJS为基础的衍生产品。CesiumJS作为一个功能强大的JavaScript库,可以用于在Web浏览器中创建高性能的三维地球和GIS应用。它具有广泛的GIS数......
  • VTK 生成MIP图像-vtkImageSlabReslice类
    MIPMIP(Maximum/MinimumIntensityProjection),最大/最小密度投影重建。MIP可以较真实地反应组织密度差异,使得血管的异常改变、形态、走形强化;但是只适用于外观形态的显示。在容积扫描数据中对每条径线上每个像素的最大强度值进行编码并投射成像。MIP的灰阶度反映CT值的......
  • 使用MASA全家桶从零开始搭建IoT平台(六)使用规则引擎实现告警通知
    目录前言方案实施流程安装Node-RED配置一个告警处理流程编写代码测试总结前言数据的挑战:物联网的发展带来了海量的数据。这些数据来源多样,格式不一,处理起来十分复杂。同时,物联网中的设备数量庞大,需要设备间进行高效的协同和管理,这也对数据处理提出了更高的要求。如何从这些复......