首页 > 其他分享 >数仓调度辅助功能效率提升

数仓调度辅助功能效率提升

时间:2023-08-02 19:02:16浏览次数:23  
标签:数仓 需要 辅助 调度 任务 依赖 重跑 下线

调度是数仓数据生成的执行者,好的调度可以事半功倍,目前市面上的调度很多,比如DolphinScheduler、Oozie、Azkaban等调度工具,当然也可自行开发适合自己企业个性化的调度工具。调度工具怎么实现这里暂且不谈,核心谈一下调度除了基本的核心功能外,在实际工作中还需要具备哪些功能,可以提升工作效率以及方便任务管理。

1.一个调度最好只调度一个表,这样可以方便下游依赖可以更早执行,不必等待无关的表跑完再执行,或者调度支持表级小依赖也可忽略这一点。

2.调度依赖树需要维护好,某个节点失败,需要支持当前节点的重跑会自动重跑下游的所有节点,或者批量重跑时支持自动寻找依赖关系依次执行。

3.调度需要支持外部调用,因为有的任务可能需要依赖外部接口拉数据,拉数据完成后再通知执行调度任务。

4.需要支持检索任一调度上下游依赖关系以及查看调度状态。

5.调度需要支持调度时间建议,避免出现上游任务9:00跑,下游依赖任务配置为8:00跑的情况出现。

6.在同一个调度任务里面,调度需要支持条件判断该调度后续脚本是否需要继续执行,比如定时采集数据的系统,可能两轮的数据并没有发生变化,那么就没必要进行后续的逻辑计算,比如参考华为DGC里面的方案。

 

 7.某个调度任务下线,需要判断是否下游的调度任务已经下线,否则不允许下线。

8.调度任务下线需要记录下线的人以及时间。

9.调度的命名最好跟表命名一致,可参考job_表名的方式。

10.调度需要支持补数,尤其是分区表对过去数据逻辑的重算,设置时间范围可以自动重跑。

11.数据入仓、出仓、数据清洗的调度要分开,方便做集群迁移或者开发平台迁移后可进行双跑,验证数仓内数据,对业务无影响。

12.调度依赖支持自动解析依赖关系,可减少人工配置的失误,这就要求调度维护表和调度的关系。

 

标签:数仓,需要,辅助,调度,任务,依赖,重跑,下线
From: https://www.cnblogs.com/beststrive/p/17601521.html

相关文章

  • 全域调度:云边协同在视频场景下的探索实践
    随着多媒体业务越来越多的涌现,每个业务都有不同的差异性特征。各大视频云厂商遇到的最大挑战是如何打造多媒体分发网络,使用最低成本为多业务提供最优质网络体验。本次分享邀请到了华为云算法专家——杨昌鹏老师,为我们介绍云边协同在视频场景下的探索实践。文/杨昌鹏整理/LiveVi......
  • shell命令概述 Shell作用:命令解释器 介于操作系统内核与用户之间,负责解释命令行 获得
    shell命令概述Shell作用:命令解释器介于操作系统内核与用户之间,负责解释命令行获得命令帮助内部命令help命令的“--help”选项使用man命令阅读手册页命令行编辑的几个辅助操作Tab键:自动补齐反斜杠“\”:强制换行快捷键Ctrl+U:清空至行首快捷键Ctrl+K:清空至行尾快捷键Ctr......
  • 华为云盘古大模型辅助药物设计,西交大的新型抗生素研发之路
    2020年,陈欢从中国药科大学毕业,即将在西安交通大学附属第一医院开启她的硕博连读生涯。彼时,她熟悉药理知识、熟练完成实验、了解传统的计算机辅助药物设计(CADD)技术。对于当时的陈欢来说,人工智能辅助药物设计(AIDD)是新兴的技术,所知甚少。2023年,陈欢开启博士生涯,在投入细菌耐药与抗生素......
  • 数仓性能优化:倾斜优化-表达式计算倾斜的hint优化
    本文分享自华为云社区《GaussDB(DWS)性能调优:倾斜优化-表达式计算倾斜的hint优化》,作者:譡里个檔。1.原始SQLSELECTTMP4.TAX_AMT,CATE.L1_PUR_ITEM_CATG_CN_NAME||'-'||CATE.L2_PUR_ITEM_CATG_CN_NAME||'-'||CATE.L3_PUR_ITEM_CATG_CN_NAMEASPRODUCT_CATEGORY......
  • karmada多策略的多集群调度
    不同调度策略下的集群分发能力:ClusterAffinity:基于ClusterName、Label、Field的定向调度。Toleration:基于Taint和Toleration的调度。SpreadConstraint:基于集群拓扑的调度。ReplicasScheduling:针对有实例的工作负载的复制模式与拆分模式。差异化配置(Overri......
  • 数仓优劣指标化判断
    如何评价数仓的优劣,众说纷纭,其实数仓的优劣评价可以从内部、外部两个方面来评估,也可以从业务角度和技术层面来看。评价的理论很多,实际上我们可通过osm的指标体系来衡量数仓的优劣。O:数仓优劣判断;S:数据监控、元数据管理、业务流程的理解、预先计算好的中间表或者应用表;......
  • 基于JAVA的教学辅助系统的设计与实现
    随着互联网技术的快速发展,利用电脑进行学习办公已经成为大众非常喜欢的工作方式。为更好的辅助高校C++课程教学工作,利用互联网进行C++进行教学辅助,成为这门课程教师的关注的重点。本文通过对当前市场的教学辅助应用软件P进行需求调研,以怎样更方便为师生提供便捷的教学辅助服务为目......
  • 第7期ThreadX视频教程:如何实现RTOS高效的任务管理,抢占式调度,时间片调度和零中断延迟(20
    视频教程汇总帖:https://www.armbbs.cn/forum.php?mod=viewthread&tid=110519 本期视频为大家分享高效的RTOS任务管理设计,通过这个点来引出抢占式调度,时间片调度,任务优先级设置和零中断延迟。RTOS任务高效管理是我们使用RTOS一个重要原因。视频:https://www.bilibili.com/vi......
  • golang-groutine有序调度
    本质上还是通过channel的队列性质(FIFO)来实现的,以这个思路为主。1functest1(){2varwgsync.WaitGroup34varch1=make(chanint,1)5varch2=make(chanint,1)6varch3=make(chanint,1)7varprintSelffunc(pCont......
  • 力扣-任务调度器
    1.问题描述给定一个用字符数组表示的CPU需要执行的任务列表。其中包含使用大写的A-Z字母表示的26种不同种类的任务。任务可以以任意顺序执行,并且每个任务都可以在1个单位时间内执行完。CPU在任何一个单位时间内都可以执行一个任务,或者在待命状态。然而,两个相同种类的......