首页 > 其他分享 >Shuffle与Stage划分

Shuffle与Stage划分

时间:2024-01-16 13:23:30浏览次数:24  
标签:DAG RDD6 RDD 划分 Shuffle Stage

一:Shuffle

     在宽依赖关系中,RDD会根据每条记录的key进行不同分区的数据聚集,数据聚集的过程称为Shuffle。例如,对一个RDD进行reduceByKey()操作,RDD中相同key的所有记录将进行聚合,而key相同的所有记录可能不在同一个分区中,甚至不在同一个节点上,但是该操作必须将这些记录聚集到一起进行计算才能保证结果准确,因此reduceByKey()操作会产生Shuffle,也会产生宽依赖。

 

二:Stage划分

     在Spark中,对每一个RDD的操作都会生成一个新的RDD,将这些RDD用带方向的直线连接起来(从父RDD连接到子RDD)会形成一个关于计算路径的有向无环图,称为DAG(Directed Acyclic Graph)。 

     Spark会根据DAG将整个计算划分为多个阶段,每个阶段称为一个Stage。每个Stage由多个Task任务并行进行计算,每个Task任务作用在一个分区上。

    Stage的划分依据为是否有宽依赖,即是否有Shuffle。Spark调度器会从DAG图的末端向前进行递归划分,遇到Shuffle则进行划分,Shuffle之前的所有RDD组成一个Stage,整个DAG图为一个Stage。经典的单词计数执行流程的Stage划分:    

     再看一个比较复杂一点的Stage划分: 

   该图中的依赖关系一共可以划分为3个Stage:从后向前进行递归划分,由于RDD6到RDD7的转换是Shuffle操作,因此在RDD6与RDD7之间划开,然后继续向前查找,RDD3、RDD4、RDD5、RDD6为一个Stage;由于RDD1到RDD2的转换是Shuffle操作,因此在RDD1与RDD2之间划开,然后继续向前查找,RDD1为一个Stage;整个转换过程为一个Stage。

 

标签:DAG,RDD6,RDD,划分,Shuffle,Stage
From: https://www.cnblogs.com/tianpan666/p/17967442

相关文章

  • The 2nd Universal Cup Stage 18: Dolgoprudny H
    题意大概是说求有所有有标号有根树及其黑白染色方案使得定义\(S_{x}\)为\(x\)和其儿子节点构成的集合,则\(S_{x}\)中的黑色节点个数要求不少于白色节点个数,且定义\(x\)的白色节点个数为\(cnt_{x}\),则其方案的贡献为\(\sum_{i=1}^{n}cnt_{i}!\)(原题意这里似乎说的非常抽......
  • 机器视觉 - YoloV8 划分数据集
    train/val/test的关系纯训练命令行参数mode=trainval=Falsemodel=yolov8n.pt训练+val命令行参数mode=trainval=Truemodel=yolov8n.pt验证预训练模型的命令行参数mode=valsplit=valmodel=yolov8n.pt验证自有模型的命令行参数mode=valsplit=valm......
  • 【C语言】模块划分、编译器工作原理
    模块划分在实际应用中,一个较大的C程序并不会把所有代码都放入main主函数中,而是进行模块化设计,每个程序模块作为一个源程序文件,再由若干源程序文件组成一个C程序。这样处理便于分别编写、分别编译、进而提高调试效率。#include<stdio.h>voidfunc1(){//函数声明并定义......
  • 数据中心安全域的设计和划分
    本文介绍了安全域设计方法、设计步骤、安全域模型、安全域互访原则、安全域边界整合及整合原则及边界防护技术。安全区域(以下简称为安全域)是指同一系统内有相同的安全保护需求,相互信任,并具有相同的安全访问控制和边界控制策略的子网或网络。安全域划分是保证网络及基础设施稳定正......
  • 企业网络安全区域划分的原则和方法
    网络逐渐成为企业运营不可或缺的一部分,基于互联网的应用、远程培训、在线订购以及财务交易等,极大地提高企业的生产力和盈利能力,带来很多的便利。但在享受便利的同时,网络系统同样也成为安全威胁的首要目标,网络安全面临着前所未有的威胁。威胁不仅来自人为的破坏,也来自自然环境。各种......
  • IP防水等级划分及测试方法介绍
    在工业生产中,特别是可在户外使用的电子电器产品,对设备都会有不同等级的防尘防水要求。自动化仪表设备的外壳防护等级(IP代码/防尘防水),是保证设备正常运行、保证产品安全可靠性防护的一项重要指标。那么,在选择与使用仪表产品时,就要特别关注一下仪器仪表的防护等级,这对于正确**品选型,......
  • 《PySpark大数据分析实战》-08.宽窄依赖和阶段划分
    ......
  • Apple Logic Pro 10.7 (Logic Pro 10.7 + MainStage 3.5 (Universal))
    作者:gc,主页:www.sysin.orgLogicPro本领先声夺人,创意一鸣惊人。使用实时循环乐段,以全新方式进行音乐创作和即兴演奏。借助采样器和快速采样器将声音转化为乐器。通过步进音序器来快速制作鼓点节拍和旋律模式。利用LogicRemote在iPad或iPhone上掌控乐曲的创作。LogicProMai......
  • 【计算机网络子网划分指南】
    (文章目录)什么是子网划分?子网划分是将一个大型网络划分为若干个更小的子网络的过程。通过将网络划分为子网,管理员可以更好地控制流量、隔离故障、提高网络效率,并增强网络的安全性。子网划分的好处1.提高网络性能子网划分可以减少广播域的大小,从而减少网络中的广播流量。有助......
  • 软件测试/测试开发|测试用例设计方法——等价类划分
    前言在软件测试领域,测试用例设计是确保软件系统质量的关键环节之一。等价类划分法(EquivalencePartitioning)是一种被广泛采用的测试用例设计技术,它通过将输入数据划分为相互等价的类别,以确保在每个等价类中选择适当的测试用例,从而提高测试的全面性和效率。1.了解等价类划分法......