Shuffle与Stage划分

时间：2024-01-16 13:23:30浏览次数：29

一：Shuffle

在宽依赖关系中，RDD会根据每条记录的key进行不同分区的数据聚集，数据聚集的过程称为Shuffle。例如，对一个RDD进行reduceByKey()操作，RDD中相同key的所有记录将进行聚合，而key相同的所有记录可能不在同一个分区中，甚至不在同一个节点上，但是该操作必须将这些记录聚集到一起进行计算才能保证结果准确，因此reduceByKey()操作会产生Shuffle，也会产生宽依赖。

二：Stage划分

在Spark中，对每一个RDD的操作都会生成一个新的RDD，将这些RDD用带方向的直线连接起来（从父RDD连接到子RDD）会形成一个关于计算路径的有向无环图，称为DAG（Directed Acyclic Graph）。

Spark会根据DAG将整个计算划分为多个阶段，每个阶段称为一个Stage。每个Stage由多个Task任务并行进行计算，每个Task任务作用在一个分区上。

Stage的划分依据为是否有宽依赖，即是否有Shuffle。Spark调度器会从DAG图的末端向前进行递归划分，遇到Shuffle则进行划分，Shuffle之前的所有RDD组成一个Stage，整个DAG图为一个Stage。经典的单词计数执行流程的Stage划分：

再看一个比较复杂一点的Stage划分：

该图中的依赖关系一共可以划分为3个Stage：从后向前进行递归划分，由于RDD6到RDD7的转换是Shuffle操作，因此在RDD6与RDD7之间划开，然后继续向前查找，RDD3、RDD4、RDD5、RDD6为一个Stage；由于RDD1到RDD2的转换是Shuffle操作，因此在RDD1与RDD2之间划开，然后继续向前查找，RDD1为一个Stage；整个转换过程为一个Stage。

标签：DAG,RDD6,RDD,划分,Shuffle,Stage
From： https://www.cnblogs.com/tianpan666/p/17967442

The 2nd Universal Cup Stage 18: Dolgoprudny H
题意大概是说求有所有有标号有根树及其黑白染色方案使得定义\(S_{x}\)为\(x\)和其儿子节点构成的集合，则\(S_{x}\)中的黑色节点个数要求不少于白色节点个数，且定义\(x\)的白色节点个数为\(cnt_{x}\)，则其方案的贡献为\(\sum_{i=1}^{n}cnt_{i}!\)(原题意这里似乎说的非常抽......
机器视觉 - YoloV8 划分数据集
train/val/test的关系纯训练命令行参数mode=trainval=Falsemodel=yolov8n.pt训练+val命令行参数mode=trainval=Truemodel=yolov8n.pt验证预训练模型的命令行参数mode=valsplit=valmodel=yolov8n.pt验证自有模型的命令行参数mode=valsplit=valm......
【C语言】模块划分、编译器工作原理
模块划分在实际应用中，一个较大的C程序并不会把所有代码都放入main主函数中，而是进行模块化设计，每个程序模块作为一个源程序文件，再由若干源程序文件组成一个C程序。这样处理便于分别编写、分别编译、进而提高调试效率。#include<stdio.h>voidfunc1(){//函数声明并定义......
数据中心安全域的设计和划分
本文介绍了安全域设计方法、设计步骤、安全域模型、安全域互访原则、安全域边界整合及整合原则及边界防护技术。安全区域(以下简称为安全域)是指同一系统内有相同的安全保护需求，相互信任，并具有相同的安全访问控制和边界控制策略的子网或网络。安全域划分是保证网络及基础设施稳定正......
企业网络安全区域划分的原则和方法
网络逐渐成为企业运营不可或缺的一部分，基于互联网的应用、远程培训、在线订购以及财务交易等，极大地提高企业的生产力和盈利能力，带来很多的便利。但在享受便利的同时，网络系统同样也成为安全威胁的首要目标，网络安全面临着前所未有的威胁。威胁不仅来自人为的破坏，也来自自然环境。各种......
IP防水等级划分及测试方法介绍
在工业生产中，特别是可在户外使用的电子电器产品，对设备都会有不同等级的防尘防水要求。自动化仪表设备的外壳防护等级（IP代码/防尘防水），是保证设备正常运行、保证产品安全可靠性防护的一项重要指标。那么，在选择与使用仪表产品时，就要特别关注一下仪器仪表的防护等级，这对于正确**品选型，......
《PySpark大数据分析实战》-08.宽窄依赖和阶段划分
......
Apple Logic Pro 10.7 (Logic Pro 10.7 + MainStage 3.5 (Universal))
作者：gc，主页：www.sysin.orgLogicPro本领先声夺人，创意一鸣惊人。使用实时循环乐段，以全新方式进行音乐创作和即兴演奏。借助采样器和快速采样器将声音转化为乐器。通过步进音序器来快速制作鼓点节拍和旋律模式。利用LogicRemote在iPad或iPhone上掌控乐曲的创作。LogicProMai......
【计算机网络子网划分指南】
(文章目录)什么是子网划分？子网划分是将一个大型网络划分为若干个更小的子网络的过程。通过将网络划分为子网，管理员可以更好地控制流量、隔离故障、提高网络效率，并增强网络的安全性。子网划分的好处1.提高网络性能子网划分可以减少广播域的大小，从而减少网络中的广播流量。有助......
软件测试/测试开发|测试用例设计方法——等价类划分
前言在软件测试领域，测试用例设计是确保软件系统质量的关键环节之一。等价类划分法（EquivalencePartitioning）是一种被广泛采用的测试用例设计技术，它通过将输入数据划分为相互等价的类别，以确保在每个等价类中选择适当的测试用例，从而提高测试的全面性和效率。1.了解等价类划分法......

Shuffle与Stage划分

相关文章

赞助商

阅读排行