首页 > 其他分享 >Spark的Transform算子对应依赖关系

Spark的Transform算子对应依赖关系

时间:2022-11-24 18:33:30浏览次数:42  
标签:依赖 分区 Transform RDD ManyToOneDependency 算子 类型 操作 Spark

OneToOneDependency类型的操作

Spark的Transform算子对应依赖关系_spark

Spark的Transform算子对应依赖关系_数据_02

RangeDependency类型的操作

Spark的Transform算子对应依赖关系_数据_03

Spark的Transform算子对应依赖关系_数据_04

ManyToOneDependency类型的操作

Spark的Transform算子对应依赖关系_spark_05

coalesce(shuffle=false) 、 特殊情况下的union() , 以及zipPartitions() 操作对应的数据依赖关系都是ManyToOneDependency, child RDD中的每个分区需要从parent RDD中获取所依赖的多个分区的全部数据。 由于ManyToOneDependency是窄依赖, 所以Spark将parent RDD和child RDD组合为一个stage, 该stage生成的task个数与最后的RDD的分区个数相等。

Spark的Transform算子对应依赖关系_spark_06

ManyToManyDependency类型的操作

Spark的Transform算子对应依赖关系_依赖关系_07

Spark的Transform算子对应依赖关系_spark_08

单一ShuffleDependency类型的操作

Spark的Transform算子对应依赖关系_数据_09

Spark的Transform算子对应依赖关系_数据_10

多ShuffleDependency类型的操作

Spark的Transform算子对应依赖关系_依赖关系_11

Spark的Transform算子对应依赖关系_数据_12


标签:依赖,分区,Transform,RDD,ManyToOneDependency,算子,类型,操作,Spark
From: https://blog.51cto.com/snailGo/5884457

相关文章

  • 大数据开发!Pandas转spark无痛指南!⛵
    ......
  • 已解决:一步一步扫清transformers的坑。(1)
    1.jupyternotebook下关于transformers报错:无法导入管道pipeline解析:不要用新版本的transformers,一般用3.4.0或者3.0.2,因为结合网上评论和我的试用,这两个没出现啥问题。2.......
  • spark代码优化
    Spark代码优化RDD、DataFrame、DataStream、DataSet四者的区别?1、RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。2、DataFrame除了提供了比RDD更......
  • spark概述与搭建
    Spark概述与搭建1、离线计算,基于内存,所以比MapReduce(基于磁盘)快(Flink真正实时型框架)2、spark处理量级在GB量级3、spark构成:BDAS,将数据变成DataFrame(DF基于pandas框架,表......
  • Spark+ClickHouse实战企业级数据仓库,进军大厂必备(19章全)
    分享一套Spark+ClickHouse大数据课程——《Spark+ClickHouse实战企业级数据仓库,进军大厂必备》,课程一共19章,提供源码+软件下载!《Spark+ClickHouse实战企业级数据仓库,进军大......
  • transform
    2D位移(和子绝父相中的top,left类似,百分比的话,最大位移距离等于它本身)transform:translate(x,y)transform:translateX(x)transform:translateY(y)例如:100px*100px的方块最大位移......
  • spark中生成时间序列数据的函数stack和sequence
    Sequence函数用Sequence函数生成时间序列函数,真的是非常简便易用,之前因为没找到,所以走了不少弯路。println("指定开始和结束数字,生成对应的数字序列,通过第三个参数来......
  • spark (六) RDD算子(operator)
    目录1转换算子(transformer)(将旧的RDD包装成新RDD)1.1单值类型1.1.1map1.1.2mapPartition1.1.3mapPartitionsWithIndex1.1.4flatMap1.1.5glom1.1.6groupBy1.1.7f......
  • spark (五) RDD的创建 & 分区
    目录1.RDD的创建方式1.1从内存创建RDD1.2从外部存储(文件)创建RDD1.3从其他的RDD创建1.4直接newRDD2.分区(partition)2.1makeRDD的分区2.2读取文件的分区例子2.2.1......
  • 【Unity3D】Unity 脚本 ③ ( C# 脚本的执行入口函数 | 获取当前游戏物体及物体名称 |
    文章目录​​一、C#脚本的执行入口函数​​​​二、获取当前游戏物体及物体名称​​​​三、获取游戏物体的Transform组件数据​​​​四、UnityEngine命名空间简介......