spark (四) RDD概念

时间：2022-11-14 22:48:34浏览次数：53

标签：逻辑概念分区 RDD 计算 spark 节点 Spark

1. RDD基本概念
2. WordCount为例，看RDD特性
3. RDD的五大属性
4. RDD执行原理(yarn环境)

1. RDD基本概念

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集，是Spark中最基本的数据处理模型。代码中是一个抽象类，它代表了一个弹性的、不可变的、可分区、里面的元素可并行计算的集合。

1.1 弹性

存储的弹性：内存和磁盘的自动切换
- 因为内存是有限制的，如果使用的内存超过了一定的阈值，会将部分数据切换到磁盘上
容错的弹性：数据丢失可以自动回复
计算的弹性：计算出错重试机制
分片的弹性：可以根据需求重新分片

1.2 分布式

数据存储在大数据集群的不同节点上

1.3 数据集

RDD封装了计算逻辑，并不保存数据

1.4 数据抽象

RDD是一个抽象类，具体需要子类来实现

1.5 不可变

RDD封装了计算逻辑，是不可以改变的。想要改变只能产生新的RDD，在新的RDD里面封装计算逻辑（装饰器）

1.6 可分区、并行计算

RDD是一个逻辑上虚拟的集合，内部会拆分成多个partition 的 task，分配给executor

2. WordCount为例，看RDD特性

RDD的数据处理方式类似于IO流，也有装饰者模式
RDD的数据只有在调用collect方法时，才会真正执行业务逻辑的计算操作，前面都是在叠buff
与IO流能暂时缓存一部分数据(缓冲区)不同，RDD中间不缓存任何数据

3. RDD的五大属性

Internally, each RDD is characterized by five main properties:

A list of partitions
A function for computing each split
A list of dependencies on other RDDs
Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

3.1 分区列表

如上图，由于RDD内直接分区了，所以需要分区列表

3.2 计算逻辑 compute

针对该RDD下的所有分区，compute都是一样的

3.3 和其他RDD的依赖关系

3.4 (可选) 分区器

3.5 (可选) executor节点亲和

如下，其实任务发送给上面的

4. RDD执行原理(yarn环境)

4.1 启动Yarn集群环境

4.2 Spark通过申请资源创建调度节点和计算节点

4.3 Spark框架根据需求将计算逻辑根据分区划分成不同的任务。此处会将task放置到任务池中

4.4 调度节点将任务根据计算节点状态发送到对应的计算节点进行计算

从以上流程可以看出RDD在整个流程中主要用于将逻辑进行封装，并生成Task发送给Executor节点执行计算。

标签：逻辑,概念,分区,RDD,计算,spark,节点,Spark
From： https://www.cnblogs.com/baoshu/p/spark_4.html

spark (一) 入门 & 安装
目录基本概念spark核心模块sparkcore(核心)sparksql(结构化数据操作)sparkstreaming(流式数据操作)部署模式local(本地模式)standalone(集群模式)onyarn(集群模式)......
线程概念学习笔记
1.进程和线程1.1什么叫做线程定义:线程是CPU的基本调度单位,每个线程执行的都是进程代码的某个片段。实例演示:用活动监视器的CPU栏目看java进程的线程数的变化左边进......
【Spark】java.lang.NoSuchMethodException: org.apache.hadoop.hive.ql.metadata.Hiv
2/11/1419:02:23ERROR[main]SparkUncaughtExceptionHandler:UncaughtexceptioninthreadThread[main,5,main]java.lang.NoSuchMethodException:org.apache.hado......
Spark与Iceberg整合写操作-INSERT INTO，MERGE INTO，INSERT OVERWRITE，DELETE FROM，UPDATE，s
1.8.7Spark与Iceberg整合写操作1.8.7.1INSERTINTO"insertinto"是向Iceberg表中插入数据，有两种语法形式："INSERTINTOtblVALUES(1,"zs",18),(2,"ls",19)"、"INSERT......
Spark与Iceberg整合写操作-没有
1.9Flink1.13.5与Iceberg0.12.1整合目前Flink支持使用DataStreamAPI和SQLAPI方式实时读取和写入Iceberg表，建议大家使用SQLAPI方式实时读取和写入Iceberg表。Icebe......
Spark基础能力自测题
持之以恒，贵在坚持，每天进步一点点！前言就来分享一位粉丝提供的关于Spark的入门测试练习，希望大家看完有所收获！首先让我们准备好该题所需的数据test.txt ......
详解 Spark Core 调优之数据倾斜调优（建议收藏）
大家好，我是梦想家Alex，今天我想给大家分享一篇详解SparkCore调优的文章，本文较长，可以先收藏转发，再细细阅读....文章目录一、调优概述二、数据倾斜发生时的现象三、数据倾......
Nginx(概念，安装/升级，配置解析，SSL的安装)
目录：1.1nginx与apache差异1.2应用场景 2.1编译安装nginx2.2升级nginx2.3添加nginx系统服务 3.nginx配置文件3.2访问状态统计配置 4.1基于授权的访问控制4.2......
Linux系统编程·进程概念
你好，我是安然无虞。文章目录自学网站上文回顾进程控制块—PCB查看进程初识系统调用初始fork函数练习题自学网站......
sql server 聚集索引，非聚集索引，Identity ，gudi，主键的概念和比较
sqlserver聚集索引，非聚集索引，Identity，gudi，主键的概念和比较索引可以把索引理解为一种特殊的目录。微软的SQLSERVER提供了两种索引：聚集索引（clusteredindex，也称......

spark (四) RDD概念

1. RDD基本概念

1.1 弹性

1.2 分布式

1.3 数据集

1.4 数据抽象

1.5 不可变

1.6 可分区、并行计算

2. WordCount为例，看RDD特性

3. RDD的五大属性

3.1 分区列表

3.2 计算逻辑 compute

3.3 和其他RDD的依赖关系

3.4 (可选) 分区器

3.5 (可选) executor节点亲和

4. RDD执行原理(yarn环境)

4.1 启动Yarn集群环境

4.2 Spark通过申请资源创建调度节点和计算节点

4.3 Spark框架根据需求将计算逻辑根据分区划分成不同的任务。此处会将task放置到任务池中

4.4 调度节点将任务根据计算节点状态发送到对应的计算节点进行计算

相关文章

赞助商

阅读排行

spark (四) RDD概念

1. RDD基本概念

1.1 弹性

1.2 分布式

1.3 数据集

1.4 数据抽象

1.5 不可变

1.6 可分区、并行计算

2. WordCount为例，看RDD特性

3. RDD的五大属性

3.1 分区列表

3.2 计算逻辑 compute

3.3 和其他RDD的依赖关系

3.4 (可选) 分区器

3.5 (可选) executor节点亲和

4. RDD执行原理(yarn环境)

4.1 启动Yarn集群环境

4.2 Spark通过申请资源创建调度节点和计算节点

4.3 Spark框架根据需求将计算逻辑根据分区划分成不同的任务。此处会将task放置到 任务池中

4.4 调度节点将任务根据计算节点状态发送到对应的计算节点进行计算

相关文章

赞助商

阅读排行

4.3 Spark框架根据需求将计算逻辑根据分区划分成不同的任务。此处会将task放置到任务池中