【Spark Core】RDD详解

时间：2024-07-02 08:59:30浏览次数：18

标签：Core 分区 RDD MR Spark 数据分布式

一、RDD基本介绍

1、为什么需要RDD

没有RDD之前：

1.MR:只提供了map和reduce的API,而且编写麻烦,运行效率低!---早淘汰了!

2.使用Python/Scala/Java的本地集合:但是只能完成本地单机版的,如果要实现分布式的,---很困难!

所以需要有一个分布式的数据抽象,也就是用该抽象,可以表示分布式的集合，那么基于这个分布式集合进行操作,就可以很方便的完成分布式的WordCount! (该分布式集合底层应该将实现的细节封装好,提供简单易用的API!)

在此背景之下,RDD就诞生了!

MR中的迭代：

MR的这种方式对数据领域两种常见的操作不是很高效。第一种是迭代式的算法。比如机器学习中ALS、凸优化梯度下降等。这些都需要基于数据集或者数据集的衍生数据反复查询反复操作。MR这种模式不太合适，即使多MR串行处理，性能和时间也是一个问题。数据的共享依赖于磁盘。另外一种是交互式数据挖掘，MR显然不擅长。

Spark中的迭代：

我们需要一个效率非常快，且能够支持迭代计算和有效数据共享的模型，Spark应运而生。RDD是基于工作集的工作模式，更多的是面向工作流。但是无论是MR还是RDD都应该具有类似位置感知、容错和负载均衡等特性。

2、什么是RDD

Spark起源

在Spark开山之作Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing这篇paper中（以下简称 RDD Paper），Matei等人提出了RDD这种数据结构，文中开头对RDD的定义是：

RDD设计的核心点

RDD提供了一个抽象的数据模型，不必担心底层数据的分布式特性，只需将具体的应用逻辑表达为一系列转换操作（函数），不同RDD之间的转换操作之间还可以形成依赖关系，进而实现管道化，从而避免了中间结果的存储，大大降低了数据复制、磁盘IO和序列化开销，并且还提供了更多的API(map/reduec/filter/groupBy...)。

3、RDD定义

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。所有的运算以及操作都建立在 RDD 数据结构的基础之上。可以认为RDD是分布式的列表List或数组Array，抽象的数据结构，RDD是一个抽象类Abstract Class和泛型Generic Type：

Resilient弹性：【RDD的数据可以保存到内存或者磁盘】

Distributed分布式：【RDD的数据可以分布式存储在集群中的节点，用于分布式计算】

Dataset数据集：【一个用于存放数据的集合】

4、RDD的5大特性

1、（必须的）RDD是有一系列分区组成的

2、（必须的）对RDD做计算，相当于对RDD的每个split或分区做计算

3、（必须的）RDD之间存在着依赖关系，宽依赖和窄依赖

4、（可选的）对于KV类型的RDD，我们可以进行自定义分区方案

5、（可选的）移动数据不如移动计算，让计算程序离数据越近越好

5、RDD特点

特点1:分区-RDD逻辑上是分区的，每个分区的数据是抽象存在的，计算的时候会通过一个compute函数得到每个分区的数据。

特点2:只读-RDD是只读的，要想改变RDD中的数据，只能在现有的RDD基础上创建新的RDD。

特点3:依赖-RDDs之间维护着这种血缘关系，也称之为依赖

特点4:缓存-如果在应用程序中多次使用同一个RDD，可以将该RDD缓存起来，该RDD只有在第一次计算的时候会根据血缘关系得到分区的数据

特点5:checkpoint-随着迭代的进行，RDDs之间的血缘关系会越来越长，一旦在后续迭代过程中出错，则需要通过非常长的血缘关系去重建，势必影响性能。为此，RDD支持checkpoint将数据保存到持久化的存储中，这样就可以切断之前的血缘关系

标签：Core,分区,RDD,MR,Spark,数据,分布式
From： https://blog.csdn.net/weixin_52854743/article/details/140051965

Spark_04 SparkSQL的介绍及使用
说明这一章主要包括对于sparksql概念的介绍，sparksql的特点，sparksql用到的数据类型，DataFrame的基础方法等。概念SparkSQL是Spark用于处理结构化数据的模块。诞生由于MapReduce这种计算模型的执行效率较慢，rdd原生代码较为复杂，所以引入了SparkSQL应运而生。它可以将sql转换为......
ASP.NET Core MVC 从入门到精通之HttpContext
原文链接：https://www.cnblogs.com/hsiang/p/17368101.html什么是HttpContext?在B/S模式开发的程序中，客户端是浏览器，服务器端Web服务程序，HttpContext是连接客户端和服务器端程序的桥梁，交代了当前请求的环境信息，它封装了请求[Request]和响应[Response]及其他所有信息，示意图如下所......
Microsoft.AspNetCore.Builder.ForwardedHeadersOptions
答案为ai生成ForwardedHeadersOptions是ASP.NETCore中用于配置转发头部的一个类。当应用程序位于负载均衡器（https://blog.csdn.net/cyl101816/article/details/135195729）、反向代理服务器等后面时，由于HTTP请求会通过多个代理或转发，原始的请求头（如X-Forwarded-For和X-For......
大数据面试题之Spark(6)
Spark输出文件的个数，如何合并小文件?Spark的driver是怎么驱动作业流程的?SparkSQL的劣势?介绍下SparkStreaming和StructedStreamingSpark为什么比Hadoop速度快?DAG划分Spark源码实现?SparkStreaming的双流join的过程，怎么做的?Spark的Bl......
ASP.NET Core 6 (.NET 6) 配置使用kestrel server
原文链接：https://blog.csdn.net/weixin_52026996/article/details/135929070简介：Kestrel是一个跨平台的、开源的、轻量级的HTTP服务器，它是ASP.NETCore的默认Web服务器。Kestrel是跨平台的，因此可以在不同的操作系统上运行，包括Windows、Linux和macOS。本文主要介绍ASP.......
一文带您了解Fiddler的家族产品：Fiddler Classic、FiddlerCore、Fiddler和Cap、Fiddler
最近更新了一下Fiddler（好久没更新了），然后浏览了一下官方网站，发现fillder的变化还是蛮大的，新出了好多产品，在这里我就把这些产品进行汇总比较，便于大家快速了解，快速选择自己需要的产品！Fiddler版本介绍FiddlerClassic（经典版）我们最为熟知的版本，这个版本是免费的，不过只能在Window......
解决.NET Core Ajax请求后台传送参数过大请求失败问题
原文链接：https://www.cnblogs.com/xiongze520/p/14500156.html今天在项目上遇到一个坑，在.NetCore中通过ajax向mvc的controller传递对象时，控制器（controller）的方法一直没有进去，百思不得其解，后面把传递的参数打印出来发现传递的参数比较大，有2.4M的数据，如下图：后面跟踪项目发现we......
Gradle Core Plugins (plugin is not in ‘org.gradle‘ namespace)
记录一个由gradle构建项目遇到的问题：起因：项目原先运行正常，不过个人移动了工程的目录位置，导致出现以下错误GradleCorePlugins(pluginisnotin'org.gradle'namespace)-PluginRepositories(couldnotresolvepluginartifact'com.android.application:com.androi......
中台框架模块开发实践-用 Admin.Core 代码生成器生成通用代码生成器的模块代码
前言之前分享中台Admin.Core的模块代码生成器，陆续也结合群友们的反馈，完善了一些功能和模板上的优化，而本篇将基于此代码生成器生成一个通用代码生成器模块的基本代码后续再在此代码的基础上进行完善，制作一个通用的代码生成器要做一个项目，首先我们要弄清楚需求，这里简单规划了......
C#/.NET/.NET Core优秀项目和框架2024年6月简报
前言公众号每月定期推广和分享的C#/.NET/.NETCore优秀项目和框架（每周至少会推荐两个优秀的项目和框架当然节假日除外），公众号推文中有项目和框架的介绍、功能特点、使用方式以及部分功能截图等（打不开或者打开GitHub很慢的同学可以优先查看公众号推文，文末一定会附带项目和框架源码......