Spark知识小解

时间：2024-03-13 18:29:24浏览次数：24

标签：备份知识小解 Hadoop MapReduce 操作 spark 数据 Spark

1.Hadoop生态圈及组件：

在了解 Hadoop 生态系统及其组件之前，我们首先了解一下 Hadoop 的三大组件，即 HDFS、MapReduce、YARN，它们共同构成了 Hadoop 分布式计算框架的核心。

HDFS（Hadoop Distributed File System）：HDFS 是 Hadoop 的分布式文件系统，它是将大规模数据分散存储在多个节点上的基础。HDFS 主要负责数据的存储和管理，可以将大数据集分成多个数据块，并将这些数据块分配到不同的计算节点上存储，提高数据的可靠性和处理效率。

MapReduce：MapReduce 是 Hadoop 的分布式计算框架，它提供了一种简单的编程模型，通过将大规模数据分解成多个小任务并行处理，可以大大提高数据处理的效率。MapReduce 模型包括 Map 和 Reduce 两个阶段，其中 Map 阶段将数据分解成多个小块进行处理，Reduce 阶段将处理结果合并。

YARN（Yet Another Resource Negotiator）：YARN 是 Hadoop 的资源管理器，它负责为多个应用程序分配和管理计算资源，可以有效地提高计算资源的利用率。YARN 可以将集群中的计算资源划分为多个容器，为不同的应用程序提供适当的资源，并监控和管理各个应用程序的运行状态。

2.MapReduce特点及运行架构：计算向数据靠拢，分而治之，MapReduce包含四个组成部分，分别为Client、JobTracker、TaskTracker和Task，下面我们详细介绍这四个组成部分。

3.spark的特点及与MapReduce的区别：

(1)运行速度快，如果数据由磁盘读取，速度是hadoop mapreduce的10倍以上，如果数据从内存读取，速度是hadoop mapreduce的100倍以上。主要原因是因为基于内存计算和引入DAG执行引擎。

(2)易用性好，spark不仅支持scala编程呢个，还支持java和python编写。

(3)通用性好

(4)随处运行

区别：(1)spark把中间数据放在内存中，迭代运算效率高。mapreduce中的计算结果保存在磁盘上，而spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。

(2)spark容错性高。引进了RDD,如果数据集一部分丢失，则可以重建。另外，在RDD计算时可以通过checkpoint来实现容错。

(3)spark更加通用。不像hadoop只提供map和reduce两种操作。spark提供的数据集操作类型有很多种，大致分为转换操作和行动操作。转换操作包括map,filter,flatmap,sample,groupbykey,reducebykey,union,join,cogroup,mapvalues,sort和partionby等多种操作类型，行动操作包括collect,reduce,lookup和save等操作类型。另外，各个处理节点之间的通信模型不再像Hadoop只有shuffle一种模式，用户可以命名，物化，控制中间结果的存储，分区等。

4.冷备，温备，热备：

热备（在线备份）：在数据库运行时直接备份，对数据库操作没有任何影响。
冷备（离线备份）：在数据库停止时进行备份。
温备：在数据库运行时加全局读锁备份，保证了备份数据的一致性，但对性能有影响。

5.数据类型：

基本数据类型

标签：备份,知识,小解,Hadoop,MapReduce,操作,spark,数据,Spark
From： https://blog.csdn.net/xy20035237/article/details/136687595

FPGA的时钟IP核知识点
IP核在我看来就跟stm32中的一些驱动的库函数一样，可以调用快速使用。不用一步一步的自己写底层原理。可以加速设计，快速设计代码。IP核的PLL还有一个MMCM。PLL是锁相环，对时钟进行管理。也是后面使用中很重要的IP核。不同器件需要不同的时钟。时钟管理单元CMT=PLL+MMCM混合时钟管......
UVM - 2 (补充虚基类及纯虚函数知识点)
虚方法和纯虚方法虚方法定义一个函数为虚函数，不代表函数为不被实现的函数。定义他为虚函数是为了允许用基类的指针来调用子类的这个函数。virtualfunction纯虚方法定义一个函数为纯虚函数，才代表函数没有被实现。定义纯虚函数是为了实现一个接口，起到一个规范的作用，规范......
【Linux进程的知识点】
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言操作系统的知识补充我们来理解一个用户操作接口：进程的理解进程的基本概念描述进程-PCBtask_struct-PCB的一种task_struct内容分类进程的task_struct本身内部的属性有哪些？1、启动查找pid......
商票琐碎知识点记录
1.基础交易关系：直接前手可以基于没有基础关系进行抗辩【票据司法解释第二条依照票据法第十条的规定，票据债务人（即出票人）以在票据未转让时的基础关系违法、双方不具有真实的交易关系和债权债务关系、持票人应付对价而未付对价为由，要求返还票据而提起诉讼的，人民法院应当依法受理......
大模型时代企业知识全生命周期管理解决方案
©作者|Zhongmei来源|神州问学摘要越来越多的企业开始意识到数据的重要性。同时意识到，企业想保持长远的发展，还需要协调组织协作、利用现有的数据沉淀经验知识、累积数据资产。据IDC调查，目前企业结构化数据仅占到全部数据量的20%，其余80%都是以文件形式存在的非结构化......
C语言最重要的知识点(2)
第二章第一节：数据输出（一）（二）1、使用printf和scanf函数时，要在最前面加上#include“stdio.h”2、printf可以只有一个参数，也可以有两个参数。（选择题考过一次）3、printf（“第一部分”，第二部分）；把第二部分的变量、表达式、常量以第一部分的形式展现出来！4、printf（“a=%d，b=%d”，12......
机器学习知识点
目录机器学习的概念：样本：特征：标签：回归和分类任务：泛化能力：假设空间：输出空间：有监督学习：无监督学习：半监督学习：奥卡姆剃刀：四个损失函数：正确率：误差：过拟合：过拟合的处理：欠拟合欠拟合的处理方式：没有免费的午餐定理（NFL定理）：误差训练误差：测试误差：验证误差：泛化误差......
go语言入门基础知识
目录序安装常用命令一、数据类型1.布尔值2.字符串字符串遍历3.字符4.整型位运算5.浮点6.复数7.map二、常量、变量1.变量2.常量3.预定义常量iota4.枚举三、流程控制1.条件语句2.选择语句3.循环语句4.跳转语句四、函数不定参数匿名函数与闭包make()函数new函数闭包defer五、数组1.......
【linux】HTTP资源概念；URL,URI,MIME,静态,动态,伪静态核心名词知识全面讲解
鱼弦：公众号：红尘灯塔，CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主) 、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）HTTP资源概念：HTTP资源是通过HTTP协议访问的可识别和可获取的信息。它可以是文本、图像、视频、音频、网页......
数据库基础--Redis知识体系（掌握Redis，看完这篇文章就够了！）
1.Redis数据库Redis是一个开源的高性能键值存储数据库，类似字典。通常用作缓存、消息队列和数据存储等用途。mysql，mongodb都是以文件形式存储在磁盘上的，redis数据存在内存中，操作内存的速度远远高于磁盘，并且redis数据最终也可以存储在磁盘上。Redis支持多种数据结构，包括字符串......

Spark知识小解

基本数据类型

相关文章

赞助商

阅读排行