首页 > 其他分享 >寒假学习(19)

寒假学习(19)

时间:2024-02-24 21:24:36浏览次数:38  
标签:19 DataFrame 查询 学习 RDD 寒假 SQL Spark 优化

今天我开始学习spark基础知识,首先从他的基本概念和理论开始入手:

 

RDD(Resilient Distributed Dataset):

RDD 是 Spark 提供的一个抽象数据类型,代表一个可以分布式计算的数据集合。它是 Spark 中最基本的数据结构,具有以下特点:

分区(Partition):RDD 可以分成多个分区,每个分区可以在集群中的不同节点上进行计算。
容错性(Resilient):RDD 具有容错性,即在节点发生故障时能够通过血统(lineage)重建丢失的分区。
不可变性(Immutable):RDD 的数据内容不可更改,只能通过转换操作生成新的 RDD。
RDD 支持两种类型的操作:

转换操作(Transformation):对现有的 RDD 进行转换生成新的 RDD,例如 map、filter、reduceByKey 等。
动作操作(Action):触发真正的计算并返回结果,例如 count、collect、saveAsTextFile 等。
DataFrame:

DataFrame 是 Spark SQL 中的概念,它是一种分布式的数据表格,类似于关系数据库中的表。DataFrame 具有以下特点:

列名和类型:DataFrame 中的每一列都有明确的名称和数据类型,方便进行列操作和查询。
支持 SQL 查询:可以使用 SQL 查询语句对 DataFrame 进行查询和分析。
优化器:Spark SQL 使用 Catalyst 优化器优化查询计划,提高查询性能。
DataFrame 可以通过读取外部数据源(如 CSV、JSON、Parquet 等)或通过对已有的 RDD 进行转化而创建。

Spark SQL:

Spark SQL 是 Spark 提供的模块,用于处理结构化数据。它包括了 Spark Core 中的 RDD 和 Spark SQL 中的 DataFrame API 两种接口。Spark SQL 具有以下特点:

支持 SQL 查询:可以直接使用 SQL 语句对数据进行查询和分析。
统一的数据访问:可以同时操作不同来源的数据,如 Hive 表、Parquet 文件、关系数据库等。
优化器:Spark SQL 使用 Catalyst 优化器来优化查询计划,提高查询性能。
Spark SQL 还提供了很多内置函数和语法糖,方便开发人员进行数据处理和分析。

Spark Streaming:

Spark Streaming 是 Spark 提供的流式数据处理引擎,用于处理实时数据流。其工作原理是将连续的数据流按照一定的时间间隔划分为小的批次数据,并将每个批次作为 RDD 进行处理。

Spark Streaming 可以与 Spark Core 中的各种操作和库无缝集成,可以方便地进行实时数据处理和分析。常见的使用场景包括日志分析、实时监控等。

 

接下来我会开始spark的安装与学习。

标签:19,DataFrame,查询,学习,RDD,寒假,SQL,Spark,优化
From: https://www.cnblogs.com/zjsdbk/p/18031594

相关文章

  • 2024牛客寒假算法基础集训营4个人补题题解(B、E)
    B、左右互博不能操作的情况有且仅有所有石子堆的石子个数只有1的时候,因此不管途中怎么操作,让所有石子堆都变成1的总操作次数是确定的。即假设一共有\(n\)堆石子,石子总数为\(sum\),总操作次数为\((sum-n)\)次。因此当\((sum-n)\)%\(2=0\)时一定在sweet操作完(或没有操作)后gui无法......
  • 寒假学习(20)
    昨天我已经安装好spark,今天进入学习阶段,首先学习spark的一些基础编程:Spark应用程序:Spark应用程序由一个驱动器程序(DriverProgram)和多个执行器(Executors)组成。驱动器程序负责在集群上运行主程序并创建Spark上下文,而执行器负责在工作节点上执行任务。Spark上下文(Spar......
  • 后缀数组学习笔记 应用篇
    一些后缀数组的应用。利用\(sa\)和\(rk\)数组这类题目通常需要发掘一些性质,转化为求串的字典序最小/大后缀或长度固定的子串。P3809【模板】后缀排序后缀数组板子。P6095[JSOI2015]串分割二分答案串的排名。CF1923FShrink-Reverse转化为求长度为\(len\)的字典......
  • 寒假集训小结
    难度加码、只点不帮——吕教练寒假集训总共十五天左右,年前七天,年后八天。可以说,从去年训到今年。我这个弱鸡是高一零基础,在九月份才刚接触到oi,所以这次寒假集训是我第一次长训。(脱离文化课的困扰还是非常nice的),而且别的不说,就是全身心投入到竞赛上的感觉也是非常棒的!年......
  • P1197 [JSOI2008] 星球大战
    原题链接题解,请看题解区第一篇,看一遍就会了code#include<bits/stdc++.h>usingnamespacestd;intfa[400005]={0};intfinds(intnow){returnfa[now]=(fa[now]==now?now:finds(fa[now]));}vector<int>G[400005];intbroke[400005];intBroke[400005]={0};intm......
  • Linux学习-day2
    1.解释传统运维是什么;解释云计算运维是什么;区别在哪?传统运维需要去机房,与机器打交道,需要承受机房的低温、高噪音环境;云计算运维相比传统运维实现了由实转需的变化,坐在办公室,对云服务器进行维护,对程序和软件进行安装部署,以及日常的监控和维护。2.解释你理解的服务器机房。......
  • 痛定思痛,好好做人,从头过一遍PyTorch框架(一)(1.深度学习简介、2.预备知识)
    现在是2024年2月24日,13:59,从研一就开始断断续续说要过一遍框架,到现在博一下学期,还一直拖着呢,拖延症太可怕啦,决定好好做人,不拖了,就从现在开始,好好过一遍,呜呜呜呜呜呜呜呜,(罪该万死)。看的教程是:《动手学深度学习》(PyTorch版),是把李沐老师的《动手学深度学习》原书中的MXNet实现改......
  • 2024牛客寒假算法基础集训营3
    2024牛客寒假算法基础集训营3A 智乃与瞩目狸猫、幸运水母、月宫龙虾题意给出若干组字符串,判断无视大小写,判断首字母是否相同思路如果首字母相同,则直接用\(==\)比较即可,如果首字母只有大小写的区别,则ASCII码值相差\(32\)代码/*******************************|Author:......
  • 机器学习
    【Coursera版本学习目录】 https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes(一)监督学习(线性回归、逻辑回归、神经网络、支持向量机SVM)。(二)无监督学习:聚类K-meas算法、主成分分析PCA,异常检测(主要用于无监督,某些角度又类似监督学习),推荐系统(基于内容的推荐、协同过滤—基......
  • 状态机模式的初步了解及学习心得体会
    这种模式,解决的是,程序在不同状态切换及增加新的状态时,需要改很多代码的问题。它能用简单的逻辑控制程序从一个状态切换为其他被允许的状态,我昨天在网上看的一个例子,一个播放器,有播放,暂停,关闭的状态。处于关闭状态时,只能响应播放的代码;处于暂停状态时,能响应关闭和播放代码;处于播放......