首页 > 其他分享 >寒假学习(20)

寒假学习(20)

时间:2024-02-24 21:23:18浏览次数:22  
标签:20 变量 DataFrame 学习 RDD 寒假 SQL 操作 Spark

昨天我已经安装好spark,今天进入学习阶段,首先学习spark的一些基础编程:

  1. Spark 应用程序:

    • Spark 应用程序由一个驱动器程序(Driver Program)和多个执行器(Executors)组成。驱动器程序负责在集群上运行主程序并创建 Spark 上下文,而执行器负责在工作节点上执行任务。
  2. Spark 上下文(Spark Context):

    • Spark 上下文是与 Spark 集群连接的主要入口点,负责向集群分发任务、调度任务执行以及管理资源。通过 Spark 上下文,可以创建 RDD、DataFrame 等数据结构,并进行操作和计算。
  3. 创建 RDD:

    • 可以通过读取外部数据源(如文本文件、HDFS 文件、数据库表等)或在内存中创建数据集生成 RDD。例如,可以使用 sc.textFile() 方法创建一个文本文件对应的 RDD。
  4. RDD 操作:

    • RDD 支持两种操作:转换操作(Transformation)和动作操作(Action)。
      • 转换操作可以根据现有的 RDD 创建一个新的 RDD,例如 map、filter、reduceByKey 等。
      • 动作操作触发真正的计算并返回结果,例如 count、collect、saveAsTextFile 等。
  5. 共享变量:

    • 在 Spark 中,有两种类型的共享变量:广播变量(Broadcast Variables)和累加器(Accumulators)。
      • 广播变量用于将一个较大的只读变量有效地分发给所有工作节点。
      • 累加器用于在所有工作节点上对一个变量进行添加操作的快捷方式。
  6. Spark SQL:

    • Spark SQL 提供了一种在 Spark 程序中使用 SQL 进行数据查询和分析的接口。可以通过 spark.sql("SELECT * FROM table") 的方式执行 SQL 查询。
  7. DataFrame API:

    • DataFrame 是 Spark SQL 中的一种数据结构,类似于关系型数据库中的表格。DataFrame API 提供了丰富的方法用于处理和操作数据,可以直接对 DataFrame 进行操作而无需编写复杂的 MapReduce 代码。
  8. Spark Streaming:

    • Spark Streaming 是用于处理实时数据流的模块,可以将连续的数据流分成小批次来进行处理。通过 DStream(离散流)这一抽象概念,可以对实时数据进行高效处理和分析。

标签:20,变量,DataFrame,学习,RDD,寒假,SQL,操作,Spark
From: https://www.cnblogs.com/zjsdbk/p/18031600

相关文章

  • 2024-02-24:用go语言,给你一个 n 个点的带权无向连通图,节点编号为 0 到 n-1, 同时还有一
    2024-02-24:用go语言,给你一个n个点的带权无向连通图,节点编号为0到n-1,同时还有一个数组edges,其中edges[i]=[fromi,toi,weighti],表示在fromi和toi节点之间有一条带权无向边,最小生成树(MST)是给定图中边的一个子集,它连接了所有节点且没有环,而且这些边的权值和最......
  • 后缀数组学习笔记 应用篇
    一些后缀数组的应用。利用\(sa\)和\(rk\)数组这类题目通常需要发掘一些性质,转化为求串的字典序最小/大后缀或长度固定的子串。P3809【模板】后缀排序后缀数组板子。P6095[JSOI2015]串分割二分答案串的排名。CF1923FShrink-Reverse转化为求长度为\(len\)的字典......
  • 寒假集训小结
    难度加码、只点不帮——吕教练寒假集训总共十五天左右,年前七天,年后八天。可以说,从去年训到今年。我这个弱鸡是高一零基础,在九月份才刚接触到oi,所以这次寒假集训是我第一次长训。(脱离文化课的困扰还是非常nice的),而且别的不说,就是全身心投入到竞赛上的感觉也是非常棒的!年......
  • P1197 [JSOI2008] 星球大战
    原题链接题解,请看题解区第一篇,看一遍就会了code#include<bits/stdc++.h>usingnamespacestd;intfa[400005]={0};intfinds(intnow){returnfa[now]=(fa[now]==now?now:finds(fa[now]));}vector<int>G[400005];intbroke[400005];intBroke[400005]={0};intm......
  • Linux学习-day2
    1.解释传统运维是什么;解释云计算运维是什么;区别在哪?传统运维需要去机房,与机器打交道,需要承受机房的低温、高噪音环境;云计算运维相比传统运维实现了由实转需的变化,坐在办公室,对云服务器进行维护,对程序和软件进行安装部署,以及日常的监控和维护。2.解释你理解的服务器机房。......
  • 痛定思痛,好好做人,从头过一遍PyTorch框架(一)(1.深度学习简介、2.预备知识)
    现在是2024年2月24日,13:59,从研一就开始断断续续说要过一遍框架,到现在博一下学期,还一直拖着呢,拖延症太可怕啦,决定好好做人,不拖了,就从现在开始,好好过一遍,呜呜呜呜呜呜呜呜,(罪该万死)。看的教程是:《动手学深度学习》(PyTorch版),是把李沐老师的《动手学深度学习》原书中的MXNet实现改......
  • oracle指定控制文件启动 ORA-00205: error in identifying control file, check aler
    SQL>startupORACLEinstancestarted.TotalSystemGlobalArea1068937216bytesFixedSize2220200bytesVariableSize708841304bytesDatabaseBuffers352321536bytesRedoBuffers5554176bytesORA-00205:......
  • 52pj2024春节红包题-Android
    初级一小猫游戏,改一下判断将t.LOSE的值改为win,然后将casei.LOSE的代码段删掉,重新签名安装即可游戏结束会播放原神启动,播完会输出flag结果为flag{happy_new_year_2024}初级二flag是跟着签名走的,所以没法重新编译看代码可以看到是出金启动FlagActivity所以直接上obj......
  • P9562 [SDCPC2023] G-Matching 题解
    题目描述给定长度为\(n\)的整数序列\(a_1,a_2,\cdots,a_n\),我们将从该序列中构造出一张无向图\(G\)。具体来说,对于所有\(1\lei<j\len\),若\(i-j=a_i-a_j\),则\(G\)中将存在一条连接节点\(i\)与\(j\)的无向边,其边权为\((a_i+a_j)\)。求\(G\)的一个......
  • 2024牛客寒假算法基础集训营3
    2024牛客寒假算法基础集训营3A 智乃与瞩目狸猫、幸运水母、月宫龙虾题意给出若干组字符串,判断无视大小写,判断首字母是否相同思路如果首字母相同,则直接用\(==\)比较即可,如果首字母只有大小写的区别,则ASCII码值相差\(32\)代码/*******************************|Author:......