Spark学习笔记01

时间：2023-04-05 23:22:51浏览次数：38

标签：返回 01 func 元素笔记 RDD key Spark spark

1、spark程序开发完成后，打包成jar包。

如何将jar包分发到 spark集群？
1、启动集群
启动master ./sbin/start-master.sh

启动worker
./bin/spark-class org.apache.spark.deploy.worker.worker spark://localhost.localdomain:7077

提交作业
./bin/spark-submit --master spark://localhost.localdomain:7077 --class WordCount /home/maixia/soft/imoocpro.jar

RDD常用function
map()
filter()
flatMap()
collect() 返回RDD的所有元素、
count() 计数
countByValue() 返回一个map表示唯一元素出现的个数
take(num) 返回几个元素
top(num) 返回前几个元素
takeOrdered(num)(ordering) 返回基于提供的排序算法的前几个元素
takeSample(withReplacement,num,[seed]) 取样例

reduce(func) 合并RDD中元素
接收一个函数，作用在RDD两个类型相同的元素上，返回新元素。
可以实现，RDD中元素的累加，计数，和其它类型的聚集操作。

fold(zero)(func) 与reduce()相似提供zero value
aggregate(zeroValue)(seqOp,combOp) 与fold()相似，返回不同类型
foreach(func) 对RDD的每个元素作用函数，什么也不返回

reduceByKey(func) 把相同key的结合
groupByKey() 把相同的key的values分组

combineByKey(createCombiner,mergeValue,mergeCombiners,partitioner)
把相同key的结合，使用不同的返回类型
遍历partition中的元素，元素的key，要么之前见过的，要么不是
如果是新元素，使用我们提供的createCombiner()函数
如果是这个partition中已经存在的key,就会使用mergeValue函数。
合计每个partition的结果的时候，使用mergeCombiners()函数。

mapValues(func) 函数作用于pairRDD的每个元素，key不变
flatMapValues(func) 符号化的时候使用
keys() 仅返回keys
values() 仅返回values
sortByKey() 按照key排序的RDD

spark sql介绍:
1、集成性：在spark编程中无缝对接多种复杂的SQL;
2、统一的数据访问方式：以类似的方式访问多种不同的数据源，可以进行相关操作
spark.read.format("json").load(path)
spark.read.format("text").load(path)
spark.read.format("parquet").load(path)
spark.read.format("json").option("...","...").load(path)
3、兼容 Hive
4、标准数的数据连接：提供标准的JDBC/ODBS连接方式

spark SQL应用并不局限于SQL，还支持hive\JSON\Parquet文件的直接读取和操作。
SQL仅仅是Spark SQL中的一个功能而矣。

标签：返回,01,func,元素,笔记,RDD,key,Spark,spark
From： https://www.cnblogs.com/annychen/p/17291274.html

【LeetCode剑指offer 01】数组中重复的数字、两个栈实现队列
数组中重复的数字数组中重复的数字找出数组中重复的数字。在一个长度为n的数组nums里的所有数字都在0～n-1的范围内。数组中某些数字是重复的，但不知道有几个数字重复了，也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。示例1：输入：[2,3,1,0,2,5,3]输......
CSS笔记（待完善）
CSS笔记css权重ID（100）>class（10）>element（1）css最高权重!important块元素（block）可以设置宽度和高度，独立成行。h1~h6、p、div、ul、li行内元素（内联元素、块级元素）(inline)不可以设置宽度和高度，不独立成行a、span行内块元素(inline-block)可以设置宽度和高度，不独立......
VS2012、VS2013、VS2015、VS2019 代码自动注释插件【2】
Git代码自动注释工具源码地址 VS2010、VS2012、VS2013的代码自动注释插件。安装该插件后，可以在VS的菜单中显示“注释”主菜单，可以给类、函数、成员添加标准的注释，与Doxygen配合使用，可以直接生成项目的注释文档。【插件下载】高版本的VS，可以下载源码后，自行编译使用。【插件安装】......
Java笔记(10) GUI->布局
这里介绍3种布局：FlowLayout流式布局BorderLayout边界布局GridLayout网格布局FlowLayout/*MyFrame定义见Java笔记9，这里添加了事件监听方法*/publicclassTestFlowLayout{publicstaticvoidmain(String[]args){MyFramemyFrame=newMyFram......
Java Stream学习笔记（一）
JavaStream学习笔记Stream是Java8API添加的一个新的抽象，称为流Stream，以一种声明性方式处理数据集合（侧重对于源数据计算能力的封装，并且支持序列与并行两种操作方式）。一、特点1、代码简洁：函数式编程写出的代码简洁且意图明确，使用stream接口让你从此告别for循环。2、多核友好......
Django笔记十六之aggregate聚合操作
本文首发于微信公众号：Hunter后端原文链接：Django笔记十六之aggregate聚合操作这一篇笔记介绍一下关于聚合的操作，aggregate。常用的聚合操作比如有平均数，总数，最大值，最小值等等用到的model如下classAuthor(models.Model):name=models.CharField(max_length=100)......
【重要】Nginx模块Lua-Nginx-Module学习笔记（三）Nginx + Lua + Redis 已安装成功(非open
一、目标使用Redis做分布式缓存；使用luaAPI来访问redis缓存；使用nginx向客户端提供服务,ngx_lua将lua嵌入到nginx，让nginx执行lua脚本，高并发，非阻塞的处理各种请求。url请求nginx服务器，然后lua查询redis，返回json数据。二、准备工作系统环境：Ubuntu14.0(64位)Redis服务安装：ap......
【精选】Nginx负载均衡学习笔记（一）实现HTTP负载均衡和TCP负载均衡（官方和OpenResty两种
说明：很简单一个在HTTP模块中，而另外一个和HTTP是并列的Stream模块(Nginx1.9.0支持)一、两个模块的最简单配置如下1、HTTP负载均衡：http{includemime.types;default_typeapplication/octet-stream;upstreamlive_node{server127.0.......
流媒体技术学习笔记之（十二）Linux（Ubuntu）环境运行EasyDarwin
Debug问题???./easydarwin-c./easydarwin.xml&//这样的话是80端口./easydarwin-c./easydarwin.xml-d//8088端口以上出现的问题：在调试模式下加载配置文件是可以的，但是在后台模式下配置文件是加载不了的，列如：在配置文件配置后台管理端口为8088，当时在后台模式......
流媒体技术学习笔记之（十一）Windows环境运行EasyDarwin
流媒体平台框架下载安装Github下载下载地址：https://github.com/EasyDarwin/EasyDarwin/releases解压安装选择Windows安装平台的安装包（下载解压）把解压生成的文件夹重命名放在本地磁盘，我这里测试放在E盘：介绍其中的来个批处理文件：start.batWindows调试运......

Spark学习笔记01

相关文章

赞助商

阅读排行