1.RDD的创建
通过并行化集合创建(本地对象 转 分布式RDD)
读取外部数据源(读取文件): textfile api(可以读取本地数据)
2.算子是什么
算子:分布式集合对象上的api
方法/函数:本地对象的api
3.算子的分类
Transformation:转换算子(返回值是rdd)
特性:这类算子时lazy、懒加载的,如果没有action算子,他是不工作的
Action:动作(行动)算子(返回值不是rdd的算子)
4.常用的transformation算子
map算子:将rdd的数据一条条处理(处理的逻辑 基于map算子中接受的处理函数),返回新的rdd
flatmap算子:对rdd限制性map操作,然后进行解除嵌套操作
reducebykey算子:针对kv型rdd,自动按照可以分组,然后根据提供的聚合逻辑,完成组内数据的聚合操作
mapvalues算子:针对二元元组rdd,对其内部的二元元组的value执行map操作
group by算子:将rdd的数据进行分组(hash分组)
filter算子:过滤想要的数据进行保留
distinct算子:对rdd数据进行去重,返回新rdd
union算子:2个rdd合并成一个rdd;不会去重;类型不同也是可以合并的
join算子:对两个rdd执行join操作(可实现sql的内、外连接);按照二元元组的key来进行关联
intersection算子:求2个rdd的交集,返回一个新rdd
glom算子:将rdd的数据,加上嵌套,这个嵌套按照分区来进行
groupbykey算子:针对kv型rdd,自动按照key分组
sortby算子:对rdd数据进行排序,基于自定义的排序依据
sortbykey算子:针对kv型rdd,按照key进行排序