分布式集合对象上的API称之为算子
算子分为两类:
transformation算子:指返回值仍然是rdd,类似于stream里的中间流
这类算子与中间流相同,是懒加载的
action算子:返回值不是rdd,类似于stream里的终结流
常见算子:
1.map(func):将rdd的数据一条一条的处理,返回新的rdd,和stream流的一样
2.flatmap:对rdd先执行map操作,再进行解除嵌套操作
3.reduceByKey:针对KV型RDD,自动按照key分组,根据提供的聚合逻辑完成聚合操作
4.mapValues:针对KV型RDD,对其中的value进行map操作
5.groupBy:通过这个算子指定你选择谁进行分组 lambda t:t[0]
6.filter:和stream一样
7.distinct:去重,无参
8.union:合并,将2个rdd合并为一个,参数为另一个rdd 注意:1.不同类型可以合并 2.不会去重
9.join:使用方法同上,类似于MySQL的join,所以也有左连接和右连接。注意:只能用于二元的
标签:map,join,stream,rdd,RDD,算子 From: https://www.cnblogs.com/kun1790051360/p/18024221