rdd的创建方法
通过并行化集合的方式(本地集合转分布式集合)
读取数据的方式创建
8.rdd分区数查看方法
通过个体怒骂partitions api查看,返回值int
9.transformation和action的区别
转换算子的返回值100%是rdd,而action算子的返回值100%不是rdd
转换算子是懒加载的,只有遇到action才会执行,action就是转换算子处理链条的开关
10.fofreach和saveastextfile直接由executor执行后输出,不会将结果发送到driver上去
11.reducebykey和groupbykey的区别
reducebykey自带聚合逻辑,groupbykey不带
如果做数据聚合reducebykey的效果更好,因为可以现居何后shuffle再最终聚合,传输的IO小
12.mappartition和foreach partition的区别
mappartition带有返回值
foreachpartition不带
13.对于分区操作尽量不要增加分区,可能破坏内训迭代的计算管道