spark并行度
推荐全局并行度;集群中的 并行度设置为cpu总核心的2~10倍;规划并行度,只看集群总cpu核数
5.spark的任务调度
sparkde任务,由driver进行调度,这个工作包含:逻辑DAG产生、分区DAg产生、task划分、将task分配给executor并监控其工作
DAG调度器:讲逻辑的dAG图进行处理,最终得到逻辑上的task划分
task调度器:基于DAG Scheduler的产出,来规划这些逻辑的task,应该放在那些无力的executor上运行,以及监控管理他们的运行
6.层次关系梳理
一个spark环境可以运行多个application
一个代码运行起来,会成为一个application
application内部可以有多个job
每个job由一个action产生,并且每个job有自己的DAg执行图
一个job的dag图会基于宽窄依赖划分成不同的阶段
不同阶段内基于分区数量,形成多个并行的内存迭代管道
每一个内存迭代管道形成一个task