1、Spark名词
1、RDD: 数据集合
2、Application: Spark用户程序
3、Driver Program: 运行main函数并且新建SparkContext的程序
4、Cluster Manager : Spark 集群资源调度服务(standlone,mesos,yarn)
5、Executor: worker node 的一个进程,负责运行任务
6、Task: 被送到某个executor上的工作单元
7、job: 包含多个RDD一级作用于RDD上的各种operate
8、Stage: 一个job分成多个节点
9、Narrow Dependency
10、Wide Dependency : 宽依赖
11、Caching Managerment : 缓存管理
2、Spark 集群架构
Master负责集群整体资源管理和调度,Worker负责单个节点的资源管理,Driver程序是应用逻辑执行的起点,多个Executor用来对数据进行并行处理。
Spark架构的构成
(1) Cluster Manager: 在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器。
(2) Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。在YARN模式中为NodeManager,负责计算节点控制。
(3) Driver: 运行Application 的main()函数
(4) Executor:执行器,是为某个Application运行在worker node上的一个进程,启动线城市运行任务上。每个Application拥有独立的一组executors。
(5)SparkContext: 整个应用的上下文,控制应用的生命周期。