1.standalone是一个完整的分布式集群环境;standalone集群在进程上主要有三类进程:主节点master及昵称、从节点的worker进程、历史服务器哦historyserver(可选)
2.4040:是一个运行的application在运行的过程中临时绑定的端口,用以查看当前任务的状态。4040被占用会顺延到4041、4042等。4040是一个临时端口,当程序运行完成后,4040就会被注销
3.8080:默认是standalone下,master角色的web端口,u哦那个一查看当前master的状态
4.18080:默认是历史服务器的端口,由于每个程序运行完成后,4040端口就被注销了,以后想回看某个程序的运行状态就可以通过历史服务器查看,历史服务器长期稳定运行,可供随时查看被记录的程序的运行过程
5.standalone的运行原理:master和worker角色以独立的及昵称形式存在,并组成spark运行时环境
6.spark角色在standalone中的应用
master角色:master进程
worker角色:worker进程
driver角色:以线程运行在master中
executor角色:以线程运行在worker中
7.standalone如何提交spark应用
bin/spark-submit --master spark://server:7077
8.一个spark程序会呗分成多个子任务运行,每个job会分成多个state来运行,每一个state内会分出多个task来执行具体任务