Spark架构体系

StandAlone模式是spark自带的集群运行模式，不依赖其他的资源调度框架，部署起来简单。

StandAlone模式又分为client模式和cluster模式，本质区别是Driver运行在哪里，如果Driver运行在SparkSubmit进程中就是Client模式，如果Driver运行在集群中就是Cluster模式

standalone client模式

standalone cluster模式

Spark On YARN cluster模式

Spark执行流程简介

Job：RDD每一个行动操作都会生成一个或者多个调度阶段调度阶段（Stage）：每个Job都会根据依赖关系，以Shuffle过程作为划分，分为Shuffle Map Stage和Result Stage。每个Stage对应一个TaskSet，一个Task中包含多Task，TaskSet的数量与该阶段最后一个RDD的分区数相同。
Task：分发到Executor上的工作任务，是Spark的最小执行单元
DAGScheduler：DAGScheduler是将DAG根据宽依赖将切分Stage，负责划分调度阶段并Stage转成TaskSet提交给TaskScheduler
TaskScheduler：TaskScheduler是将Task调度到Worker下的Exexcutor进程，然后丢入到Executor的线程池的中进行执行

Spark中重要角色

Master ：是一个Java进程，接收Worker的注册信息和心跳、移除异常超时的Worker、接收客户端提交的任务、负责资源调度、命令Worker启动Executor。
Worker ：是一个Java进程，负责管理当前节点的资源管理，向Master注册并定期发送心跳，负责启动Executor、并监控Executor的状态。
SparkSubmit ：是一个Java进程，负责向Master提交任务。
Driver ：是很多类的统称，可以认为SparkContext就是Driver，client模式Driver运行在SparkSubmit进程中，cluster模式单独运行在一个进程中，负责将用户编写的代码转成Tasks，然后调度到Executor中执行，并监控Task的状态和执行进度。
Executor ：是一个Java进程，负责执行Driver端生成的Task，将Task放入线程中运行。

Spark和Yarn角色对比

标签：体系,Task,架构,Driver,模式,Executor,Spark,Stage
From： https://www.cnblogs.com/paopaoT/p/17506566.html

linux 核间通讯rpmsg架构分析【转】
转自：https://blog.csdn.net/wind0419/article/details/123277545以imx8为例在最底层硬件上，A核和M核通讯是靠硬件来进行的，称为MU，如图 LinuxRPMsg是在virtioframework上实现的一个消息传递机制VirtIO是一个用来实现“虚拟IO”的通用框架，典型虚拟的pci，网卡，磁盘等虚拟设......
Linux基础25 架构, 安装模板机
架构一、名词的介绍1.项目:手机的APP，买一个APP就是一个项目，针对互联网行业，一家电商公司就是一个项目2.架构：维护一个项目所有组件组成一个整体lnmp:linuxnginxmysqlphplamp:linuxApachemysqlphplnmt:linuxnginxmysqltomcatlamt:linuxApacheMysqlTomcat#除了这些......
某业务技术架构
......
跨架构平台在云计算中的应用
本文分享自天翼云开发者社区《跨架构平台在云计算中的应用》，作者:w****n跨架构平台试图解决这个问题，通过提供一个抽象层，将底层架构与应用程序分离开来，从而使得应用程序可以在多种不同的架构上运行。跨架构平台通常包括以下三个组件：1、应用程序：在跨架构平台上运行的应用程序，通常......
RESTful API（Representational State Transfer API）是一种设计和构建网络应用程序的软件
RESTfulAPI（RepresentationalStateTransferAPI）是一种设计和构建网络应用程序的软件架构风格。它是一种基于HTTP协议的API设计理念，旨在实现系统的可伸缩性、简洁性、可靠性和可扩展性。RESTfulAPI的设计原则可以概括为以下几点：资源（Resource）：将系统中的数据和功能抽象为资源，每......
原子能力业务化网关架构设计之功能需求
原文合集地址如下，有需要的朋友可以关注本文地址合集地址技术架构概览A原子能力接口已具备，不在本架构讨论范围内，是一个黑盒，也不对齐进行业务修改供业务调用原子能力业务化目标实现层（本质是网关）业务处理根据业务需求实现相关功能路由转发根据请求的URL路径，将请求转发给相......
java实际开发中接口文档是自己写还是架构师写？
软件工程的两种方法下，由后端决定接口都是不对的。第一种软件工程的方法：瀑布模型，自顶而下，逐步细化。接口会变，但是接口要提前设计。接口不是后端开发完成之后才“自然”产生的，那不是自然，而是无序。前后端分离的开发，应该是面向“API”的开发。API的设计并不能由前端或后端一方决定......
【从零开始学微服务】03.软件架构的演化过程
大家好，欢迎来到万猫学社，跟我一起学，你也能成为微服务专家。目前大部分的企业系统和互联网应用都是采用Web的形式提供服务能力，根据系统的组织方式和部署结构，我们通常把软件架构的演化过程分为以下几个阶段：单体架构垂直架构SOA架构微服务架构单体架构单体架构，也被成为巨石......
从幕后走到台前！过去十年，我们在阿里云如何建设可观测体系？
作者：凌敏稿件信息：作者丨凌敏采访嘉宾丨阿里云云原生可观测团队嘉宾介绍：司徒放，阿里云可观测技术负责人，资深技术专家徐彤，阿里云可观测高级技术专家曹剑，阿里云可观测高级产品专家王希正，阿里云可观测高级运营专家IT系统的运维监控最早出现在上世纪90年代。彼时，分布式架构正向传统的......
从幕后走到台前！过去十年，我们在阿里云如何建设可观测体系？
作者：凌敏稿件信息：作者丨凌敏采访嘉宾丨阿里云云原生可观测团队嘉宾介绍：司徒放，阿里云可观测技术负责人，资深技术专家徐彤，阿里云可观测高级技术专家曹剑，阿里云可观测高级产品专家王希正，阿里云可观测高级运营专家IT系统的运维监控最早出现在上世纪90年代。彼时，分布式架构正......

Spark架构体系

Spark架构体系

standalone client模式

standalone cluster模式

Spark On YARN cluster模式

Spark执行流程简介

Spark中重要角色

Spark和Yarn角色对比

相关文章

赞助商

阅读排行