首页 > 其他分享 >Spark架构体系

Spark架构体系

时间:2023-06-26 19:44:23浏览次数:42  
标签:体系 Task 架构 Driver 模式 Executor Spark Stage

Spark架构体系

StandAlone模式是spark自带的集群运行模式,不依赖其他的资源调度框架,部署起来简单。

StandAlone模式又分为client模式和cluster模式,本质区别是Driver运行在哪里,如果Driver运行在SparkSubmit进程中就是Client模式,如果Driver运行在集群中就是Cluster模式

standalone client模式

image

standalone cluster模式

image

Spark On YARN cluster模式

image

Spark执行流程简介

image

  • Job:RDD每一个行动操作都会生成一个或者多个调度阶段 调度阶段(Stage):每个Job都会根据依赖关系,以Shuffle过程作为划分,分为Shuffle Map Stage和Result Stage。每个Stage对应一个TaskSet,一个Task中包含多Task,TaskSet的数量与该阶段最后一个RDD的分区数相同。
  • Task:分发到Executor上的工作任务,是Spark的最小执行单元
  • DAGScheduler:DAGScheduler是将DAG根据宽依赖将切分Stage,负责划分调度阶段并Stage转成TaskSet提交给TaskScheduler
  • TaskScheduler:TaskScheduler是将Task调度到Worker下的Exexcutor进程,然后丢入到Executor的线程池的中进行执行

Spark中重要角色

  • Master :是一个Java进程,接收Worker的注册信息和心跳、移除异常超时的Worker、接收客户端提交的任务、负责资源调度、命令Worker启动Executor。
  • Worker :是一个Java进程,负责管理当前节点的资源管理,向Master注册并定期发送心跳,负责启动Executor、并监控Executor的状态。
  • SparkSubmit :是一个Java进程,负责向Master提交任务。
  • Driver :是很多类的统称,可以认为SparkContext就是Driver,client模式Driver运行在SparkSubmit进程中,cluster模式单独运行在一个进程中,负责将用户编写的代码转成Tasks,然后调度到Executor中执行,并监控Task的状态和执行进度。
  • Executor :是一个Java进程,负责执行Driver端生成的Task,将Task放入线程中运行。

Spark和Yarn角色对比

image

标签:体系,Task,架构,Driver,模式,Executor,Spark,Stage
From: https://www.cnblogs.com/paopaoT/p/17506566.html

相关文章

  • linux 核间通讯rpmsg架构分析【转】
    转自:https://blog.csdn.net/wind0419/article/details/123277545以imx8为例在最底层硬件上,A核和M核通讯是靠硬件来进行的,称为MU,如图  LinuxRPMsg是在virtioframework上实现的一个消息传递机制VirtIO是一个用来实现“虚拟IO”的通用框架,典型虚拟的pci,网卡,磁盘等虚拟设......
  • Linux基础25 架构, 安装模板机
    架构一、名词的介绍1.项目:手机的APP,买一个APP就是一个项目,针对互联网行业,一家电商公司就是一个项目2.架构:维护一个项目所有组件组成一个整体lnmp:linuxnginxmysqlphplamp:linuxApachemysqlphplnmt:linuxnginxmysqltomcatlamt:linuxApacheMysqlTomcat#除了这些......
  • 某业务技术架构
           ......
  • 跨架构平台在云计算中的应用
    本文分享自天翼云开发者社区《跨架构平台在云计算中的应用》,作者:w****n跨架构平台试图解决这个问题,通过提供一个抽象层,将底层架构与应用程序分离开来,从而使得应用程序可以在多种不同的架构上运行。跨架构平台通常包括以下三个组件:1、应用程序:在跨架构平台上运行的应用程序,通常......
  • RESTful API(Representational State Transfer API)是一种设计和构建网络应用程序的软件
    RESTfulAPI(RepresentationalStateTransferAPI)是一种设计和构建网络应用程序的软件架构风格。它是一种基于HTTP协议的API设计理念,旨在实现系统的可伸缩性、简洁性、可靠性和可扩展性。RESTfulAPI的设计原则可以概括为以下几点:资源(Resource):将系统中的数据和功能抽象为资源,每......
  • 原子能力业务化网关架构设计之功能需求
    原文合集地址如下,有需要的朋友可以关注本文地址合集地址技术架构概览A原子能力接口已具备,不在本架构讨论范围内,是一个黑盒,也不对齐进行业务修改供业务调用原子能力业务化目标实现层(本质是网关)业务处理根据业务需求实现相关功能路由转发根据请求的URL路径,将请求转发给相......
  • java实际开发中接口文档是自己写还是架构师写?
    软件工程的两种方法下,由后端决定接口都是不对的。第一种软件工程的方法:瀑布模型,自顶而下,逐步细化。接口会变,但是接口要提前设计。接口不是后端开发完成之后才“自然”产生的,那不是自然,而是无序。前后端分离的开发,应该是面向“API”的开发。API的设计并不能由前端或后端一方决定......
  • 【从零开始学微服务】03.软件架构的演化过程
    大家好,欢迎来到万猫学社,跟我一起学,你也能成为微服务专家。目前大部分的企业系统和互联网应用都是采用Web的形式提供服务能力,根据系统的组织方式和部署结构,我们通常把软件架构的演化过程分为以下几个阶段:单体架构垂直架构SOA架构微服务架构单体架构单体架构,也被成为巨石......
  • 从幕后走到台前!过去十年,我们在阿里云如何建设可观测体系?
    作者:凌敏稿件信息:作者丨凌敏采访嘉宾丨阿里云云原生可观测团队嘉宾介绍:司徒放,阿里云可观测技术负责人,资深技术专家徐彤,阿里云可观测高级技术专家曹剑,阿里云可观测高级产品专家王希正,阿里云可观测高级运营专家IT系统的运维监控最早出现在上世纪90年代。彼时,分布式架构正向传统的......
  • 从幕后走到台前!过去十年,我们在阿里云如何建设可观测体系?
    作者:凌敏稿件信息:作者丨凌敏采访嘉宾丨阿里云云原生可观测团队嘉宾介绍:司徒放,阿里云可观测技术负责人,资深技术专家徐彤,阿里云可观测高级技术专家曹剑,阿里云可观测高级产品专家王希正,阿里云可观测高级运营专家IT系统的运维监控最早出现在上世纪90年代。彼时,分布式架构正......