首页 > 其他分享 >003-spark名词和架构介绍

003-spark名词和架构介绍

时间:2023-04-03 21:34:57浏览次数:36  
标签:架构 worker Driver 003 Application Executor spark 节点 Spark


1、Spark名词


1、RDD: 数据集合

2、Application: Spark用户程序


3、Driver Program: 运行main函数并且新建SparkContext的程序


4、Cluster Manager : Spark 集群资源调度服务(standlone,mesos,yarn)


5、Executor: worker node 的一个进程,负责运行任务


6、Task: 被送到某个executor上的工作单元


7、job: 包含多个RDD一级作用于RDD上的各种operate


8、Stage: 一个job分成多个节点


9、Narrow Dependency


10、Wide Dependency : 宽依赖


11、Caching Managerment : 缓存管理




2、Spark 集群架构


Master负责集群整体资源管理和调度,Worker负责单个节点的资源管理,Driver程序是应用逻辑执行的起点,多个Executor用来对数据进行并行处理。




003-spark名词和架构介绍_数据集




Spark架构的构成


(1) Cluster Manager: 在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器。 


(2) Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。在YARN模式中为NodeManager,负责计算节点控制。


(3) Driver: 运行Application 的main()函数


(4) Executor:执行器,是为某个Application运行在worker node上的一个进程,启动线城市运行任务上。每个Application拥有独立的一组executors。


(5)SparkContext: 整个应用的上下文,控制应用的生命周期。



标签:架构,worker,Driver,003,Application,Executor,spark,节点,Spark
From: https://blog.51cto.com/u_14361901/6167560

相关文章

  • 001-spark生态系统介绍
    1、Spark简介-概念Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。主要特点:分布式计算内存计算容错多计算......
  • 【深入浅出 Yarn 架构与实现】6-2 NodeManager 状态机管理
    一、简介NodeManager(NM)中的状态机分为三类:Application、Container和LocalizedResource,它们均直接或者间接参与维护一个应用程序的生命周期。当NM收到某个Application的第一个container启动命令时,它会创建一个「Application状态机」来跟踪该应用程序在该节点的状态;每个......
  • 2009年软件架构师必须了解的十个新领域
    云计算(比如AmazonEC2)非关系型数据库(比如CouchDB,AmazonSimpleDB)下一代分布式计算(Hadoop)面向Web的架构(WOA)Mashup(混搭)开放API(【按】原文是OpenSupplyChainsviaAPIs)动态语言(【按】还包括了Erlang?)社会化计算群众外包(Crowdsourcing)与用户制作(【按】感觉像是)新的应用模......
  • php架构之路,phper进阶,学习路线
     鉴于最近跟小伙伴聊了很多PHP架构发展方向的问题,相关技术整理了一下,也顺便规划了一下自己下年。【我的学习路线】一.常用的设计模式以及使用场景    以下是我用到过的  工厂,单例,策略,注册,适配,观察者,原型,装饰器,facade,loc,pipeline二.阅读一个框架源码 例如:laravel......
  • 《渗透测试》信息打点-小程序应用&解包反编译&动态调试&抓包&静态分析&源码架构 2023
     #小程序获取-各大平台&关键字搜索-微信-百度-支付宝-抖音头条 #小程序体验-凡科建站&模版测试上线测试:https://qz.fkw.com/参考:https://blog.csdn.net/qq_52445443/article/details/1223518651.主体结构小程序包含一个描述整体程序的app和多个描述各自页面的pa......
  • Spark面试经典系列之数据倾斜解决方案的“银弹”是什么? 本节我们对Spark数据倾斜解决
    Spark面试经典系列之数据倾斜解决方案的“银弹”是什么?本节我们对Spark数据倾斜解决方案进行回顾和总结:1、   数据倾斜运行的症状和危害。如果发行数据倾斜,往往发现作业任务运行特别缓慢,出现OOM内存溢出等现象。2、   如果两个RDD进行操作,其中1个RDD数据不是那么多,我们把这......
  • Spark视频王家林第119课: Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变
    Spark视频王家林第119课:SparkStreaming性能优化:如何在生产环境下应对流数据峰值巨变?本节讲解SparkStreaming性能优化:如何在生产环境下应对流数据峰值巨变?数据峰值及流量变化的不稳定有2个层面:1)第一个层面就是数据确实不稳定,例如晚上11点的时候访问流量特别高,相对其他时间而言表......
  • 从MLSQL性能设计到对架构师的重新思考
    从MLSQL性能设计到对架构师的重新思考五年前,我会认为,架构仅仅是针对一个可大可小的问题,把流程设计好,然后往里面填充合适的组件,从而最终解决这个问题。在这个过程中,区分架构师是否资深主要是在设计过程中对可扩展性,可维护性,以及成本权衡的把控能力。现在,我觉得架构不应该仅仅是这样......
  • 关于三层架构与MVC架构 及其controller与表现层的关系
    众所周知:软件设计的三层架构是一种将软件系统分为三个主要组成部分的设计模式,这三个部分分别是:表示层(PresentationLayer):负责与用户交互,接受用户输入,向用户呈现输出结果。业务逻辑层(BusinessLogicLayer):处理业务逻辑,负责处理各种业务逻辑,实现系统的核心功能。数据访问层(Data......
  • 微服务架构
    传统的应用架构表现为业务系统的各个模块实紧耦合的关系,各个模块运行在一个进程中,每次升级系统时都要重启整个应用进程,如果某个模块有问题,则可能导致整个系统无法正常启动。微服务架构则是将业务系统中的不同模块以微服务的方式进行拆分,使每个微服务都变成一个独立的project,独立编......