首页 > 其他分享 >spark的学习1-11

spark的学习1-11

时间:2024-01-11 12:00:15浏览次数:32  
标签:11 DAG 并行 学习 application job task spark

大数据第36期打卡-Day9-p102-p106
学习笔记
Spark并行度
spark的并行:在同一时间内,有多少个tes k在同时运行
并行度:并行能力的设置
比如设置并行度6,其实是6个tast才并行在跑
在有了6个tast并行的前提下,rdd的分区被规划成6个分区
Driver的两个组件
DAG调度器
工作内容:将逻辑的DAG图进行处理,最终得到逻辑上的Test划分
Task调度器
工作内容:基于DAG Scheduler的产出,来规划这些逻辑的task应该在哪些物理的executor上运行,以及监控管理他们的运行
Spark运行中的概念名词大全
Application
用户代码提交到spark集群上运行的时候就是一个application了,一个application由一个Driver程序领导它的运行,同时伴有多个executor在执行中工作
Driver program
也就是driver程序,是整个程序管理main()方法的一个入口,同时,他也是整个程序的调度者和管理者,他负责构建sparkcontext
Executor
就是一个程序的运行启动器,在内部可以分配出task,有CPU资源和内存资源,相当于干活的
Task
工作线程运行在executor内,是最小的工作单元
job
一个并行化的计算集合,一个application中有多个job,job归属于application的
层级关系梳理
一个spark环境可运行多个application
一个代码运行起来会成为一个application application内部可以有多个job
每个job由一个action产生,并且每个job有自己的DAG执行图
一个job的DAG图会基于宽窄依赖划分成不同阶段
不同阶段内基于分区数量,形成多个并行的内存迭代管道
每一个内存迭代管道形成一个task(DAG调度器划分将job内划分出具体的task任务,一个job被划分出来的task在逻辑上称之为这个job的taskset)
DAG是什么?有什么用?
DAG有向无环图,用以描述任务执行流程,主要作用是协助DAG调度器构建task分配用以做任务管理
内存迭代阶段划分
基于DAG的宽窄依赖划分阶段,阶段内部都是窄依赖,可以构建内存迭代的管道
DAG调度器是?
构建task分配用以做任务管理
学习心得:打卡

标签:11,DAG,并行,学习,application,job,task,spark
From: https://www.cnblogs.com/nanbei666/p/17958248

相关文章

  • 机器学习-决策树系列-贝叶斯算法-概率图模型-29
    目录1.复习条件概率2.正式进入3.生成式与判别式这个阶段的内容,采用概率论的思想,从样本里面学到知识(训练模型),并对新来的样本进行预测。主要算法:贝叶斯分类算法、隐含马尔可夫模型、最大熵模型、条件随机场。通过本阶段学习,掌握NLP自然语言处理的一些基本算法,本阶段的理解对......
  • hadoop和spark
    Spark和Hadoop是大数据处理领域两个重要的开源框架,它们之间既有紧密的联系也有显著的区别。联系:生态兼容:Spark可以无缝运行在Hadoop之上,利用HadoopDistributedFileSystem(HDFS)进行数据存储,并且可以通过YARN(YetAnotherResourceNegotiator)进行资源调度和管理。这意味着......
  • 暂停win10和win11系统自动更新
    regedit打开注册表计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsUpdate\UX\Settings新建DWORD(32位)值FlightSettingsMaxPauseDays(改为十进制值)值的单位为天4.最后打开设置Windows更新修改暂停更新......
  • 「超级细菌」魔咒或将打破,MIT 利用深度学习发现新型抗生素
    作者:加零编辑:李宝珠、三羊MIT 利用图神经网络Chemprop识别潜在抗生素,特异性杀死鲍曼不动杆菌。自然界中充满了各种各样的微生物,例如结核杆菌(导致肺结核)、霍乱弧菌(导致霍乱)等严重危害了人们的健康。而在人类历史上,感染这些致病细菌,除了依赖人体自身的免疫系统,几乎无解。直到1......
  • 学习进度笔记1
    今天对寒假的学习任务进行了时间上的规划,需要完成的主要有下面三个任务:1.完成Spark的实验及实验报告;2.三人结组参加中国服务外包杯大赛(1月13日之前提交题目,1月31日前后验收第一阶段成果(需求原型));3.大型数据库技术大作业-信息领域热词分析(开学第一节课验收);根据完成时间的先后顺......
  • 《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上
    ......
  • openGauss学习笔记-192 openGauss 数据库运维-常见故障定位案例-XFS文件系统问题
    openGauss学习笔记-192openGauss数据库运维-常见故障定位案例-XFS文件系统问题192.1在XFS文件系统中,使用du命令查询数据文件大小大于文件实际大小192.1.1问题现象在数据库使用过程中,通过如下du命令查询数据文件大小,查询结果大于文件实际的大小。du-shfile192.1.2原因......
  • openGauss学习笔记-193 openGauss 数据库运维-常见故障定位案例-备机卡住-数据库只读
    openGauss学习笔记-193openGauss数据库运维-常见故障定位案例-备机卡住-数据库只读193.1switchover操作时,主机降备卡住193.1.1问题现象一主多备模式下,系统资源不足时,发生switchover,出现主机降备时卡住。193.1.2原因分析当系统资源不足时,无法创建第三方管理线程,导致其管理......
  • Exchange学习第五天:高级配置与安全性
    在Exchange学习的第五天,我深入了解了Exchange的高级配置和安全性设置。早上,我学习了如何配置Exchange的连接设置。这包括配置SMTP、POP3和IMAP4服务,以及如何配置连接的安全性。我明白了如何设置SSL证书来加密客户端与服务器的通信,以确保邮件传输的安全。午后,我重点学习了Exchange的......
  • C# 接口IBufferWriter<T>学习理解
    IBufferWriter<T>是同步缓冲写入的协定,实现这个接口就拥有一个输出接收器我是最近研究Protobuf序列化时发现它有个传递IBufferWriter<T>的构造,使用者只需要自己实现一个IBufferWriter<T>,创建后传递给Protobuf-net的序列化函数,就能得到其序列化后的字节流先实现一个IBufferWriter......