首页 > 其他分享 >2.2学习进度

2.2学习进度

时间:2024-02-03 11:44:58浏览次数:31  
标签:task 并行度 学习 application job DAG 进度 2.2 spark

spark并行度

推荐全局并行度;集群中的 并行度设置为cpu总核心的2~10倍;规划并行度,只看集群总cpu核数

5.spark的任务调度

sparkde任务,由driver进行调度,这个工作包含:逻辑DAG产生、分区DAg产生、task划分、将task分配给executor并监控其工作

DAG调度器:讲逻辑的dAG图进行处理,最终得到逻辑上的task划分

task调度器:基于DAG Scheduler的产出,来规划这些逻辑的task,应该放在那些无力的executor上运行,以及监控管理他们的运行

6.层次关系梳理

    一个spark环境可以运行多个application
    一个代码运行起来,会成为一个application
    application内部可以有多个job
    每个job由一个action产生,并且每个job有自己的DAg执行图
    一个job的dag图会基于宽窄依赖划分成不同的阶段
    不同阶段内基于分区数量,形成多个并行的内存迭代管道
    每一个内存迭代管道形成一个task

标签:task,并行度,学习,application,job,DAG,进度,2.2,spark
From: https://www.cnblogs.com/zhangmingmkzj/p/18004489

相关文章

  • 2.1学习进度
    有向无环图有向:有方向无环:没有闭环DAG:有方向没有形成闭环的一个执行流程图action:执行链条的开关,返回值不是rdd算子一个action会产生一个job(一个应用程序内的子任务),每个job会产生一个DAG图一个action=一个DAG=一个JOB一个application中,每一个job内含一个DAG,同时每一个job又是由......
  • 【学习笔记】Python 环境隔离
    目录前言venvvenv环境管理venv包管理virtualenv以及virtualenvwrapper安装virtualenvwrapper环境管理virtualenvwrapper包管理condaconda环境管理conda包管理总结参考资料Python作为最常用的脚本语言,有着非常丰富的第三方库,但是这也导致了Python的环境管理非常必要。......
  • 算法学习
    今天学习了约数的个数怎么求,一般的算法会超时。这时我们需要用到一个定理:p=[n/i]:表示在[1,n]的区间内,有约数i的个数为p个。所以这时,在求约数个数的问题上,我们只需要遍历[1,n],设置一个计数器即可。当n很大时,跨越太大,这时i++、就会很慢,设置j=n/(n/i)+1;下一次让i=j;这样跨度较......
  • NTFS文件系统支持功能 尽量完整完善资料,让后面学习的人少走弯路 欢迎补充
    NTFS文件系统支持以下功能:NTFS权限,EFS加密,磁盘限额,压缩,卷影副本,NTFS(NewTechnologyFileSystem)是Windows操作系统中的一种现代文件系统,它支持多种先进的功能以确保数据的安全性、可靠性和高效性。以下是NTFS文件系统支持的主要功能:安全性:NTFS提供了高级的文件和文件夹权限设置,可......
  • 运输层的TCP与UDP协议(学习笔记)
    一、运输层1.逻辑通信结构2.端口号、复用与分用二、TCP与UDP的区别1.概览图2.用户数据报协议UDP(UserDatagramProtocol)UDP面向应用层报文,可以在任何时候发起传输(无连接),向上层提供不可靠传输服务,即如果传输过程中出现误码,也不会触发重传。可以支持一对一、......
  • GS学习——初体验
    GaussianSplatting测试了一个精灵4无人机飞的MOV格式视频,重建效果如下:  对应的ply点云效果如图:采用神经隐式表达的场景,稠密点云应该不再是重要的了。信息隐含在神经网络中,通过function计算,需要哪一个视场动态合成了。 ......
  • 人工智能(第3版) 第三章—学习笔记
    人工智能(第3版)第三章—学习笔记知情搜索(informedsearch,也称有信息搜索)利用启发式方法,通过限定搜索的深度或宽度来缩小问题空间。3.0引言介绍了本章的主要内容与几个重要的概念。3.1启发式方法乔治·波利亚——“启发式方法之父”​启发式方法的目的是大幅度减少到......
  • 2.2寒假每日总结24
    使用的HBuilderX版本:3.98Git插件已安装:项目结构如下:右击项目目录,在git命令中-》检查已修改,可以发现还是能检索到修改过的文件:文件是有修改过的,但是在上图中没有任何的修改标识,这些文件也没有添加到.gitignore配置中。二、问题解决......
  • Python 机器学习 K-近邻算法 KD树
    在使用K-近邻(KNN)算法时,kd树(k-dimensionaltree)是一种用于减少计算距离次数从而提高搜索效率的数据结构。kd树是一种特殊的二叉树,用于存储k维空间中的数据点,使得搜索最近邻点更加高效。KD树的构造过程是将数据分割成更小的区域,直到每个区域满足特定的终止条件。1、构建KD树在k......
  • 闲话2.2
    haosen不在的第不知道多少天,想她......