首页 > 其他分享 >spark提交参数 [spark.yarn.dist.jars] 和 [spark.yarn.jars ]区别

spark提交参数 [spark.yarn.dist.jars] 和 [spark.yarn.jars ]区别

时间:2023-11-30 20:33:44浏览次数:45  
标签:-- JAR 应用程序 yarn spark jars

spark.yarn.dist.jars

  • 作用
用于指定分发到集群节点上的 JAR 包的路径。
  • 工作原理
Spark 应用程序的执行器会将这些 JAR 包分发到它们的本地文件系统上。这样,应用程序可以在执行期间访问这些 JAR 包。
  • 使用场景
适用于应用程序的依赖项,这些依赖项不需要在整个集群中共享。通常,这些是较小的依赖项,可以存储在每个节点上以减少网络开销。
  • 示例
spark-submit --class YourMainClass --master yarn --deploy-mode cluster --conf spark.yarn.dist.jars=hdfs:///path/to/your/dependency.jar YourApp.jar

spark.yarn.jars

  • 作用
用于指定在运行 Spark 应用程序时需要上传到集群的 JAR 包的路径。
  • 工作原理
Spark 会将应用程序的 JAR 包上传到 Hadoop 分布式缓存中,以确保集群中的所有节点都能够访问它。
  • 使用场景
适用于应用程序的主要 JAR 包,这些 JAR 包可能包含应用程序的代码和主要逻辑。
  • 示例
spark-submit --class YourMainClass --master yarn --deploy-mode cluster --conf spark.yarn.jars=hdfs:///path/to/your/app.jar YourApp.jar
总结:
  • 如果你有一些较小的依赖项,可以使用spark.yarn.dist.jars,这样它们就会分发到集群节点上,每个节点都会有一份。
  • 如果你有一个主要的应用程序 JAR 包,需要在整个集群中共享,可以使用spark.yarn.jars,这样 Spark 会确保在所有节点上都能访问它。

标签:--,JAR,应用程序,yarn,spark,jars
From: https://www.cnblogs.com/MuXinu/p/17868250.html

相关文章

  • 解决pyspark报错Could not serialize object: IndexError: tuple index out of range
    版权在使用pyspark的时候,遇到了如下问题:Couldnotserializeobject:IndexError:tupleindexoutofrange代码如下:frompysparkimportSparkContextimportosimportlogginglogging.basicConfig(level=logging.ERROR)frompyspark.sqlimportSparkSession,Rowss=Spar......
  • Hadoop三大组件(HDFS,MapReduce,Yarn)
    1、HDFSHDFS是Hadoop分布式文件系统。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。2、MapReduceMapReduce是一个软件框架,基于该框架能够容易地编写应用......
  • spark离线分析--本地Spark1.6版本读写hive表
    1.搭建好hive环境,并将hive-site.xml文件放到本地工程的resources目录下2.java测试代码  publicclassSparkHiveTest{publicstaticvoidmain(String[]args){JavaSparkContextjavaSparkContext=null;try{SparkContextsparkConf=newS......
  • Yarn学习(三)Yarn Workspace介绍 + 适用场景 + 命令
      介绍Yarn从1.0版开始支持Workspace(工作区),提供的monorepo的依赖管理机制,用于在代码仓库的根目录下管理多个package的依赖。Workspace能更好的统一管理有多个项目的仓库,既可在每个项目下使用独立的package.json管理依赖,又可便利的享受一条yarn命令安装或者升级......
  • yarn : 无法加载文件 C:\Program Files\nodejs\yarn.ps1,因为在此系统上禁止运行
    问题分析:这个错误提示说明在电脑系统上禁止运行PowerShell 脚本,因此导致无法加载Yarn的安装脚本。这是由于系统的执行策略(ExecutionPolicies)设置所导致的。解决方法:1.以管理员身份运行PowerShell。2.在窗口中执行 set-ExecutionPolicyRemoteSigned。3.执行完成后,......
  • yarn的安装与禁止运行脚本报错
    一、yarn1.安装与卸载npminstall-gyarnnpmuninstallyarn-g//yarn卸载2.npm存在的一些不足:npminstall下载速度慢,即使是重新install时速度依旧慢同一个项目,安装的无法保持一致性。原因是因为package.json文件中版本号的特点导致在安装的时候代表不同的含义。使用npm......
  • spark的shuffle和mapreduce的shuffle的区别
    功能上,MR的shuffle和Spark的shuffle是没啥区别的,都是对Map端的数据进行分区,要么聚合排序,要么不聚合排序,然后Reduce端或者下一个调度阶段进行拉取数据,完成map端到reduce端的数据传输功能。方案上,有很大的区别,MR的shuffle是基于合并排序的思想,在数据进入reduce端之前,都会进行sor......
  • spark的excutor是动态的资源分配吗,还是写死的?
    在ApacheSpark中,Executor的资源分配可以是动态的,而不是写死的。ApacheSpark提供了一种称为动态资源分配(DynamicAllocation)的机制,允许根据应用程序的实际需求动态调整Executor的数量。动态资源分配的主要思想是根据当前应用程序的工作负载来增加或减少Executor的数......
  • Apache Spark 认证绕过漏洞(CVE-2020-9480)研究
    一、ApacheSpark简介Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含Spa......
  • Spark Streaming快速入门
    SparkStreaming快速入门一、简介SparkStreaming是构建在SparkCore基础之上的流处理框架(但实际上是微批次处理框架),是Spark非常重要的组成部分。严格意义上来讲,SparkStreaming是一个准实时,微批次的流处理框架。特点:Easytouse:简单易用;Unifiedbatchandstreami......