首页 > 其他分享 >spark-submit 提交的参数

spark-submit 提交的参数

时间:2024-05-16 16:09:44浏览次数:18  
标签:-- memory submit 提交 executor Spark spark

spark-submit 是用于提交Spark应用到集群的命令行工具。它允许用户控制Spark应用的各种参数,比如应用名、集群URL、运行模式、资源分配等。
以下是一些常用的 spark-submit 参数:
--master: 指定Spark集群的URL,例如 local, local[*], spark://23.195.26.187:7077, yarn, mesos 等。
--deploy-mode: 指定是以client模式运行,还是以cluster模式运行。在client模式下,驱动程序运行在提交应用的机器上;在cluster模式下,驱动程序在集群中的某个节点上运行。
--class: 指定包含主函数的入口类。
--name: 指定Spark应用的名称。
--conf: 设置Spark配置属性,如 --conf spark.executor.memory=4g。
--driver-memory: 指定驱动程序的内存大小,如 --driver-memory 4g。
--executor-memory: 指定每个executor的内存大小,如 --executor-memory 4g。
--total-executor-cores: 指定集群中总共使用的CPU核心数,如 --total-executor-cores 8。

示例代码:
spark-submit \
--master spark://23.195.26.187:7077 \
--deploy-mode cluster \
--conf spark.executor.memory=4g \
--conf spark.cores.max=8 \
--name "MySparkApp" \
--class com.example.MySparkApp \
/path/to/your/sparkapp.jar \
arg1 arg2 arg3

在这个例子中,我们提交了一个名为 MySparkApp 的应用到指定的Spark集群。应用的入口类是 com.example.MySparkApp,位于 /path/to/your/sparkapp.jar。最后的 arg1 arg2 arg3 是传递给应用的参数。

标签:--,memory,submit,提交,executor,Spark,spark
From: https://www.cnblogs.com/yeyuzhuanjia/p/18196142

相关文章

  • 如何摆脱[自我/当下]而考虑到[别人/将来],从而主动为群体和将来行动 在学习通提交解
    培养同理心:尝试从他人的角度看待问题,理解他们的感受和需求。倾听他人:积极倾听并尊重他人的观点和意见,这有助于你更好地理解他们。拓宽视野:阅读、旅行和学习新事物可以帮助你了解不同的观点和文化。长期规划:设定长期目标,并考虑这些目标如何影响你的未来和他人。合作......
  • 比较不同团队的绩效评估方法;提出自己团队的绩效评估计划在学习通提交解答的同时,可以
    ]比较不同团队的绩效评估方法;提出自己团队的绩效评估计划在学习通提交解答的同时,可以同步发布在团队和个人博客上,作为学习心得体会,记录下来【第二组】答:不同团队的绩效评估方法会因公司文化、业务需求和团队特点而有所不同。以下是一些常见的团队绩效评估方法,以及可能适用于你......
  • 为何要讲人、绩效、和职业道德? 学好专业不就行了么,为何要扯这么多?在学习通提交解答的
    为何要讲人、绩效、和职业道德?学好专业不就行了么,为何要扯这么多?在学习通提交解答的同时,可以同步发布在团队和个人博客上,作为学习心得体会,记录下来。【第二组】答:讲人、绩效和职业道德在团队和职业发展中的重要性不容忽视,尽管学好专业是基础,但以下几个原因解释了为什么还需要......
  • 何摆脱[自我/当下]而考虑到[别人/将来],从而主动为群体和将来行动在学习通提交解答的同
    ]如何摆脱[自我/当下]而考虑到[别人/将来],从而主动为群体和将来行动在学习通提交解答的同时,可以同步发布在团队和个人博客上,作为学习心得体会,记录下来。我的答案:【第二组】答:摆脱自我而考虑到别人和将来,从而主动为群体和未来行动,是一种高度发展的社会情感和道德责任感。这种......
  • hive on spark
    1Hive的执行引擎Hive:专业的数仓软件,可以高效的读写和管理数据集。  Hive的运行原理:  ①hive主要是写HQL的(类SQL,相似度90%,剩下的10%就是HQL里面一些独有的语法)  ②写的HQL会根据不同的计算引擎翻译成不同的代码 2数仓搭建技术选型SparkOnHive:基于Hive的Spar......
  • Spark - [04] RDD编程
    题记部分 一、RDD编程模型  在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile......
  • Spark - [03] RDD概述
    RDD,分布式数据集,是Spark中最基本的数据抽象。 一、什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。  二、RDD的属性①一组分区(Partition),即数据......
  • 在 Kubernetes 上运行 Apache Spark 进行大规模数据处理的实践
    在刚刚结束的KubernetesCommunityDay上海站,亚马逊云科技在云原生分论坛分享的“在Kunernets上运行ApacheSpark进行大规模数据处理实践”引起了现场参与者的关注。开发者告诉我们,为了充分利用Kubernetes的高可用设计、弹性,在越来越多的应用场景中,他们选择从Yarn迁移到......
  • Git -- 修改git账号密码后,进行git提交时报错
    修改git账号密码后,进行git提交时报错$gitpushorigindevelopremote:HTTPBasic:Accessdeniedfatal:Authenticationfailedfor'http://xxx/web.git/'重新设置下git信息gitconfig--globaluser.name"yourname"gitconfig--globaluser.email"your......
  • hive on spark配置
     hive-site.xml <?xmlversion="1.0"?><?xml-stylesheettype="text/xsl"href="configuration.xsl"?><configuration>  <!--配置Hive保存元数据信息所需的MySQLURL地址-->  <property>    <name>javax......