首页 > 其他分享 >spark 常用参数和默认配置

spark 常用参数和默认配置

时间:2023-06-01 13:34:01浏览次数:30  
标签:shuffle driver 内存大小 默认 参数 设置 spark

常用的Spark任务参数及其作用:

  1. spark.driver.memory:设置driver进程使用的内存大小,默认为1g。

  2. spark.executor.memory:设置每个executor进程使用的内存大小,默认为1g。

  3. spark.executor.cores:设置每个executor进程使用的CPU核数,默认为1。

  4. spark.default.parallelism:设置RDD的默认并行设置,即在没有指定分区数时Spark将根据集群情况自动确定分区数量。

  5. spark.memory.fraction:设置Spark程序可使用的堆内存占JVM堆内存大小的比例,默认为0.6。

  6. spark.serializer:设置序列化方式,默认为Java序列化,也支持Kryo序列化等。

  7. spark.shuffle.file.buffer:设置shuffle过程中写入磁盘的缓冲大小,默认为32k。

  8. spark.reducer.maxSizeInFlight:设置每个reduce task所能接收的map task输出的最大数据量,默认为48MB。

  9. spark.shuffle.memoryFraction:设置shuffle操作使用的内存大小占可用堆内存大小的比例,默认为0.2。

  10. spark.shuffle.compress:设置shuffle过程中是否启用压缩,压缩后可以减少数据传输时的带宽消耗。

  11. spark.driver.maxResultSize:设置driver进程存储执行结果的最大内存空间,默认为1g。

  12. spark.sql.shuffle.partitions:设置shuffle操作所用的分区数,默认为200。

标签:shuffle,driver,内存大小,默认,参数,设置,spark
From: https://www.cnblogs.com/afra17/p/17448671.html

相关文章

  • Linux su命令——su默认不修改环境变量 su - 要修改当前工作目录和环境变量
    Linuxsu命令   在我的fc6系统下用普通用户登录,然后用su命令切换到超级用户,再输入ifconfig命令,报错:commandnotfind。而如果用su-命令切换到超级用户,再输入ifconfig命令则能成功执行。这其中涉及的就是su命令与su-命令的区别,mansu得到的帮助文档如下:      -,-l,-......
  • sparkSQL原理和使用——一般在生产中,基本都是使用hive做数据仓库存储数据,然后用spark
    一、sparkSQL概述1.1什么是sparkSQLSparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。类似于hive的作用。1.2sparkSQL的特点1、容易集成:安装Spark的时候,已经集成好了。不需要单独安装。2、统一的数据访问方......
  • pytest 参数化
    前言pytest.mark.parametrize装饰器可以实现测试用例参数化。parametrizing1.这里是一个实现检查一定的输入和期望输出测试功能的典型例子#contentoftest_expectation.py#coding:[email protected]("test_input,expected",......
  • 对接第三方接口教程(发送Http请求及返回参数处理)
    1.首先Http工具类建议使用 packagecn.hutool.http;//这个包下面的HttpUtil.post(StringurlString,Stringbody)这个方法会省去很多事情,不用去设置header的一些基本东西,get就不说了,get也能用post请求,把参数拼url后边就行了2.要看第三方接口的鉴权是如何做的,如果是t......
  • postgresql 的 idle_session_timeout 与连接池的 max-ide-time参数
    看下面的异常:下面的错误说:terminatingconnectionduetoidle-sessiontimeout下面的这个错误说:Causedby:reactor.pool.PoolShutdownException:Poolhasbeenshutdownreactor.core.Exceptions$ErrorCallbackNotImplemented:org.springframework.dao.DataAccessResou......
  • 我的sysmon配置,默认配置就看到了进程采集,其他数据采集还是要配置下的
    我的效果:运行:REGADDHKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Run/veKey/tREG_SZ/d"powershell-filehelloword.ps1"   我的配置文件:Sysmon64.exe-cmyconfig.xml<!--sysmon-config|ASysmonconfigurationfocusedondefault......
  • 优雅实现golang默认参数
    原生的golang中,函数定义不支持默认参数。但是在实际开发过程中,经常会有些参数用户可以不关心或者可以根据实际情况去定制实现,这个时候需要使用到默认参数,在C++中,函数的定义和实现本来就支持默认参数,如果需要在golang中实现默认参数,可以参考一下做法: packagemainimport"fmt......
  • Spark GraphX 的数据可视化
    概述SparkGraphX本身并不提供可视化的支持,我们通过第三方库GraphStream和Breeze来实现这一目标详细Spark和GraphX对并不提供对数据可视化的支持,它们所关注的是数据处理。但是,一图胜千言,尤其是在数据分析时。接下来,我们构建一个可视化分析图的Sp......
  • 【博学谷学习记录】超强总结,用心分享 | spark知识点总结2
    【博学谷IT技术支持】Action动作算子reduce:通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的collect:在驱动程序中,以数组的形式返回数据集的所有元素count:返回RDD的元素个数first:返回RDD的第一个元素(类似于take(1))take:返回一个由数据集的前n个元......
  • Windows 配置 Hadoop and Spark
    一JDK环境配置由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME下载JDK11链接:https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html目前Hadoop和Spark兼容JDK11和JDK8单独修改Had......