常用spark优化参数

时间：2023-03-30 12:45:33浏览次数：44

标签：set shuffle memory 参数 sql spark 优化 adaptive

常用spark优化参数

强制使用spark engine

set tqs.query.engine.type = sparkCli;
set spark.yarn.priority = 4;

双写HDFS开启：

set spark.shuffle.hdfs.enable=true;
set spark.shuffle.io.maxRetries=1;
set spark.shuffle.io.retryWait=0s;
set spark.network.timeout=120s;

## 双写HDFS开启避免fetch failed，且基本上只有20min以上大任务再开启

调整全局任务并行度

set spark.sql.shuffle.partitions=400;
set spark.default.paralleism=400;
set spark.executore.cores=4;

动态资源申请

set spark.dynamicAllocation = True;
set spark.dynamicAllocation.minExecutors = 30;
set spark.dynamicAllocation.maxExecutors = 200;
set spark.dynamicAllocation.initExectors = 30;

## 动态资源申请，保证尽快起任务，不适用时归还资源

memory

set spark.exector.memory=10g;
set spark.executor.memoryOverhead=10g;
set spark.driver.memory=3g;

## memory:executor memory = memory + memoryoverhead

join

set spark.shuffle.statistic.verbose=true; -- 收集join数据
set spark.sql.join.perferSortMergejoin=false; -- disable sort to enable hash
set spark.sql.autoBroadcastJoinThreshold=134217728; -- 如果不设置跟autoBroadcastJoinThreshold一致，则被覆盖

AE：skewed

set spark.sql.adaptive.skewedJoin.enable=true;
set spark.sql.adaptive.skewedpartitionMaxSplits=3;
set spark.sql.adaptive.skewedPartitionFactor=3;
set spark.sql.adaptive.skewedPartitionSizeThreshold=52428800;
set spark.sql.adaptive.skewedPartitionRowCountThreshold=5000000;

AE：partition

set spark.sql.adaptive.maxNumPostShufflePartitions=1000;
set spark.sql.adaptive.minNumPostShufflePartitions=10;
set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=60;

## 解决partition太多，reducer生成太多文件的问题，自动进行文件合并；

input

set spark.sql.hive.convertMetastoreParquet=true;
set spark.sql.parquet.adaptiveFileSplit=true;
set spark.sql.files.maxPartitionBytes=314572800;
set spark.sql.files.openCostinBytes=16777216;

Output

set spark.merge.files.enabled=true;
set spark.merge.files.number=512;

标签：set,shuffle,memory,参数,sql,spark,优化,adaptive
From： https://www.cnblogs.com/wenBlog/p/17272186.html

CF1295E Permutation Separation 题解线段树优化dp
题目链接：https://codeforces.com/problemset/problem/1295/E题目大意：将排列\(p_1,p_2,\ldots,p_n\)先分成\(p_1,\ldots,p_k\)与\(p_{k+1},\ldots,p_n\)两个......
MATLAB代码：基于遗传算法的储能优化配置（可加入风光机组）
MATLAB代码：基于遗传算法的储能优化配置（可加入风光机组）关键词：储能优化配置遗传算法储能充放电优化参考文档：无明显参考文档，仅有几篇文献可以适当参考仿真平台：MATLAB......
MATLAB代码：基于Stackelberg博弈的光伏用户群优化定价模型
MATLAB代码：基于Stackelberg博弈的光伏用户群优化定价模型关键词：光伏用户群内部电价需求响应斯塔克伯格博弈参考文档：《基于Stackelberg博弈的光伏用户群优化定价模型》......
《基于改进粒子群算法的混合储能系统容量优化》完全复现
《基于改进粒子群算法的混合储能系统容量优化》完全复现matlab。以全生命周期费用最低为目标函数，负荷缺电率作为风光互补发电系统的运行指标，得到蓄电池储能和超级电容个......
Django笔记十一之外键查询优化select_related和prefetch_related
本篇笔记目录如下：select_relatedprefetch_related在介绍select_related和prefetch_related这两个函数前，我们先来看一个例子。对于，Entry和Blog这两个model，前......
【性能优化】Linux内存调试工具-pmap
简介pmap是一款对进程内存占用率进行分析的Linux环境调试工具，他提供了进程的内存映射，可以用于显示一个或多个进程的内存状态。pmap工具使用说明Usage:pmap[options]P......
HTTP Get请求的参数带空格如何处理
在URL中，空格会被转义成%20，因此在GET请求的参数中，可以将空格替换为%20，或者使用加号（+）代替空格。这些特殊字符在URL中都有特殊的含义，因此需要进行编码，以便正确传递参......
函数的可变参数调用方法
1、JDK1.5开始，Java支持传递同类型的可变参数给一个方法。2、在方法声明中，在指定参数类型后加一个省略号（...）。3、一个方法中只能指定一个可变参数，它必须是方法的最后一个......
存储过程语法--参数传递
......
JavaScript系列 -> 字符串方法 replace 的第二个参数为函数
本篇文章要介绍，当字符串的replace方法第二个参数为函数的使用。示例代码：functionfn(str){this.str=str;}fn.prototype.format=function(){vararg=......

常用spark优化参数

常用spark优化参数

强制使用spark engine

双写HDFS开启：

调整全局任务并行度

动态资源申请

memory

join

AE：skewed

AE：partition

input

Output

相关文章

赞助商

阅读排行