首页 > 其他分享 >Spark 调优

Spark 调优

时间:2022-11-03 21:23:47浏览次数:24  
标签:shuffle RDD 调优 使用 join Spark

Spark 调优

 

1.对多次使用的RDD进行持久化

 

 

2.使用高性能的算子

 

 

3.广播大变量

 

 

4.使用kryo优化序列化性能

 

 

5.优化数据结构

 

 

6.使用高性能的库fastutil

 

 

 

 

数据本地性

 

 

 

jvm调优

 

 

shuffle调优

 

 

调节Executor堆外内存

 

 

 

 

数据倾斜

1.数据分布不均;2.有shuffle

解决方案

1.使用Hive ETL预处理数据

 

 

2.过滤少数导致倾斜的key

 

 

3.提高shuffle操作的并行度

 

 

4.双重聚合

 

 

5.将reduce join 转为map join

 

 

6.采样倾斜key并拆分join操作

 

 

7.使用随机前缀和扩容RDD进行join

 

标签:shuffle,RDD,调优,使用,join,Spark
From: https://www.cnblogs.com/wqy1027/p/16855861.html

相关文章

  • [Spark streaming举例]-- 消费kafka中的数据
    第一种方式packagecom.kafka.my.scalaimportorg.apache.spark.SparkConfimportorg.apache.spark.streaming.Durationsimportorg.apache.spark.streaming.StreamingConte......
  • [Spark streaming举例]-- 统计一段时间内的热搜词
    如下packagecom.my.scalaimportorg.apache.spark.SparkConfimportorg.apache.spark.streaming.{Durations,StreamingContext}/****使用开窗函数实现sparkstreamin......
  • [Spark streaming举例]-- 实时统计并且存储到mysql数据库中
    举例packagecom.scala.myimportorg.apache.spark.SparkConfimportorg.apache.spark.streaming.Durationsimportorg.apache.spark.streaming.StreamingContext/****@......
  • 大数据面试杀招——Spark高频考点,必知必会!
        之前写了两篇文章分别为大家介绍了大数据面试杀招关于Hive与Hadoop的内容,收到读者朋友们一致的好评和赞赏。嘿嘿,本篇文章我们就继续来研究,关于Spark的面试......
  • Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中
    一、前言近几年大数据是异常的火爆,今天小编以java开发的身份来会会大数据,提高一下自己的层面!大数据技术也是有很多:HadoopSparkFlink小编也只知道这些了,由于Hadoop,......
  • Spark安装
    1安装JDK(jdk-8u281-linux-x64.tar.gz),上传并解压到/usr/lib/jdk1.8/jdk1.8.0_281 2安装Hadoop(hadoop-3.2.1.tar.gz),上传并解压到/usr/local/hadoop-3.2.13安装......
  • 随机森林+SVM+参数调优
    注意事项最好使用回归而不是分类,回归可以打分,可以认为划定阈值,从而调整灵敏和特异参数调优-以SVM为例fromsklearnimportsvmfromsklearn.model_selectionimport......
  • spark在针对MySQL数据库主键对其余字段进行更新
    packagecom.ustcinfo.SDKimportjava.sql.{Connection,PreparedStatement}importorg.apache.hadoop.io.{LongWritable,Text}importorg.apache.hadoop.mapred.TextI......
  • spark读取文件方式
    一、调用hadoopfile方法读取TXT文件,针对复杂的分割方式,例如|+|,;等valgbkPath=s"/bdtj/line/DD_OUT_NOW_LV_$month.txt"//文件路径//将gbkPath以参数的形式传入进行读取......
  • Spark Streaming
    SparkStreaming1、流处理和批处理  1,流处理处理过程 数据采集(实时采集)工具:flume数据先放到消息队列做缓冲,第一步往第二步放数据的过程叫做生产,第三步从第......