Spark优化

Spark优化

时间：2023-11-11 20:47:23浏览次数：31

标签：startDate endDate val Seq Spark 优化 factDF row

意识篇

类型转换
优化前：

val extractFields: Seq[Row] => Seq[(String, Int)] = {
(rows: Seq[Row]) => {
    var fields = Seq[(String, Int)]()
    rows.map(row => {
        fields = fields :+ (row.getString(2), row.getInt(4))
    })
	fields
}
}

优化后：

val extractFields: Seq[Row] => Seq[(String, Int)] = {
(rows: Seq[Row]) =>
	rows.map(row => (row.getString(2), row.getInt(4))).toSeq
}

过程式编程变为函数式编程

关注主要业务逻辑，最终一次性完成类型转换。

原理篇

数据行的操作不要在Driver端执行

服务端才是分布式，从服务端拉数据过来不仅有网络消耗，而且硬生生把分布式操作改为本地操作，失去了大数据分布式分而治之的思想，Driver端资源更有限，会处理更慢。

优化前：

def createInstance(factDF: DataFrame, startDate: String, endDate: String): Dat
val instanceDF = factDF
    .filter(col("eventDate") > lit(startDate) && col("eventDate") <= lit(endDate))
    .groupBy("dim1", "dim2", "dim3", "event_date")
    .agg(sum("value") as "sum_value")
    instanceDF
}
pairDF.collect.foreach{
case (startDate: String, endDate: String) =>
    val instance = createInstance(factDF, startDate, endDate)
    val outPath = s"${rootPath}/endDate=${endDate}/startDate=${startDate}"
    instance.write.parquet(outPath)
}

这种写法会把数据拉回到Driver端一句一句操作，会很慢。
优化后：

val instances = factDF
.join(pairDF, factDF("eventDate") > pairDF("startDate") && factDF("eventDate")
.groupBy("dim1", "dim2", "dim3", "eventDate", "startDate", "endDate")
.agg(sum("value") as "sum_value")
instances.write.partitionBy("endDate", "startDate").parquet(rootPath)

这种只会分区落盘时拉取数据一次。
Tips

Spark 延迟计算的 Actions 算子主要有两类：

一类是将分布式计算结果直接落盘的操作，
如 DataFrame 的 write、RDD 的 saveAsTextFile 等；
另一类是将分布式结果收集到 Driver 端的操作，

如 first、take、collect。

标签：startDate,endDate,val,Seq,Spark,优化,factDF,row
From： https://www.cnblogs.com/tyxy/p/17826317.html

11 11 vue3代码优化
使用axios发送异步请求是这种格式，现在异步请求都封装到api中。说法如下：接口调用的js代码一般都会封装到js文件中，并一函数的形式暴露给外部，例如：这张图片包括了没有参数和有参数的两种情况然后在组件中的script中调用函数就行，但这样不行，好像跟什么同步异步有关，反正这样......
Matlab代码优化之道
一、遵守PerformanceAcceleration的规则关于什么是“PerformanceAcceleration”请参阅matlab的帮助文件。1、只有使用以下数据类型，matlab才会对其加速：logical,char,int8,uint8,int16,uint16,int32,uint32,double而语句中如果使用了非以上的数据类型则不会加速，如numeric......
pyqt5-自定义函数优化管理组件
1、介绍pyqt本身提供了诸多的方法和事件特性，可以操作ui组件。对于单一的项目或者说具有个人风格的开发者来说，在此基础上进行整合可以优化代码。整合，这里特指的是ui组件。可能是ui的显示和初始化，也可能是相关的业务代码。2、测试和总结函数中的ui组件可以调用设置值或获取的......
读程序员的制胜技笔记09_死磕优化（下）
1. 造成延迟的3个方面1.1. CPU1.2. I/O1.3. 人2. 不要打包数据2.1. 一个打包的数据结构2.1.1. C#structUserPreferences{publicbyteItemsPerPage;publicbyteNumberOfItemsOnTheHomepage;publicbyteNumberOfAdClicksICanStomach;publicbyteM......
开始pyspark------------jupyter notebook 读取CSV文件
1开始pyspark 1查看版本信息¶ In [1]:importsysprint(sys.version_info) sys.version_info(major=3,minor=11,micro=5,releaselevel='final',serial=0) In [2]:importosprint("ThevalueofSPARK_H......
索引优化百万数据量
--新建一个查询，复制以下语句，执行即可。通过存储过程创建100万数据CREATETABLE`test_user_memory`(`id`int(11)NOTNULLAUTO_INCREMENTcomment'主键id',`user_id`varchar(36)NOTNULLcomment'用户id',`user_name`varchar(30)NOTNULLcomment'用户名称',`phon......
阿里云Ubuntu服务器优化
阿里云Ubuntu服务器优化有台自用的阿里云测试服务器，最便宜的那种2核2G￥99/年，装的ubuntu22.04.之前用着感觉还行，最近几天使用vscodessh修改调试，搞了一段时间就不行，cpu和内存飙升至96%以上...之后就是各种反应迟钝，无法编译....太便宜了，提交工单都不好意思装个htop看了下，vscode......
MySQL数据库进阶实战：优化性能、提高安全性和实现高可用性
当涉及到MySQL数据库的进阶实战时，有许多方面需要考虑，包括性能优化、安全性、高可用性和复杂查询等。以下是一个关于MySQL数据库进阶实战的文章大纲，您可以根据需要进行扩展和详细说明。MySQL数据库进阶实战：优化性能、提高安全性和实现高可用性引言MySQL是一款广泛使用的开源关系型数......
14个优化网站性能提高网站访问速度技巧
相信互联网已经越来越成为人们生活中不可或缺的一部分。ajax，flex等等富客户端的应用使得人们越加“幸福”地体验着许多原先只能在C/S实现的功能。比如Google机会已经把最基本的office应用都搬到了互联网上。当然便利的同时毫无疑问的也使页面的速度越来越慢。自己是做前端开发的，在......
小程序性能优化之JavaScript代码优化
大家好，今天我们来聊一聊小程序性能优化中的JavaScript代码优化。在编程过程中，我们都喜欢轻松愉快，不想戴着沉重的“全局疯狂”帽子。但有时候，过度使用全局变量会让我们的程序变得难以维护，就像在一片大森林里找寻一个小木屋。这时候，我们就需要考虑一下，是不是该减轻一下我们的“全局疯......

意识篇

原理篇

相关文章

赞助商

阅读排行