闭包引用

概念

所有编程语言都有闭包的概念，闭包就是在一个函数中引用了函数外的变量。

Spark中，普通的变量是在Driver程序中创建的，RDD的计算是在分布式集群中的task程序上进行的。因此，当分布式算子的函数引用了外部的变量时，Driver会把该变量序列化后通过网络发送给每一个task（只针对普通对象）。

spark中所谓"闭包引用"，只是看起来类似各种编程语言中的闭包。而本质上就是对某个对象进行序列化+复制，即Driver把分布式算子中引用的外部变量序列化后，发送给每个task来使用。

在闭包函数内对外部变量进行修改，闭包外的变量的并不会改变。因为在闭包函数内的修改，只是在task上对复制过来的闭包对象副本的修改，并不会影响到driver端的原对象，他们是存在于两台机器上的独立的文件，互不影响。

好处

应用于大表join小表的场景，将小表数据（字典表、维度表）发送到大表所在节点的内存中，在map阶段完成join，无需通过两个rdd去join，省去了shffule操作。

适用条件

1、闭包引用的对象，必须实现序列化接口：extends Serializable

2、被引用的对象，数据量不能太大，否则会导致task端内存溢出。

单例对象的闭包引用

单例对象（object对象）只在每个executor进程中持有一份，由其中的多个task线程共享。不要在task中对单例对象进行修改操作，否则会产生线程安全问题。而普通对象在每个task线程中都持有一份，不存在线程安全问题。

广播变量

闭包引用的场景中，Spark为每个task都复制了一份它需要的数据，当数据量较大且task较多时，必然会给网络io和内存资源造成很大压力，而广播变量只给每个executor发送一份变量副本，由多个task共享。

和闭包引用的区别

1、闭包引用中，是由driver给每个executor直接发送数据。广播变量中，是通过bittorrent协议来发送数据的，可以减少通信成本。(所有executor遵循了人人为我，我为人人的原则)。

2、闭包引用中，每个task持有一份引用对象的副本，并可以修改（只在该task线程生效）；广播变量中，一个executor只持有一份广播变量的副本，由多个task共享，该数据是只读的，不可修改。

标签：闭包,task,变量,对象,广播,线程,引用,Spark
From： https://www.cnblogs.com/ji-lei/p/18171507

在Windows防火墙设置中，允许单播响应（Unicast Response）是一个控制选项，用于允许或禁止系
在Windows防火墙设置中，允许单播响应（UnicastResponse）是一个控制选项，用于允许或禁止系统对多播或广播网络流量的单播响应。让我详细解释一下允许和禁止单播响应的区别：允许单播响应（是）：当设置为“是”时（默认值），Windows系统会允许对多播或广播网络流量的单播响应。这意味着当系......
搭建单机版伪分布式Hadoop+Scala+spark
搭建单机版伪分布式Hadoop+Scala+spark修改ip[root@master~]#nmcliconnectionaddifnameens32con-nameens32autoconnectyesipv4.methodmanualipv4.gateway192.168.130.2ipv4.addresses192.168.130.102/24ipv4.dns114.114.114.114[root@master~]#nmcliconu......
闭包
在JavaScript中，闭包是一个非常重要的概念，它指的是一个函数能够记住并访问它自身被创建时所在的作用域，即使它在别的地方被执行。这是通过函数内部创建并返回另外一个函数来实现的。这个被返回的函数持有对外部函数作用域的引用，让这个函数可以访问到外部函数的变量。来看一个简单......
实战干货｜Spark 在袋鼠云数栈的深度探索与实践
Spark是一个快速、通用、可扩展的大数据计算引擎，具有高性能、易用、容错、可以与Hadoop生态无缝集成、社区活跃度高等优点。在实际使用中，具有广泛的应用场景：·数据清洗和预处理：在大数据分析场景下，数据通常需要进行清洗和预处理操作以确保数据质量和一致性，Spark提供了丰富的......
python闭包 - 理解与应用
闭包定义闭包是指在一个函数内部定义的函数，并且这个内部函数可以访问外部函数的局部变量。当外部函数执行完毕后，内部函数仍然可以访问外部函数的局部变量，这种函数就称为闭包。在Python中，闭包通常用来保存一些状态信息，可以在外部函数执行完毕后继续使用这些状态信息。闭包可以帮......
js 闭包的概念及应用场景
1.概念是内部函数可以访问外部函数作用域中的变量。2.来由由于JavaScript中的函数作用域规则和函数可以作为值传递的特性产生的3.优点封装性（可以将变量和函数封装起来，防止外部访问和修改，提高了代码的可维护性和可重用性）保存状态（即使函数已经执行完毕，状态仍然保存，在事件处理......
spark和scala的搭建
Scala--部署安装步骤(1)上传并解压安装scala安装包例：tar-zxvfscala--**-C指定位置（2）设置环境变量vim/etc/profileexportSCALA_HOME=spark软件包位置exportPATH=$PATH:${SCALA_HOME}/binsource/etc/profile使环境变量生效（3）验证scala启动成功spark--部署与安装......
spark standalone同时运行pyspark和spark-shell
需要限制资源数量，使用spark.cores.max或--total-executor-cores来指定最大核数。假设集群一共4c5.6gpyspark（使用2c2g）frompyspark.sqlimportSparkSessionspark=SparkSession.builder\.master("spark://worker1:7077")\.appName("pysparkApp")\.......
Spark设置executor-memory后，executor显示的内存不符问题
以该命令为例，我们设置一个executor并分配内存为2800m，可以看到ui上只给executor分配了1.5G的内存。同理，如果你设置了--executor-memory=1g，那么实际上只会有1048.8M的内存会被分配。spark-submit--masteryarn\--num-executors=1\--executor-memory=2800m\--classorg.apac......
Spark SQL 抽样函数 ——TABLESAMPLE 的坑点
最近需要实现一段SparkSQL逻辑，对数据集进行抽样指定的行数。由于数据集较大，刚开始的逻辑是，取窗口函数随机排序后row_number的前n行。但运行速度较慢，所以想起了TABLESAMLE函数，支持直接取Rows，尝试后发现速度特别快，基本上几秒内就完成对亿级数据的采样。所以好奇就去查......

Spark中的闭包引用和广播变量

闭包引用

概念

好处

适用条件

单例对象的闭包引用

广播变量

和闭包引用的区别

相关文章

赞助商

阅读排行