mapPartition与map函数

时间：2024-02-19 16:01:46浏览次数：31

标签：map mapPartitions 函数 val 分区算子 mapPartition

dd的mapPartitions是map的一个变种，它们都可进行分区的并行处理。
两者的主要区别是调用的粒度不一样：map的输入变换函数是应用于RDD中每个元素，而mapPartitions的输入函数是应用于每个分区。
Map 算子是分区内一个数据一个数据的执行，类似于串行操作。而 mapPartitions 算子是以分区为单位进行批处理操作。
假设一个rdd有10个元素，分成3个分区。如果使用map方法，map中的输入函数会被调用10次；而使用mapPartitions方法的话，其输入函数会只会被调用3次，每个分区调用1次。
从功能上讲：Map 算子主要目的将数据源中的数据进行转换和改变。但是不会减少或增多数据。MapPartitions 算子需要传递一个迭代器，返回一个迭代器，没有要求的元素的个数保持不变，所以可以增加或减少数据。

从性能上讲：Map 算子因为类似于串行操作，所以性能比较低，而是 mapPartitions 算子类似于批处理，所以性能较高。但是 mapPartitions算子会长时间占用内存，那么这样会导致内存可能不够用，出现内存溢出的错误。所以在内存有限的情况下，不推荐使用。使用 map 操作。

例：可以求每个分区的最大值，亦或是在连接数据库操作时，可以以为分区单位进行操作

    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("mapPartitions1")
    val sc = new SparkContext(conf)
    val file: RDD[Int] =sc.makeRDD(List(1,2,9,11,3,9,4,22,11),2)

    val result: RDD[Int] = file.mapPartitions(s => {

      Array(s.max).iterator

    })
    result.foreach(println)
    sc.stop()

标签：map,mapPartitions,函数,val,分区,算子,mapPartition
From： https://www.cnblogs.com/huifeidezhuzai/p/18021320

ts函数04
正常的函数//函数声明functionadd(a,b){returna+b}//函数表达式，匿名函数letadd2=function(a,b){returna+b}在ts中//TSfunctionadd3(a:number,b:number):number{//a,b都是number的类型，：number表示返回值为number returna+b}......
03 进阶篇-高阶数据类型BitMaps、HyperLogLogs
BitMaps介绍BitMaps的基本概念，它是一种通过位来表示数据的方法，能高效地处理大量布尔值。展示BitMaps在用户在线状态、统计等方面的应用示例。介绍相关的命令，如SETBIT,GETBIT,BITCOUNT,BITOP等。BitMaps的基本概念BitMaps，或称为位图，是Redis中用于高效处理大量布尔值的......
初等函数微分和积分公式
......
比较厉害的积性函数求和
听zak讲的，感觉很厉害。给定一个积性函数$S$，可以快速计算$S(p^k)$，求$\sum\limits_{i=1}^n\sum\limits_{j=1}^mS(ij)$。把$n,m$当作同阶。我们考虑枚举$i,j$的$\gcd$。\(\sum\limits_{g=1}^{\min(n,m)}\sum\limits_{i=1}^{n/g}\sum\limits_{j=1}^{m/g}S......
2 分钟，了解 4 个极为有用的 MetricsQL 函数
夜莺社区的朋友如果问时序库的选型，我一般都会推荐VictoriaMetrics，除了其性能、稳定性、集群扩展能力之外，VictoriaMetrics还扩展了PromQL，提供了MetricsQL，即增强了PromQL的能力。比如下面介绍的场景，就很适合用MetricsQL来解决。需求某个指标（假设指标名字是interface_sta......
nativeUI页面table列表显示,render渲染函数
{key:'type',title:$t('cmdType'),width:150,align:'center',render(t){switch(t.type){case2:returnh('span',{......
python函数传参
python函数传参参考：python函数参数传递（params,*params,**params）位置参数常见的函数参数：defadd_both(x,y):returnx+y默认参数defenroll(name,gender,age=6,city='Beijing'):print('name:',name)print('gender:',gender)print(&......
2024-02-18-物联网C语言(7-字符串处理函数)
7.字符串7.1获取字符串的长度函数-strlen头文件：#include<string.h>函数定义：size_tstrlen(constchar*s)参数：s-指定的字符串返回值：当前字符串的长度#include<stdio.h>#include<string.h>intmain(intargc,charconst*argv[]){//使用strlen获取字符......
请编写函数fun，它的功能是：求出1到100之内能被7或者11整除，但不能同时被7和11整除的所有
/2.请编写函数fun，它的功能是：求出1到100之内能被7或者11整除，但不能同时被7和11整除的所有整数，并将他们放在a所指的数组中，通过n返回这些数的个数/#include<stdio.h>#include<string.h>intfun(int*buf){inti=1,j=0;for(i=1;i<100;i++){if(i%7==......
1.m个人的成绩存放在score数组中，请编写函数fun, 它的功能是：将低于平均分的人数作为函
/1.m个人的成绩存放在score数组中，请编写函数fun,它的功能是：将低于平均分的人数作为函数值返回，将低于平均分的分数放在below所指1定的数组中。/#include<stdio.h>#include<string.h>intfun(int*buf,int*buff,intnum){inti=0,j=0,sum=0;for(i=......

mapPartition与map函数

相关文章

赞助商

阅读排行