pyspark 常用action 算子

时间：2023-10-16 17:55:22浏览次数：29

标签：sc parallelize pyspark items print rdd collect 算子 action

from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName("test_SamShare").setMaster("local[4]")
sc = SparkContext(conf=conf)

# 1. collect 指的是把数据汇集到driver端 ，便于后续操作

rdd = sc.parallelize(range(0, 5))
rdd_collect = rdd.collect()
print(rdd_collect)

# [0, 1, 2, 3, 4]

# 2.first 取第一个元素

rdd = sc.parallelize(['a', 'b', 'c'])
print(rdd.first())

# a

# 3. collectAsMap :转换为dict,使用这个要注意不要对大数据使用，不然全部加载到driver端会爆内存

rdd = sc.parallelize([(1, 2), (3, 4)])
print(rdd.collectAsMap())

# {1: 2, 3: 4}

# 4. reduce 逐步对两个元素进行操作
rdd = sc.parallelize(range(10), 5)
print(rdd.collect())
print(rdd.reduce(lambda x, y: x+y))

# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
# 45

# 5.countByKey/countByValue

rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 1)])
print(rdd.countByKey().items())
print(rdd.countByValue().items())


# dict_items([('a', 2), ('b', 1)])
# dict_items([(('a', 1), 2), (('b', 2), 1)])

# 6.take 相当于取几个数据到driver端

rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 1)])
print(rdd.take(2))

# [('a', 1), ('b', 2)]

# 7.saveAsTextFile 保存rdd成text文件到本地

text_file = "./rdd.txt"
rdd = sc.parallelize(range(5))
rdd.saveAsTextFile(text_file)

# 8.takesample 随机取数

rdd = sc.textFile("./word.txt", 4) # 4代表分区数量
rdd_sample = rdd.takeSample(True, 2, 0)  # withReplacement 参数1：代表是否是有放回抽样
print(rdd_sample)

# 9.foreach 对每一个元素执行某种操作，不生成新的RDD

rdd = sc.parallelize(range(5))
accum = sc.accumulator(0)
rdd.foreach(lambda x : accum.add(x))
print(accum.value)

# 10

标签：sc,parallelize,pyspark,items,print,rdd,collect,算子,action
From： https://www.cnblogs.com/whiteY/p/17767982.html

pyspark 常用Transform算子
frompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName("test_SamShare").setMaster("local[4]")sc=SparkContext(conf=conf)#1.map对每一个元素进行一个映射rdd=sc.parallelize(range(1,11),4)rdd_map=rdd.map(lambdax:x*2......
论文阅读（三）——Channel-wise Topology Refinement Graph Convolution for Skeleton-Ba
代码实验pythonmain.py--configconfig/nturgbd-cross-subject/default.yaml--work-dirwork_dir/ntu/csub/ctrgcn--device0--num-worker0综述......
Programming abstractions in C阅读笔记：p179-p180
《ProgrammingAbstractionsInC》学习第60天，p179-p180总结。一、技术总结1.palindrome(回文)(1)包含单个字符的字符串(如"a")，或者空字符串(如"")也是回文。(2)示例：“level”、"noon"。2.predicatefunction(1)predicate的意思pre-("forth")+*deik-("show")，“t......
使用GitHub Actions自动部署Hexo博客
准备两个仓库源码库：hexo源码仓库网页库：{username}.github.io目标在源码库编写博客，推送到远端后，触发GithubActions。Actions配置hexo环境，生成hexo文件后，推送到网页库。推送网页到网页库的权限问题，通过Github的accesstoken解决（https://github.com/settings/token......
Vue3| Pinia 的 action 异步写法
import{defineStore}from'pinia'import{ref}from'vue'importaxiosfrom'axios'exportconstuseChannelStore=defineStore('channel',()=>{ constchannelList=ref([]) constgetList=()=>......
Spring源码解析——@Transactional注解的声明式事物介绍
正文面的几个章节已经分析了spring基于@AspectJ的源码，那么接下来我们分析一下Aop的另一个重要功能，事物管理。最全面的Java面试网站事务的介绍1.数据库事物特性原子性多个数据库操作是不可分割的，只有所有的操作都执行成功，事物才能被提交；只要有一个操作执行失败，那么所有的操作......
如何在ActionScript 3中将"Null"（一个真实的姓氏！）传递给SOAP Web服务
内容来自DOC[https://q.houxu6.top/?s=如何在ActionScript3中将"Null"（一个真实的姓氏！）传递给SOAPWeb服务](https://q.houxu6.top/?s=如何在ActionScript3中将"Null"（一个真实的姓氏！）传递给SOAPWeb服务)我们有一位员工的姓氏是“Null”。当使用该姓氏作为搜索条件时，我们的员......
actions
actions：处理异步操作需求：一秒钟之后，修改state的count成666说明：mutations必须是同步的（便于监测数据变化，记录调试） actions使用步骤：1.提供actions方法：（actions本质上不是直接修改state的数据，因为要修改state必须要经过mutations，所以就算想要处理异步，也是在act......
Fi-GNN: Modeling Feature Interactions via Graph Neural Networks for CTR Predicti
目录概Fi-GNN代码LiZ.,CuiZ.,WuS.,ZhangX.andWangL.Fi-GNN:Modelingfeatureinteractionsviagraphneuralnetworksforctrprediction.CIKM,2019.概"图网络"用在精排阶段(算哪门子图网络啊).Fi-GNN一个item可能有多种field,比如:\[\underbrace......
使用Github Action实现构建、发布到 nuget.org
使用GithubAction实现构建、发布到nuget.orgGitHubActions是GitHub提供的持续集成和持续部署（CI/CD）工具，它能够自动化构建、测试和部署你的项目。在这篇教程中，我们将探讨如何使用GitHubActions来构建一个.NET项目，并将它发布到NuGet.org。配置NuGetAPI密钥首先进入nuget......

pyspark 常用action 算子

相关文章

赞助商

阅读排行