#
# py_spark_rdd2py.py
# py_learn
#
# Created by Z. Steve on 2023/8/13 11:39.
#
# 1. rdd.collect() 将 rdd 变为 list
# 2. rdd.reduce() 不分组, 对 rdd 数据做两两聚合
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local[*]").setAppName("demo")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7])
# # reduce() 算子。不分组, 只对数据进行聚合,聚合规则由 lambda 表达式提供
# # 注意 reduce() 算子返回的是 原来 rdd 中元素的类型,不是 rdd 对象. 与 reduceByKey() 不一样
# sum = rdd.reduce(lambda a, b: a + b)
# print(sum)
# # 3. take() 算子. 取出 rdd 中的前 n 条数据
# list_result = rdd.take(4)
# print(list_result)
# 4. count() 算子, 计算 rdd 内有多少条数据
count_result = rdd.count()
print(count_result)
# 5. 将数据写入到文件中 saveAsTextFile()
rdd.saveAsTextFile(r"/Users/stevexhz/PycharmProjects/py_learn/pywrite.txt")
sc.stop()
标签:count,文件,pyspark,写入,py,reduce,rdd,result,算子
From: https://www.cnblogs.com/zxhoo/p/17626657.html