pyspark写入文件

时间：2023-08-13 15:55:04浏览次数：41

标签：count 文件 pyspark 写入 py reduce rdd result 算子

#
#   py_spark_rdd2py.py
#   py_learn
#
#   Created by Z. Steve on 2023/8/13 11:39.
#


# 1. rdd.collect() 将 rdd 变为 list

# 2. rdd.reduce() 不分组, 对 rdd 数据做两两聚合

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("demo")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7])

# # reduce() 算子。不分组, 只对数据进行聚合，聚合规则由 lambda 表达式提供
# # 注意 reduce() 算子返回的是 原来 rdd 中元素的类型，不是 rdd 对象. 与 reduceByKey() 不一样
# sum = rdd.reduce(lambda a, b: a + b)
# print(sum)

# # 3. take() 算子. 取出 rdd 中的前 n 条数据
# list_result = rdd.take(4)
# print(list_result)


# 4. count() 算子, 计算 rdd 内有多少条数据
count_result = rdd.count()
print(count_result)

# 5. 将数据写入到文件中 saveAsTextFile()
rdd.saveAsTextFile(r"/Users/stevexhz/PycharmProjects/py_learn/pywrite.txt")

sc.stop()

标签：count,文件,pyspark,写入,py,reduce,rdd,result,算子
From： https://www.cnblogs.com/zxhoo/p/17626657.html

文件属性
简介linux是多用户系统，不同用户处于不同地位修改文件/目录所属用户与权限 chown(changeowner)：修改所属用户与组。chmod(changemode)：修改用户的权限。查看文件/目录所属用户和组ll或者ls-l 第一个字母：当为d则是目录当为-则是文件；若是l则表示为链......
chfs共享文件系统
chfs简介官网地址：http://iscute.cn/chfsCuteHttpFileServer/chfs是一个免费的、HTTP协议的文件共享服务器，使用浏览器可以快速访问。它具有以下特点：单个文件，核心功能无需其他文件跨平台运行，支持主流平台：Windows，Linux和Mac界面简洁，简单易用支持扫码下载和手机端访问，手机与电脑之间......
Typora上传文件到博客园解决图片问题
EasyBlogImageForTypora使用Typora写作，图片即时同步到博客网站，无需第三方图床，写完可直接粘贴。支持网络图片上传。适用范围本程序基于.netcore3.1开发，支持在win-x64，macosx-x64系统运行，免安装。linux暂时不考虑，如果有需要再说。程序的上传服务是使用MetaWebBlogAPI，MetaWe......
Windows11 操作系统 SysWOW64 文件夹的作用
Windows11操作系统中的SysWOW64文件夹是一个重要的系统目录，它在某些方面扮演着特殊的角色。在这篇文章中，我将详细介绍SysWOW64文件夹的作用，并举例说明它在操作系统中的具体应用。首先，让我们了解一下该文件夹的背景和目的。SysWOW64文件夹是Windows64位操作系统中的一个......
如何修改 Fiori Elements 工程包含的本地注解(annotations)文件试读版
本教程前一篇文章：8.如何找到SAPFioriElements应用某个字段显示值具体的数据源，笔者试图解答我的知识星球里一个朋友的提问：在WebIde（SAPUI版本1.97.0）生成FioriElements的Overviewpage并发布后，再次在消费视图中修改UI注解后，本地运行该Overviewpage应用发现页面已经变动，......
Nginx配置不记录静态文件、过期时间
用户访问web网站，通常日志文件会记录很多web站点上的一些静态文件信息，如果长期不处理，日志文件会越来越大，占用的系统资源也越大，此时就需要我们配置不记录静态文件和过期时间，减少日志文件记录过多不必要的内容信息和系统资源占用。1配置1.1编写conf文件[root@host~]#vim/usr/local/......
SAP Fiori Elements 应用里的 ui5.yaml 文件详解试读版
本教程第4篇文章，我们介绍了本地启动SAPFioriElements应用的三种模式。4.SAPFioriElements本地应用启动的三种模式辨析以默认方式即命令行yarnstart启动之后，项目文件夹里的ui5.yaml文件会默认被加载并解析。ui5.yaml这个文件，在本地开发FreestyleUI5时也会......
通过重写js脚本文件的例子看文件操作
有以下文件：相对路径："Resources/MainWindow/MsgHtml/msgtmpl.txt"文件内容：要求：由于将要进行通信，我们将external0这个网页对象作为qq的发送者，这是可行的，然而接收者只有这一个对象external是不够的，我们将上面的txt文件作为一个初始版本，最后要进行更改，并最终要写入js文件中。......
删除迅雷批理下载时在文件名尾部追加的41位随机字符串
在删除迅雷批理下载时，通查会在文件名尾部追加的41位随机字符串。如文件名：知识点精讲（二十六）-建筑工程标准_889fcab66c13b6a02d0fe7b96045573a5506aaee.pdf 红色文字为迅雷追加的字符串，此时文件名过长，想删除该如何做呢？知识点精讲（二十六）-建筑工程标准_889fcab66c13b6a02d0fe......
pyspark小demo2
##py_pyspark_demo2.py#py_learn##CreatedbyZ.Steveon2023/8/1310:55.#importjson#1.导入库frompysparkimportSparkConf,SparkContext#2.创建SparkConf和SparkContext对象conf=SparkConf().setMaster("local[*]").setAppName(&q......

pyspark写入文件

相关文章

赞助商

阅读排行