首页 > 其他分享 >pyspark写入文件

pyspark写入文件

时间:2023-08-13 15:55:04浏览次数:31  
标签:count 文件 pyspark 写入 py reduce rdd result 算子

#
#   py_spark_rdd2py.py
#   py_learn
#
#   Created by Z. Steve on 2023/8/13 11:39.
#


# 1. rdd.collect() 将 rdd 变为 list

# 2. rdd.reduce() 不分组, 对 rdd 数据做两两聚合

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("demo")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7])

# # reduce() 算子。不分组, 只对数据进行聚合,聚合规则由 lambda 表达式提供
# # 注意 reduce() 算子返回的是 原来 rdd 中元素的类型,不是 rdd 对象. 与 reduceByKey() 不一样
# sum = rdd.reduce(lambda a, b: a + b)
# print(sum)

# # 3. take() 算子. 取出 rdd 中的前 n 条数据
# list_result = rdd.take(4)
# print(list_result)


# 4. count() 算子, 计算 rdd 内有多少条数据
count_result = rdd.count()
print(count_result)

# 5. 将数据写入到文件中 saveAsTextFile()
rdd.saveAsTextFile(r"/Users/stevexhz/PycharmProjects/py_learn/pywrite.txt")

sc.stop()

标签:count,文件,pyspark,写入,py,reduce,rdd,result,算子
From: https://www.cnblogs.com/zxhoo/p/17626657.html

相关文章

  • 文件属性
    简介linux是多用户系统,不同用户处于不同地位修改文件/目录所属用户与权限 chown(changeowner):修改所属用户与组。chmod(changemode):修改用户的权限。查看文件/目录所属用户和组ll或者ls-l 第一个字母:当为d则是目录当为-则是文件;若是l则表示为链......
  • chfs共享文件系统
    chfs简介官网地址:http://iscute.cn/chfsCuteHttpFileServer/chfs是一个免费的、HTTP协议的文件共享服务器,使用浏览器可以快速访问。它具有以下特点:单个文件,核心功能无需其他文件跨平台运行,支持主流平台:Windows,Linux和Mac界面简洁,简单易用支持扫码下载和手机端访问,手机与电脑之间......
  • Typora上传文件到博客园解决图片问题
    EasyBlogImageForTypora使用Typora写作,图片即时同步到博客网站,无需第三方图床,写完可直接粘贴。支持网络图片上传。适用范围本程序基于.netcore3.1开发,支持在win-x64,macosx-x64系统运行,免安装。linux暂时不考虑,如果有需要再说。程序的上传服务是使用MetaWebBlogAPI,MetaWe......
  • Windows11 操作系统 SysWOW64 文件夹的作用
    Windows11操作系统中的SysWOW64文件夹是一个重要的系统目录,它在某些方面扮演着特殊的角色。在这篇文章中,我将详细介绍SysWOW64文件夹的作用,并举例说明它在操作系统中的具体应用。首先,让我们了解一下该文件夹的背景和目的。SysWOW64文件夹是Windows64位操作系统中的一个......
  • 如何修改 Fiori Elements 工程包含的本地注解(annotations)文件试读版
    本教程前一篇文章:8.如何找到SAPFioriElements应用某个字段显示值具体的数据源,笔者试图解答我的知识星球里一个朋友的提问:在WebIde(SAPUI版本1.97.0)生成FioriElements的Overviewpage并发布后,再次在消费视图中修改UI注解后,本地运行该Overviewpage应用发现页面已经变动,......
  • Nginx配置不记录静态文件、过期时间
    用户访问web网站,通常日志文件会记录很多web站点上的一些静态文件信息,如果长期不处理,日志文件会越来越大,占用的系统资源也越大,此时就需要我们配置不记录静态文件和过期时间,减少日志文件记录过多不必要的内容信息和系统资源占用。1配置1.1编写conf文件[root@host~]#vim/usr/local/......
  • SAP Fiori Elements 应用里的 ui5.yaml 文件详解试读版
    本教程第4篇文章,我们介绍了本地启动SAPFioriElements应用的三种模式。4.SAPFioriElements本地应用启动的三种模式辨析以默认方式即命令行yarnstart启动之后,项目文件夹里的ui5.yaml文件会默认被加载并解析。ui5.yaml这个文件,在本地开发FreestyleUI5时也会......
  • 通过重写js脚本文件的例子看文件操作
    有以下文件:相对路径:"Resources/MainWindow/MsgHtml/msgtmpl.txt"文件内容: 要求:由于将要进行通信,我们将external0这个网页对象作为qq的发送者,这是可行的,然而接收者只有这一个对象external是不够的,我们将上面的txt文件作为一个初始版本,最后要进行更改,并最终要写入js文件中。......
  • 删除迅雷批理下载时在文件名尾部追加的41位随机字符串
    在删除迅雷批理下载时,通查会在文件名尾部追加的41位随机字符串。如文件名:知识点精讲(二十六)-建筑工程标准_889fcab66c13b6a02d0fe7b96045573a5506aaee.pdf 红色文字为迅雷追加的字符串,此时文件名过长,想删除该如何做呢?知识点精讲(二十六)-建筑工程标准_889fcab66c13b6a02d0fe......
  • pyspark小demo2
    ##py_pyspark_demo2.py#py_learn##CreatedbyZ.Steveon2023/8/1310:55.#importjson#1.导入库frompysparkimportSparkConf,SparkContext#2.创建SparkConf和SparkContext对象conf=SparkConf().setMaster("local[*]").setAppName(&q......