pyspark数据计算

时间：2023-11-09 15:01:48浏览次数：23

标签：conf parallelize collect pyspark print 计算 sc 数据

# 导包
from pyspark import SparkConf, SparkContext

# 获取sparkconf对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

# 基于sparkconf获取sparkcontext对象(sparkcontext对象是pyspark一切功能的入口)
sc = SparkContext(conf=conf)

rdd1 = sc.parallelize([1, 2, 3, 4, 5, 6])
rdd2 = sc.parallelize((1, 2, 3, 4, 5, 6))
rdd3 = sc.parallelize({1, 2, 3, 4, 5, 6})
rdd4 = sc.parallelize("asdfghjkl")
rdd5 = sc.parallelize({"key1": 666, "key2": 999})
rdd6 = sc.textFile("D:/title.txt")  # 通过文件路径进行读取

print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())  # 字符串会被拆成一个一个的字符
print(rdd5.collect())  # 字典仅剩下key的值
print(rdd6.collect())
#停止Pyspark程序
sc.stop()

标签：conf,parallelize,collect,pyspark,print,计算,sc,数据
From： https://blog.51cto.com/u_16072958/8279276

Python进行多线程爬取数据通用模板
首先，我们需要导入所需的库，包括requests和BeautifulSoup。requests库用于发送HTTP请求，BeautifulSoup库用于解析HTML文档。importrequestsfrombs4importBeautifulSoup然后，我们需要定义一个函数来发送HTTP请求并返回响应。在这个函数中，我们使用requests库的get方法来发送一个GET......
建投数据再获中关村高新技术企业认定
近日，建投数据顺利获得由中关村科技园区管理委员会颁发的“中关村高新技术企业”资质认定证书。这是建投数据自2016年首次获证后，连续多次通过中关村高新技术企业认证。中关村高新技术企业是指注册在中关村示范区范围内、有实质性研发活动或者具有较强科技特色并在主业领域形成较好......
Linux 服务器如何实现数据同步？
一、简介1认识Rsync（remotesynchronize）是一个远程数据同步工具，可通过LAN/WAN快速同步多台主机间的文件。Rsync使用所谓的“Rsync算法”来使本地和远程两个主机之间的文件达到同步，这个算法只传送两个文件的不同部分，而不是每次都整份传送，因此速度相当快；Rsync支持大多数的类Unix系统......
使用Python调用API接口获取淘宝商品数据
一、引言随着互联网的发展，电子商务已经成为了我们生活中不可或缺的一部分。淘宝作为中国最大的电子商务平台，其商品种类繁多，价格透明，购物方便，深受消费者的喜爱。然而，淘宝的商品数据量庞大，如果我们想要对淘宝的商品进行一些分析，例如商品的价格趋势、销量趋势等，就需要从淘宝的服务器上......
DolphinDB 流计算优化实践：时延统计与性能调优
在实时计算中，端到端的响应延迟是衡量计算性能时最重要的指标。DolphinDB内置的流数据框架支持流数据的发布与订阅、流式增量计算、实时关联等，用户能够快速实现复杂的实时计算任务，达到毫秒级甚至亚毫秒级的效果，而无需编写大量代码。本文介绍如何对DolphinDB流计算任务进行全链路......
Excel删除重复行数据
要在Excel中删除重复行，可以按照以下步骤操作：打开包含重复行的Excel文件。选中你想要检查重复行的数据范围。可以是整个工作表或特定的列。在Excel菜单栏中选择“数据”选项卡。在“数据”选项卡中，找到并点击“删除重复项”按钮。这将打开“删除重复项”对话框。在......
数据库数据恢复—MySQL数据库（无备份，未开启binlog）误删除表数据怎么恢复数据？
数据库数据恢复环境：一台本地windowssever操作系统服务器，服务器上部署mysql数据库单实例，引擎类型为innodb，表内数据存储所使用表空间类型为独立表空间。无数据库备份，未开启binlog。数据库故障&分析：工作人员在执行Delete命令删除数据时未添加where子句进行筛选，导致全表数据被删除，......
通过 MySQL Shell 8.2.0 工具进行数据复制/迁移
一、通过sysbench创造测试数据1、创造测试数据[root@hankyoondb_tools]#sysbench--mysql-user=root--mysql-password='xxxxxx'--mysql-socket=/data/mysql/3307/mysql.sock/usr/share/sysbench/oltp_common.lua--tables=10--table_size=1000000preparesysbench1.0.1......
数据类型
数值类型整数类型表示没有小数部的数字，包含了正整数负整数和0不可变的数据类型浮点数类型表示带小数点的数值，整数部分和小数部分组成int是整数类型float是浮点数类型两个浮点数相加结果有可能增加一些不确定的尾数复数由实数部分和虚数部分组成实数用部分.real表示虚数......
大型数据库实验1
实验环境：linux，Hadoop3.3.0实验内容与完成情况：1.熟悉常用的Linux操作1）cd命令：切换目录（1）切换到目录“/usr/local”（2）切换到当前目录的上一级目录（3）切换到当前登录Linux系统的用户的自己的主文件夹 2）ls命令：查看文件与目录查看目录“/usr”下的所有文件和目录 ......

pyspark数据计算

相关文章

赞助商

阅读排行