parallelize

2024-05-25【pyspark速成专家】5_Spark之RDD编程3
目录编辑六，共享变量七，分区操作六，共享变量当spark集群在许多节点上运行一个函数时，默认情况下会把这个函数涉及到的对象在每个节点生成一个副本。但是，有时候需要在不同节点或者节点和Driver之间共享变量。Spark提供两种类型的共享变量，广播变量和累加器。广播变量是
2024-05-12Spark - [04] RDD编程
题记部分一、RDD编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果（count，collect等），或者是向存储系统保存数据（saveAsTextFile
2024-03-25RDD基本操作(残)
intRDD=sc.parallelize([3,1,2,5,5])intRDD.collect()[3,1,2,5,5]stringRDD=sc.parallelize(["Apple","Orange","Banana","Grape","Apple"])stringRDD.collect()['Apple','Oran
2024-01-23假期学习记录10
本次学习学习了RDD的编程概述RDD创建1、从文件系统中加载数据创建RDDSpark采用textFile()方法来从文件系统中加载数据创建RDD该方法把文件的URI作为参数，这个URI可以是：本地文件系统的地址或者是分布式文件系统HDFS的地址或者是AmazonS3的地址等等本地进行加载scala>val
2024-01-17python-pyspark数据输入
数据容器转rdd对象通过SparkContext对象的parallelize成员方法，将python数据容器转为rdd对象frompysparkimportSparkConf,SparkContextconf=SparkConf().setMaster("local[*]").setAppName("test_spark_app")sc=SparkContext(conf=conf)data1=[1,2,3,4,5]data2=(1
2024-01-13学习进度笔记2
frompysparkimportSparkConf,SparkContext#创建sparkconf对象conf=SparkConf().setMaster("local[*]").setAppName("test_app")#基于sparkconf对象创建sparkContext对象sc=SparkContext(conf=conf)##########基本结构#map计算#rdd=sc.parallelize([1,2,3,4,5])#
2024-01-10寒假生活指导02
今天学习了rdd的过滤和去重：frompysparkimportSparkConf,SparkContext#创建sparkconf对象conf=SparkConf().setMaster("local[*]").setAppName("test_app")#基于sparkconf对象创建sparkContext对象sc=SparkContext(conf=conf)##########基本结构#map计算#rdd=s
2023-11-09pyspark数据计算
#导包frompysparkimportSparkConf,SparkContext#获取sparkconf对象conf=SparkConf().setMaster("local[*]").setAppName("test_spark")#基于sparkconf获取sparkcontext对象(sparkcontext对象是pyspark一切功能的入口)sc=SparkContext(conf=conf)rdd1=sc.p
2023-10-20【大数据】RDD
RDD介绍Resilient:RDD中的数据可以存储在内存中或者磁盘中。Dataset:一个数据集合，用于存放数据的。Distributed:RDD中的数据是分布式存储的，可用于分布式计算RDD五大特性#coding:utf8frompysparkimportSparkConf,SparkContextif__name__=='__main__':
2023-10-16pyspark 常用action 算子
frompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName("test_SamShare").setMaster("local[4]")sc=SparkContext(conf=conf)#1.collect指的是把数据汇集到driver端，便于后续操作rdd=sc.parallelize(range(0,5))rdd_collect=rdd.
2023-10-16pyspark 常用Transform算子
frompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName("test_SamShare").setMaster("local[4]")sc=SparkContext(conf=conf)#1.map对每一个元素进行一个映射rdd=sc.parallelize(range(1,11),4)rdd_map=rdd.map(lambdax:x*2
2023-08-12pyspark使用
##py_pyspark.py#py_learn##CreatedbyZ.Steveon2023/8/1017:51.##pyspark编程主要分三步：1.数据输入。2.数据处理。3.数据输出。#RDD：ResilientDistributedDatasets弹性分布式数据集#1.安装pyspark库#pip3installpyspark#2.导入p
2023-01-15【博学谷学习记录】超强总结，用心分享 | pyspark基础操作
【博学谷IT技术支持】Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生，2010年开源，2013年成为Apache孵化项目，2014年成为Apache顶级项目。目前，Spark生态系统已经发
2023-01-12pyspark
spark用于大规模数据处理的统一(适用面广)分析引擎(数据处理)。RDD:弹性分布式数据集。rdd是一种分布式内存抽象，能够在大规模集群中做内存运算，并且有一定的容错方式。s
2022-10-31RDD的方法
方法介绍简单使用 flatmap对RDD中的每一个元素进行先map再压扁,最后返回操作的结果scala>sc.parallelize(Array("abc","def","hij")).collectres31:Array[Strin
2022-08-26pySpark RDD基本用法
pySparkRDD基本用法RDD的全称是：ResilientDistributedDataset（弹性分布式数据集），它有几个关键的特性：RDD是只读的，表示它的不可变性。可以并行的操作分区集合上的所有元