• 2024-05-25【pyspark速成专家】5_Spark之RDD编程3
    目录​编辑六,共享变量七,分区操作六,共享变量当spark集群在许多节点上运行一个函数时,默认情况下会把这个函数涉及到的对象在每个节点生成一个副本。但是,有时候需要在不同节点或者节点和Driver之间共享变量。Spark提供两种类型的共享变量,广播变量和累加器。广播变量是
  • 2024-05-12Spark - [04] RDD编程
    题记部分 一、RDD编程模型  在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile
  • 2024-03-25RDD基本操作(残)
    intRDD=sc.parallelize([3,1,2,5,5])intRDD.collect()[3,1,2,5,5]stringRDD=sc.parallelize(["Apple","Orange","Banana","Grape","Apple"])stringRDD.collect()['Apple','Oran
  • 2024-01-23假期学习记录10
    本次学习学习了RDD的编程概述RDD创建1、从文件系统中加载数据创建RDDSpark采用textFile()方法来从文件系统中加载数据创建RDD该方法把文件的URI作为参数,这个URI可以是:本地文件系统的地址或者是分布式文件系统HDFS的地址或者是AmazonS3的地址等等本地进行加载scala>val
  • 2024-01-17python-pyspark数据输入
    数据容器转rdd对象通过SparkContext对象的parallelize成员方法,将python数据容器转为rdd对象frompysparkimportSparkConf,SparkContextconf=SparkConf().setMaster("local[*]").setAppName("test_spark_app")sc=SparkContext(conf=conf)data1=[1,2,3,4,5]data2=(1
  • 2024-01-13学习进度笔记2
    frompysparkimportSparkConf,SparkContext#创建sparkconf对象conf=SparkConf().setMaster("local[*]").setAppName("test_app")#基于sparkconf对象创建sparkContext对象sc=SparkContext(conf=conf)##########基本结构#map计算#rdd=sc.parallelize([1,2,3,4,5])#
  • 2024-01-10寒假生活指导02
    今天学习了rdd的过滤和去重:frompysparkimportSparkConf,SparkContext#创建sparkconf对象conf=SparkConf().setMaster("local[*]").setAppName("test_app")#基于sparkconf对象创建sparkContext对象sc=SparkContext(conf=conf)##########基本结构#map计算#rdd=s
  • 2023-11-09pyspark数据计算
    #导包frompysparkimportSparkConf,SparkContext#获取sparkconf对象conf=SparkConf().setMaster("local[*]").setAppName("test_spark")#基于sparkconf获取sparkcontext对象(sparkcontext对象是pyspark一切功能的入口)sc=SparkContext(conf=conf)rdd1=sc.p
  • 2023-10-20【大数据】RDD
    RDD介绍Resilient:RDD中的数据可以存储在内存中或者磁盘中。Dataset:一个数据集合,用于存放数据的。Distributed:RDD中的数据是分布式存储的,可用于分布式计算RDD五大特性#coding:utf8frompysparkimportSparkConf,SparkContextif__name__=='__main__':
  • 2023-10-16pyspark 常用action 算子
    frompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName("test_SamShare").setMaster("local[4]")sc=SparkContext(conf=conf)#1.collect指的是把数据汇集到driver端,便于后续操作rdd=sc.parallelize(range(0,5))rdd_collect=rdd.
  • 2023-10-16pyspark 常用Transform算子
    frompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName("test_SamShare").setMaster("local[4]")sc=SparkContext(conf=conf)#1.map对每一个元素进行一个映射rdd=sc.parallelize(range(1,11),4)rdd_map=rdd.map(lambdax:x*2
  • 2023-08-12pyspark使用
    ##py_pyspark.py#py_learn##CreatedbyZ.Steveon2023/8/1017:51.##pyspark编程主要分三步:1.数据输入。2.数据处理。3.数据输出。#RDD:ResilientDistributedDatasets弹性分布式数据集#1.安装pyspark库#pip3installpyspark#2.导入p
  • 2023-01-15【博学谷学习记录】超强总结,用心分享 | pyspark基础操作
    【博学谷IT技术支持】Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生,2010年开源,2013年成为Apache孵化项目,2014年成为Apache顶级项目。目前,Spark生态系统已经发
  • 2023-01-12pyspark
    spark用于大规模数据处理的统一(适用面广)分析引擎(数据处理)。RDD:弹性分布式数据集。rdd是一种分布式内存抽象,能够在大规模集群中做内存运算,并且有一定的容错方式。s
  • 2022-10-31RDD的方法
    方法介绍简单使用 flatmap对RDD中的每一个元素进行先map再压扁,最后返回操作的结果scala>sc.parallelize(Array("abc","def","hij")).collectres31:Array[Strin
  • 2022-08-26pySpark RDD基本用法
    pySparkRDD基本用法RDD的全称是:ResilientDistributedDataset(弹性分布式数据集),它有几个关键的特性:RDD是只读的,表示它的不可变性。可以并行的操作分区集合上的所有元