rdd
  • 2024-07-02spark运行的基本流程
    前言:由于最近对spark的运行流程非常感兴趣,所以阅读了《Spark大数据处理:技术、应用与性能优化》一书。通过这本书的学习,了解了spark的核心技术、实际应用场景以及性能优化的方法。本文旨在记录和分享下spark运行的基本流程。一、spark的基础组件及其概念1.ClusterManager在S
  • 2024-07-02【Spark Core】RDD详解
    一、RDD基本介绍1、为什么需要RDD没有RDD之前:1.MR:只提供了map和reduce的API,而且编写麻烦,运行效率低!---早淘汰了!2.使用Python/Scala/Java的本地集合:但是只能完成本地单机版的,如果要实现分布式的,---很困难!  所以需要有一个分布式的数据抽象,也就是用该抽象,可
  • 2024-07-01Spark_04 SparkSQL的介绍及使用
    说明这一章主要包括对于sparksql概念的介绍,sparksql的特点,sparksql用到的数据类型,DataFrame的基础方法等。概念SparkSQL是Spark用于处理结构化数据的模块。诞生由于MapReduce这种计算模型的执行效率较慢,rdd原生代码较为复杂,所以引入了SparkSQL应运而生。它可以将sql转换为
  • 2024-06-30大数据面试题之Spark(3)
    目录Spark的哪些算子会有shuffle过程?Spark有了RDD,为什么还要有Dataform和DataSet?Spark的RDD、DataFrame、DataSet、DataStream区别?Spark的Job、Stage、Task分别介绍下,如何划分?Application、job、Stage、task之间的关系Stage内部逻辑为什么要根据宽依赖划分Stage?
  • 2024-06-24Day11 —— 大数据技术之Spark
    Spark快速入门系列Spark的概述什么是Spark?Spark的主要特点Spark的主要组件Spark安装Spark三种运行模式SparkStandalone架构SparkStandalone的两种提交方式SparkOnYARN架构RDD算子转化算子行动算子SparkRDDRDD的创建从对象集合创建RDD从外部存储创建RDDSparkS
  • 2024-06-23Apache Spark 安装和基础使用
    Spark概述ApacheSpark是一个开源的集群计算框架,以其快速、易用、通用和高度可扩展性而著称。Spark支持多种编程语言,包括Java、Scala、Python和R,并提供了丰富的库,如SparkSQL、MLlib、GraphX和SparkStreaming。Spark的主要特点快速:Spark通过在内存中存储中间数据,
  • 2024-06-18Spark 面试题(十六)
    1.简述Spark运行时并行度的设置?在Spark中,“并行度”(Parallelism)通常指的是作业中同时执行的任务数量。这个数量决定了在任何给定时间可以有多少任务并发运行,进而影响作业的执行效率和资源利用。以下是设置Spark运行时并行度的一些关键点:默认并行度:如果没有明确设置,Spa
  • 2024-06-16Spark RDD弹性分布式数据集原理与代码实例讲解
    SparkRDD弹性分布式数据集原理与代码实例讲解1.背景介绍在大数据处理领域,ApacheSpark已成为最受欢迎的框架之一。其核心组件之一是弹性分布式数据集(ResilientDistributedDataset,简称RDD)。RDD是Spark的基础抽象,提供了对大规模数据集的容错和并行处理能力。本文将
  • 2024-06-15Spark RDD与算子详解:案例解析(第3天)
    系列文章目录1-RDD的基本介绍(了解)2-如何构建RDD(熟悉)3-RDD的相关算子(案例详解)(掌握)4-sparkRDD算子相关面试题(重点)文章目录系列文章目录前言一、RDD的基本介绍(了解)1、什么是RDD2、RDD的五大特性3、RDD的五大特点二、如何构建RDD(熟悉)1、并行化本地集合方式2、读
  • 2024-06-15【SPARK-CORE】checkpoint机制
    本文主要介绍SPARKRDD的checkpoinnt机制 checkpoint机制介绍checkpoint是讲RDD保存到可靠的存储中的机制,主要目的是提高应用的容错能力和持久性。Checkpointing将数据从内存中转移到磁盘存储,使得在出现节点故障时,Spark可以从存储中恢复数据,而不需要重新计算所有的数据。这
  • 2024-06-15Spark 面试题(十)
    1.简述Spark参数(性能)调优?Spark性能调优涉及多个方面,包括资源分配、任务并行度、内存管理、存储策略等。以下是一些关键的Spark性能调优参数:spark.executor.memory:设置Executor的内存大小。这是最关键的配置之一,需要根据集群的资源和作业的需求进行调整。spark.driver
  • 2024-06-15Spark 面试题(九)
    1.简述Spark的DAG以及它的生成过程?在Spark中,DAG(有向无环图)是描述作业中所有RDD转换操作依赖关系的图。DAG的生成过程是Spark作业调度的关键步骤之一。以下是对SparkDAG的简述以及它的生成过程:DAG的概念节点:DAG中的每个节点代表一个RDD。边:边表示RDD之间的依赖关系,可以
  • 2024-06-09RDD编程
    环境准备1.VMware虚拟机(Linux操作系统)2.Windows7~113.JDK4.HadoopHadoop安装及集群环境配置_hadoop环境搭建与安装-CSDN博客https://blog.csdn.net/2301_81921110/article/details/139362063?spm=1001.2014.3001.55015.spark和sbtspark安装和编程实践(Spark2.1.0)-CSDN博客h
  • 2024-06-062024.6.6
    更换了hadoop中的jdk的版本从1.8->17rdd行动算子和转换算子序列化//TODO//Spark在编写代码时,调用转换算子,并不会真正执行,因为只是在Driver端组合功能//所以当前的代码其实就是在Driver端执行//所以当前main方法也称之为driver方法
  • 2024-06-056.5
    rddmapfilterflatmapgroupbydistinctsortby//TODOmap方法的作用就是将传入的A转换为B返回,但是没有限制A和B的关系。finalJavaRDD<Integer>newRDD1=rdd.map(num->{System.out.println("@"+num);
  • 2024-06-01云计算考试大纲
    1.云计算的定义和特点云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,这些资源能够被快速提供,只需投入很少的管理工作,或与服务商进行很少的交互。特点:资源池化、弹性伸缩、安全可靠2.各种云公有云能够以低廉的价格提供
  • 2024-05-30SparkSQL概述
    为了给熟悉RDBMS(关系数据库管理系统)但又不理解MapReduce的技术人员提供快速上手的工具,hive应运而生,它是运行在Hadoop上的SQL-on-hadoop工具;但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,运行效率低;sparksql则是采用内存存储可以减少大量的中间
  • 2024-05-25【pyspark速成专家】5_Spark之RDD编程3
    目录​编辑六,共享变量七,分区操作六,共享变量当spark集群在许多节点上运行一个函数时,默认情况下会把这个函数涉及到的对象在每个节点生成一个副本。但是,有时候需要在不同节点或者节点和Driver之间共享变量。Spark提供两种类型的共享变量,广播变量和累加器。广播变量是
  • 2024-05-21PySpark-大数据分析实用指南-全-
    PySpark大数据分析实用指南(全)原文:zh.annas-archive.org/md5/62C4D847CB664AD1379DE037B94D0AE5译者:飞龙协议:CCBY-NC-SA4.0前言ApacheSpark是一个开源的并行处理框架,已经存在了相当长的时间。ApacheSpark的许多用途之一是在集群计算机上进行数据分析应用程序。本书
  • 2024-05-16分布式数据处理-《Spark编程基础》(Scala版)第三章简答题答案(自制)
    3Spark的设计与运行原理简答题T1Spark是基于内存计算的大数据计算平台,请阐述Spark的主要特点。
  • 2024-05-16分布式数据处理-《Spark编程基础》(Scala版)第六章简答题答案(自制)
    6SparkSQL简答题T1请阐述Hive中SQL查询转化为MapReduce作业的具体过程。❌答:HiveSQL命令或查询首先进入到驱动模块,由驱动模块中的编译器进行解析编译,并由优化器对该操作进行优化计算,然后交给执行器去执行,执行器通常的任务是启动一个或多个MapReduce任务,详细过程如
  • 2024-05-16spark的SparkContext,SparkConf和SparkSession及dataframe和RDD的区别
    spark的SparkContext,SparkConf和SparkSession及dataframe和RDD的区别SparkContext和SparkConf任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。初始化后,就可以使用SparkContext对象所包含的各种方
  • 2024-05-12Spark - [04] RDD编程
    题记部分 一、RDD编程模型  在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile
  • 2024-05-12Spark - [03] RDD概述
    RDD,分布式数据集,是Spark中最基本的数据抽象。 一、什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。  二、RDD的属性①一组分区(Partition),即数据
  • 2024-05-09spark简介
    一、Spark简介Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎。Spark主要由五部分组成:SparkCoreSparkCore中提供了Spark最基础与最核心的功能,Spark其他的功能如:SparkSQL,SparkStreaming,GraphX,MLlib都是在SparkCore的基础上进行扩展的S