• 2024-07-02spark运行的基本流程
    前言:由于最近对spark的运行流程非常感兴趣,所以阅读了《Spark大数据处理:技术、应用与性能优化》一书。通过这本书的学习,了解了spark的核心技术、实际应用场景以及性能优化的方法。本文旨在记录和分享下spark运行的基本流程。一、spark的基础组件及其概念1.ClusterManager在S
  • 2024-07-02【Spark Core】RDD详解
    一、RDD基本介绍1、为什么需要RDD没有RDD之前:1.MR:只提供了map和reduce的API,而且编写麻烦,运行效率低!---早淘汰了!2.使用Python/Scala/Java的本地集合:但是只能完成本地单机版的,如果要实现分布式的,---很困难!  所以需要有一个分布式的数据抽象,也就是用该抽象,可
  • 2024-07-01Spark_04 SparkSQL的介绍及使用
    说明这一章主要包括对于sparksql概念的介绍,sparksql的特点,sparksql用到的数据类型,DataFrame的基础方法等。概念SparkSQL是Spark用于处理结构化数据的模块。诞生由于MapReduce这种计算模型的执行效率较慢,rdd原生代码较为复杂,所以引入了SparkSQL应运而生。它可以将sql转换为
  • 2024-07-01大数据面试题之Spark(6)
              Spark输出文件的个数,如何合并小文件?Spark的driver是怎么驱动作业流程的?SparkSQL的劣势?介绍下SparkStreaming和StructedStreamingSpark为什么比Hadoop速度快?DAG划分Spark源码实现?SparkStreaming的双流join的过程,怎么做的?Spark的Bl
  • 2024-06-30大数据面试题之Spark(3)
    目录Spark的哪些算子会有shuffle过程?Spark有了RDD,为什么还要有Dataform和DataSet?Spark的RDD、DataFrame、DataSet、DataStream区别?Spark的Job、Stage、Task分别介绍下,如何划分?Application、job、Stage、task之间的关系Stage内部逻辑为什么要根据宽依赖划分Stage?
  • 2024-06-24Day11 —— 大数据技术之Spark
    Spark快速入门系列Spark的概述什么是Spark?Spark的主要特点Spark的主要组件Spark安装Spark三种运行模式SparkStandalone架构SparkStandalone的两种提交方式SparkOnYARN架构RDD算子转化算子行动算子SparkRDDRDD的创建从对象集合创建RDD从外部存储创建RDDSparkS
  • 2024-06-23notes for llm-universe C2
    基本概念PromptPrompt最初是NLP(自然语言处理)研究者为下游任务设计出来的一种任务专属的输入模板,类似于一种任务(例如:分类,聚类等)会对应一种Prompt我们每一次访问大模型的输入为一个Prompt,而大模型给我们的返回结果则被称为Completion。TemperatureLLM生成是具有随
  • 2024-06-23Structured Steaming结构化流详解:大案例解析(第12天)
    系列文章目录一、结构化流介绍(了解)二、结构化流的编程模型(掌握)三、Spark和Kafka整合,流处理,批处理演示(掌握)四、物联网数据分析案例(熟悉)文章目录系列文章目录前言StructuredSteaming一、结构化流介绍(了解)1、有界和无界数据2、基本介绍3、使用三大步骤(掌握)4、回
  • 2024-06-23Spark SQL与Hive的整合
    在大数据时代,处理和分析海量数据集的能力变得至关重要。ApacheSpark和Hive作为两个强大的数据处理工具,在数据仓库和分析领域有着广泛的应用。本文将探讨如何将SparkSQL与Hive整合,以及如何利用这一整合来提高数据处理的效率和灵活性。SparkSQL简介SparkSQL是ApacheSpark的一
  • 2024-06-23Apache Spark 安装和基础使用
    Spark概述ApacheSpark是一个开源的集群计算框架,以其快速、易用、通用和高度可扩展性而著称。Spark支持多种编程语言,包括Java、Scala、Python和R,并提供了丰富的库,如SparkSQL、MLlib、GraphX和SparkStreaming。Spark的主要特点快速:Spark通过在内存中存储中间数据,
  • 2024-06-23大数据主流技术演进历程:从传统数据处理到智能数据分析
    大数据技术的发展历程充满了创新和变革。从最初的批处理系统到如今的实时数据分析平台,技术的演进不仅推动了数据处理能力的提升,也改变了各行各业的运营模式。本文将深入探讨大数据主流技术的演进历程,分析其技术亮点、实际应用以及对行业的深远影响。一、传统数据处理阶段
  • 2024-06-23从工具产品体验对比spark、hadoop、flink
    作为一名大数据开发,从工具产品的角度,对比一下大数据工具最常使用的框架spark、hadoop和flink。工具无关好坏,但人的喜欢有偏好。目录评价标准1效率2用户体验分析从用户的维度来看从市场的维度来看从产品的维度来看3用户体验的基本原则成本和产出是否成正比操作是否“
  • 2024-06-23Apache Flink 和 Apache Spark详细介绍、优缺点、使用场景以及选型抉择?
    ApacheFlink和ApacheSpark我该投入谁的怀抱?ApacheFlink简介:ApacheFlink是一个用于分布式流处理和批处理的开源框架。它以实时数据处理和事件驱动的流处理著称,提供高吞吐量和低延迟的处理能力。功能:流处理:Flink可以处理实时数据流,支持低延迟和高吞吐量的流处理
  • 2024-06-23数据仓库之Hive
    ApacheHive是一个基于Hadoop的数据仓库软件,它提供了数据摘要、查询和分析的大数据能力。Hive通过类似于SQL的HiveQL语言,使用户能够在不深入了解MapReduce的情况下进行大数据处理和分析。以下是对Hive的详细介绍:1.核心概念HiveQL:Hive提供了一种类似于SQL的查询语言,称为Hiv
  • 2024-06-21近期面试笔记和个人规划
    在上海的第八年,工作的第四年,今年我二十五岁,和理想的自己还相差甚远.路漫漫其修远兮,溯洄从之,道阻且长,溯游从之,宛在水中央.Part1.面试题1.主流关系型数据库有哪些?2.SQL的性能怎么优化?3.表JOIN时候,底层有哪几种连接类型?4.项目中对Hadoop和Hive了解?对离线数仓和数据集成ETL的了
  • 2024-06-18Spark 面试题(十五)
    1.简述Spark怎么保证数据不丢失?Spark通过多种机制来确保数据的可靠性和不丢失,即使在发生节点故障或其他异常情况时。以下是Spark保证数据不丢失的一些关键策略:RDD的不变性:RDD是不可变的,每个RDD都记录了其创建的血统信息(Lineage),这允许Spark重新计算丢失的分区。数据
  • 2024-06-18Spark 面试题(十六)
    1.简述Spark运行时并行度的设置?在Spark中,“并行度”(Parallelism)通常指的是作业中同时执行的任务数量。这个数量决定了在任何给定时间可以有多少任务并发运行,进而影响作业的执行效率和资源利用。以下是设置Spark运行时并行度的一些关键点:默认并行度:如果没有明确设置,Spa
  • 2024-06-17大数据开发语言Scala入门
    大数据开发语言Scala入门指南在当今数据驱动的世界中,Scala语言因其在大数据领域的卓越表现而受到青睐,特别是在ApacheSpark等框架中。本文将为你提供一个Scala语言的入门指南,帮助你理解Scala的基本概念,并指导你如何开始使用Scala进行大数据开发。Scala简介Scala是一种多
  • 2024-06-16【介绍下Spark MLlib机器学习】
  • 2024-06-16Spark Shuffle原理与代码实例讲解
    SparkShuffle原理与代码实例讲解1.背景介绍在大数据处理领域,ApacheSpark作为一种快速、通用的大规模数据处理引擎,已经成为事实上的标准。Spark能够高效地运行在Hadoop集群或独立的集群环境中,支持多种编程语言,提供了丰富的高级API,涵盖了批处理、交互式查询、实时流
  • 2024-06-16Spark RDD弹性分布式数据集原理与代码实例讲解
    SparkRDD弹性分布式数据集原理与代码实例讲解1.背景介绍在大数据处理领域,ApacheSpark已成为最受欢迎的框架之一。其核心组件之一是弹性分布式数据集(ResilientDistributedDataset,简称RDD)。RDD是Spark的基础抽象,提供了对大规模数据集的容错和并行处理能力。本文将
  • 2024-06-16基于SpringBoot+Spark搭建本地计算引擎服务
    1.项目背景 上一篇文章我们讲解了搭建数据挖掘可视化系统(大数据数据挖掘系统可视化设计艺术-CSDN博客)的主要内容,通过构建算子工作流可以完成数据挖掘的工作。这时这里的算子可以提交到本地计算请求,也可以提交大数据集群做计算,本文将详细介绍搭建本地计算请求的过程。2.
  • 2024-06-15一文了解Spark引擎的优势及应用场景
    Spark引擎诞生的背景Spark的发展历程可以追溯到2009年,由加州大学伯克利分校的AMPLab研究团队发起。成为Apache软件基金会的孵化项目后,于2012年发布了第一个稳定版本。以下是Spark的主要发展里程碑:初始版本发布:2010年开发的MateiZaharia的研究项目成为Spark的前身。在2010年
  • 2024-06-15Spark RDD与算子详解:案例解析(第3天)
    系列文章目录1-RDD的基本介绍(了解)2-如何构建RDD(熟悉)3-RDD的相关算子(案例详解)(掌握)4-sparkRDD算子相关面试题(重点)文章目录系列文章目录前言一、RDD的基本介绍(了解)1、什么是RDD2、RDD的五大特性3、RDD的五大特点二、如何构建RDD(熟悉)1、并行化本地集合方式2、读
  • 2024-06-15【SPARK-CORE】shuffle机制
    本文主要介绍spark的shuffle机制 shuffle的产生Spark作业被分解为多个Stage,每个Stage包含多个任务(Task)。在需要重新分区的数据操作时因为需要进行数据的交换因此会产生Shuffle边界,即两个Stage之间需要进行Shuffle操作。 shuffle的各个阶段1、shufflemap阶段