首页 > 其他分享 >Spark介绍

Spark介绍

时间:2024-01-17 17:33:40浏览次数:30  
标签:需要 MapReduce 介绍 Hadoop 使用 Spark 数据

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

问题
工具只在解决了一些问题时才有用,对吧!那么让我们来讨论一下 Spark 能解决的问题。


我们需要(快速获取)答案
在批处理过程中,长时间等待运行作业的结果是意料中的事,在如今的企业中,需要快速(“近实时”)获取答案。大数据的属性(速度、数据量和种类)使得业务问题越来越难获得答案,但快速获取这些答案非常重要。


数据如此之多
数据源数不胜数且仍在增加。从 IoT 设备、实时交易、单击流、应用到社交媒体等,数据源在不断增加。所有数据都需要经过一定的处理,这样分析师才能理解并从中获取业务价值。现在您需要能处理所有这些数据,以便将它们转化为某种能使用的信息。能够以越来越快的速度处理从越来越多来源传入的海量数据,这一点很重要!


A 与 B(以及 C、D 等等)有何关联?
您拥有所有这些有用的数据,从客户交易、社交媒体交互到地理空间数据等等。现在您需要了解所有这些维度如何相互关联。重要的是能看到对这个数据图的全面分析结果,从而确定哪些数据维至关重要,哪些毫无价值。


我们需要知道(何时)将会发生什么
您拥有所有这些宝贵的历史数据。太棒了!现在您需要分析它们,了解发生了什么和发生的原因,以便能预测接下来会发生什么。重要的是能够分析所有这些数据,以便预测将会发生的业务事件。


Apache Spark 不是什么
我们常常(且很容易)合并解决一组类似问题的两种或更多相关技术,而且在不能互换使用它们时互换使用了它们。为了避免在 Spark 上犯这种错误,让我们讨论一下它不是什么。


Hadoop
Hadoop 是一种大数据文件存储和数据处理框架,它使用一种称为 MapReduce 的技术从一个庞大的磁盘集群读取数据,转换数据,并将数据写回磁盘。另一方面,Spark 使用有向非循环图 (DAG) 通过一系列步骤处理内存中的数据,这些步骤之间相互依赖(Gradle 也使用了一种 DAG),而且不会像 Hadoop(通过 Hadoop 分布式文件系统,HDFS)那样处理文件存储本身。


MapReduce
人们很容易将 Spark Core 与 MapReduce 混淆,因为它们在大数据领域都很重要。MapReduce 基本来讲是一种单通算法:读入数据,MapReduce 转换它,然后将数据写回到磁盘。如果需要另一次转换,则会重复这些步骤。另一方面,Spark 在内存中执行所有处理工作(如有必要,还会执行多次迭代),并使用 DAG 确定要执行步骤的最佳顺序。


与 Hadoop 相互排斥
Spark 被设计为与 Hadoop 兼容,所以 Hadoop 和 Spark 可以紧密协作。事实上,Spark 下载包含用于使用 HDFS(用于存储管理)和 YARN(用于资源管理和调度)的 Hadoop 客户端库。

 

标签:需要,MapReduce,介绍,Hadoop,使用,Spark,数据
From: https://www.cnblogs.com/tqylqt/p/17970565

相关文章

  • Spark-Yarn模式部署
    Spark-Yarn模式部署1.解压缩文件将spark-3.0.0-bin-hadoop3.2.tgz文件上传到linux并解压缩,放置在指定位置。#在/opt/software中tar-zxvfspark-3.0.0-bin-hadoop3.2.tgz-C/opt/modulecd/opt/modulemvspark-3.0.0-bin-hadoop3.2spark2.修改配置文件修改hadoop配......
  • 上门护理系统|上门护理系统|上门护理小程序开发功能介绍
    随着老龄化社会的到来,护理服务的需求日益增长。然而,传统的护理模式往往存在着资源分配不均、效率低下等问题。为了解决这一问题,上门护理小程序应运而生。本文将介绍上门护理小程序的开发功能和优势,以期为拓展护理服务市场的机会提供新的思路。 一、便捷的预约功能:上门护理小程序采......
  • 上门护理系统|上门护理系统|上门护理小程序开发功能介绍
    随着老龄化社会的到来,护理服务的需求日益增长。然而,传统的护理模式往往存在着资源分配不均、效率低下等问题。为了解决这一问题,上门护理小程序应运而生。本文将介绍上门护理小程序的开发功能和优势,以期为拓展护理服务市场的机会提供新的思路。 一、便捷的预约功能:上门护理小程序采......
  • spark中的shuffle
    在Spark中,Shuffle是一个核心概念和步骤,它是数据分发的过程,需要消耗大量的资源和时间。Shuffle的主要功能是将分布在各个节点上的同一类数据汇集到某一个节点上进行计算,此过程有助于提高整体性能和吞吐量。同时,Shuffle作为连接Map阶段和Reduce阶段的桥梁,其性能受到磁盘和网......
  • Spark on Yarn
    简介ApacheSpark是一个开源的大数据处理框架,提供了高性能、通用的分布式数据处理能力。而YARN(YetAnotherResourceNegotiator)是Hadoop生态系统的资源管理器,用于分配和管理集群资源。SparkonYARN是将Spark框架与YARN集成,以便更好地利用集群资源进行分布式计算。安装部署解......
  • Microsoft Office 2024 Professional Plus软件介绍及安装教程
    MicrosoftOffice2024ProfessionalPlus软件介绍:MicrosoftOffice2024是由Microsoft为Windows开发的一套桌面办公应用程序。它包括文字处理(Word)、电子表格(Excel)、演示文稿(PowerPoint)、记事本(OneNote)、数据库管理(Access)、电子邮件(Outlook)和项目管理(Project)等应用。它提供多个版......
  • python-pyspark数据输入
    数据容器转rdd对象通过SparkContext对象的parallelize成员方法,将python数据容器转为rdd对象frompysparkimportSparkConf,SparkContextconf=SparkConf().setMaster("local[*]").setAppName("test_spark_app")sc=SparkContext(conf=conf)data1=[1,2,3,4,5]data2=(1......
  • 全志R128 Devkit开发板原理图模块介绍及使用说明
    针对R128模组,百问科技推出了R128DevKit开发板作为快速开发评估工具。板载R128-S2-N16R16模组板载2.4GRF陶瓷天线板载USBTypeCOTG板载UART转USB芯片板载RESET,FEL下载按键板载4颗WS2812RGBLED板载PMU,支持对外供电3.3V1A提供GPIO37个,引出3路MIC,2路......
  • ObjectMapper使用详细介绍
    ObjectMapper使用详细介绍目录简介1、ObjectMapper的常用配置2、ObjectMapper的常用方法1)json字符串转对象2)数组和对象之间转换3)集合和json字符串之间转换4)map和json字符串之间转换5)日期转json字符串6)readTree()方法简介ObjectMapper类(com.fasterxml.jackson.data......
  • Spark
    ApacheSpark是专门为大数据处理而设计的通用的计算引擎。spark拥有MapReduce所具有的优点,但不同于MapReduce的是Job中间输出结果可以缓存到内存中,从而不再需要读写HDFS,减少磁盘数据交互,因此Spark能更好的适应机器学习和数据挖掘等需要迭代的算法。Spark提供了SparkRDD、Spar......