首页 > 其他分享 >001-spark生态系统介绍

001-spark生态系统介绍

时间:2023-04-03 21:34:45浏览次数:38  
标签:Processing Streaming 001 GraphX 生态系统 SQL Apache spark Spark


1、Spark简介-概念



Spark是 基于内存计算的大数据 分布式计算框架。Spark基于内存计算,提高了在 大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。


主要特点:


分布式计算


内存计算


容错


多计算范式



Spark于2009 年诞生于加州大学伯克利分销AMPLab。目前,已经成为Apache软件基金会旗下顶级开源项目。



在“ One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、MLLib、GraphX近乎完美的解决了大数据中Batch Processing、Streaming Processing、Ad-hoc Query等三大核心问题。



001-spark生态系统介绍_Streaming



2、Spark简介-历史



2009年:Spark诞生于AMPLab


2010年:开源


2013年6月:Apache孵化器项目


2014年2月:Apache顶级项目


Now:Contribututors>450人



3、Spark简介-BDAS生态系统


3.1 BDAS(the Berkeley Data Analytics Stack) 伯克利数据分析栈




001-spark生态系统介绍_Streaming_02






3.2 Spark Ecosystem  


Spark成功的使用Spark SQL、Spark Streaming、MLLib、GraphX近乎完美的解决了大数据中Batch Processing、Streaming Processing、Ad-hoc Query等三大核心问题,更为美妙的是在Spark中Spark SQL、Spark Streaming、MLLib、GraphX四大子框架和库之间可以无缝的共享数据和操作。





001-spark生态系统介绍_Processing_03




标签:Processing,Streaming,001,GraphX,生态系统,SQL,Apache,spark,Spark
From: https://blog.51cto.com/u_14361901/6167562

相关文章

  • Spark面试经典系列之数据倾斜解决方案的“银弹”是什么? 本节我们对Spark数据倾斜解决
    Spark面试经典系列之数据倾斜解决方案的“银弹”是什么?本节我们对Spark数据倾斜解决方案进行回顾和总结:1、   数据倾斜运行的症状和危害。如果发行数据倾斜,往往发现作业任务运行特别缓慢,出现OOM内存溢出等现象。2、   如果两个RDD进行操作,其中1个RDD数据不是那么多,我们把这......
  • Spark视频王家林第119课: Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变
    Spark视频王家林第119课:SparkStreaming性能优化:如何在生产环境下应对流数据峰值巨变?本节讲解SparkStreaming性能优化:如何在生产环境下应对流数据峰值巨变?数据峰值及流量变化的不稳定有2个层面:1)第一个层面就是数据确实不稳定,例如晚上11点的时候访问流量特别高,相对其他时间而言表......
  • Hive 和 Spark 分区策略剖析
    作者:vivo互联网搜索团队-DengJie随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。一、概述随着技术的不断的发展,大数据......
  • Hive 和 Spark 分区策略剖析
    作者:vivo互联网搜索团队-DengJie随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。一、概述随着技术的不断的发展......
  • idea中spark安装
    Idea中spark的安装配置下载Scala插件后新建scala项目更改scala的SDK(下载的版本)和jdk并且更改工作空间导入spark相关的架包找到安装路径导入jars或者lib(找到Libraries添加ScalaSDK和java)设置maven全局的参数(导入maven的安装路径以及se......
  • 生活中的常识与原理001-天文-基础
    相关英文词汇:latitude/ˈlætɪtjuːd/,纬度,记忆时可以与ladder相关联,因为纬度是标识南北的线,就像梯子的格子一样。赤道为0度,北极为90度。注意与高度altitude相区别。longitude/ˈlɔndʒɪtjuːd/,经度。从南到北,与赤道垂直。0度经线贯穿英国格林尼治天文台。经度和纬度可以标......
  • ATHK1001 分析思考
    ATHK1001ANALYTICTHINKING:ASSIGNMENT1,2023Duedate:11:59pmFriday,March31st(Week6).Latepenaltyof5%percalendardayapplies.Onlinesubmission:AllsubmissionsaretobemadeonlineontheATHK1001Canvaswebsite.Submissionswillbechecked......
  • Spark源码解析(二):Spark闭包检查
    一、理解Scala闭包:Closures1.1闭包的定义闭包就是一个函数和与其相关的引用环境组合的一个整体(实体)。进一步说,闭包是绑定了自由变量的函数实例。通常来讲,闭包的实现机制是定义一个特殊的数据结构,保存了函数地址指针与闭包创建时的函数的词法环境以及绑定自由变量。对于闭......
  • Spark源码解析(一):RDD之Transfrom算子
    一、延迟计算RDD代表的是分布式数据形态,因此,RDD到RDD之间的转换,本质上是数据形态上的转换(Transformations)在RDD的编程模型中,一共有两种算子,Transformations类算子和Actions类算子。开发者需要使用Transformations类算子,定义并描述数据形态的转换过程,然后调用Actions......
  • 手把手带你玩转Spark机器学习-深度学习在Spark上的应用
    文章目录系列文章目录前言一、ApacheSparkTimeline二、开发步骤1.在jupyter中启动SparkSession和SparkContext2.下载数据3.用Spark读取图片3.TransferLearning总结前言本文将介绍深度学习在Spark上的应用,我们将聚焦于深度学习Pipelines库,并讲解使用DLPipelines的方式。我们......