首页 > 其他分享 >01-Spark的功能及特点

01-Spark的功能及特点

时间:2022-08-14 21:48:13浏览次数:58  
标签:功能 01 模块 基于 实时 计算 SQL Spark

  • 定义:基于内存式计算的分布式的统一化的数据分析引擎

  • 功能:多语言数据分析引擎工具栈

    • 实现离线数据批处理:类似于MapReduce、Pandas,写代码做处理
    • 实现交互式即时数据查询:类似于Hive、Presto、Impala,使用SQL做即席查询分析
    • 实现实时数据处理:类似于Storm、Flink实现分布式的实时计算
    • 实现机器学习的开发:代替传统一些机器学习工具
  • 场景:所有需要对数据进行分布式的查询、计算、机器学习都可以使用Spark来完成

  • 模块:类似于Hadoop中有HDFS、YARN、MapReduce几个模块

    • Spark Core:Spark核心模块,其他模块都是基于这个模块构建的,基于代码编程的模块
    • Spark SQL:基于SparkCore之上构建的SQL模块,用于实现结构化数据处理,基于SQL或者DSL进行编程
    • Spark Streaming:基于SparkCore之上构建的准实时计算的模块,用离线批处理来模拟实时计算,代码编程
    • Struct Streaming:基于SparkSQL之上的真正的实时计算的模块,基于SQL或者DSL进行编程
    • MLlib:提供的机器学习的算法库,主要偏向于推荐系统的算法库
    • Graphx:图计算的模块

开发语言Python、SQL、Scala、Java、R

  • Spark是用什么语言开发的:Scala语言开发的

    • Batch/Streaming data:统一化离线计算和实时计算开发方式,支持多种开发语言
    • SQL analytics:通用的SQL分析快速构建分析报表,运行速度快于大多数数仓计算引擎
    • Data science at scale:大规模的数据科学引擎,支持PB级别的数据进行探索性数据分析,不需要使用采样
    • Machine learning:可以支持在笔记本电脑上训练机器学习算法,并使用相同的代码扩展到数千台机器的集群上
  • 整体:功能全面、性能前列、开发接口多样化、学习成本和开发成本比较低

标签:功能,01,模块,基于,实时,计算,SQL,Spark
From: https://www.cnblogs.com/z-h-q/p/16586392.html

相关文章

  • 02-Spark的应用及使用
    应用场景离线场景:实现离线数据仓库中的数据清洗、数据分析、即席查询等应用比较成熟,工作中主要的应用场景使用Spark对各种数据源数据进行处理:Hive、RDBMS、文件Hive......
  • 03-Spark的计算流程设计
    MR的计算流程设计step1:读取数据:Input功能一:实现分片,将读取到的数据进行划分,将不同的数据才能分给不同Task功能二:转换KVstep2:处理数据:Map、Shuffle、ReduceMap:负......
  • [2001年NOIP普及组] 数的计算
    算法分析:一个数可分为自身(+1)和自身除以2的数所带的次数,适合用递推从前往后推,比如说4可以分为2和1和自身所带表的数相加121231341424124注意:自身也要加1,若不足3直......
  • [NOIP2001 普及组] 数的计算
    试题分析:以4为例子:4后面可以跟上1,2组成14,24。14后面跟不了,24可以跟上1组成124,再加上4本身就可以得到4的种类:14,24,124,4。而我们只要算出1,2的种类就可以加起来得到4......
  • [2011年NOIP提高组] 铺地毯
    输入每个地毯的位置大小,用二维数组存储然后输入指定的点枚举出此点所在地毯(四个顶点上的点也算被地毯覆盖)输出地毯编号(若此处没有被地毯覆盖则输出-1)代码:#include<ios......
  • [NOIP2001 提高组] 一元三次方程求解
    首先输入系数根据提示:三个实根之差绝对值均>=1......求解最后输出三个实根代码:#include<iostream>#include<cstdio>#include<math.h>usingnamespacestd;intmain(){......
  • [2001年NOIP普及组] 最大公约数和最小公倍数问题
     [2001年NOIP普及组]最大公约数和最小公倍数问题思路:可以运用暴力枚举法。先用两个数的乘积=他们的最大公约数*最小公倍数的公式求出乘积num,再在已知范围内暴力搜素能......
  • [2011年NOIP提高组] 铺地毯
    [2011年NOIP提高组]铺地毯思路:运用暴力枚举法。开一个结构体存地毯信息,然后铺上地毯。然后在根据要找的地点,与输入顺序反着一一枚举来找符合的地毯(因为地毯会覆盖,先铺的......
  • [2016年NOIP普及组] 回文日期
    [2016年NOIP普及组]回文日期分析:根据题意,有一个由年月日组成的八位数,判断是否是回文日期,因为每个月的天数是不一样的,所以可以开一个数组来存每个月的天数,此时有一个特殊......
  • [2011年NOIP提高组] 铺地毯
    为了准备一个独特的颁奖典礼,组织者在会场的一片矩形区域(可看做是平面直角坐标系的第一象限)铺上一些矩形地毯。一共有n张地毯,编号从1到n。现在将这些地毯按照编号从小到大......