01-Spark的功能及特点

时间：2022-08-14 21:48:13浏览次数：58

标签：功能 01 模块基于实时计算 SQL Spark

定义：基于内存式计算的分布式的统一化的数据分析引擎
功能：多语言数据分析引擎工具栈
- 实现离线数据批处理：类似于MapReduce、Pandas，写代码做处理
- 实现交互式即时数据查询：类似于Hive、Presto、Impala，使用SQL做即席查询分析
- 实现实时数据处理：类似于Storm、Flink实现分布式的实时计算
- 实现机器学习的开发：代替传统一些机器学习工具
场景：所有需要对数据进行分布式的查询、计算、机器学习都可以使用Spark来完成
模块：类似于Hadoop中有HDFS、YARN、MapReduce几个模块
- Spark Core：Spark核心模块，其他模块都是基于这个模块构建的，基于代码编程的模块
- Spark SQL：基于SparkCore之上构建的SQL模块，用于实现结构化数据处理，基于SQL或者DSL进行编程
- Spark Streaming：基于SparkCore之上构建的准实时计算的模块，用离线批处理来模拟实时计算，代码编程
- Struct Streaming：基于SparkSQL之上的真正的实时计算的模块，基于SQL或者DSL进行编程
- MLlib：提供的机器学习的算法库，主要偏向于推荐系统的算法库
- Graphx：图计算的模块

开发语言：Python、SQL、Scala、Java、R

Spark是用什么语言开发的：Scala语言开发的
- Batch/Streaming data：统一化离线计算和实时计算开发方式，支持多种开发语言
- SQL analytics：通用的SQL分析快速构建分析报表，运行速度快于大多数数仓计算引擎
- Data science at scale：大规模的数据科学引擎，支持PB级别的数据进行探索性数据分析，不需要使用采样
- Machine learning：可以支持在笔记本电脑上训练机器学习算法，并使用相同的代码扩展到数千台机器的集群上
整体：功能全面、性能前列、开发接口多样化、学习成本和开发成本比较低

标签：功能,01,模块,基于,实时,计算,SQL,Spark
From： https://www.cnblogs.com/z-h-q/p/16586392.html

02-Spark的应用及使用
应用场景离线场景：实现离线数据仓库中的数据清洗、数据分析、即席查询等应用比较成熟，工作中主要的应用场景使用Spark对各种数据源数据进行处理：Hive、RDBMS、文件Hive......
03-Spark的计算流程设计
MR的计算流程设计step1：读取数据：Input功能一：实现分片，将读取到的数据进行划分，将不同的数据才能分给不同Task功能二：转换KVstep2：处理数据：Map、Shuffle、ReduceMap：负......
[2001年NOIP普及组] 数的计算
算法分析：一个数可分为自身（+1）和自身除以2的数所带的次数，适合用递推从前往后推，比如说4可以分为2和1和自身所带表的数相加121231341424124注意：自身也要加1，若不足3直......
[NOIP2001 普及组] 数的计算
试题分析：以4为例子：4后面可以跟上1,2组成14,24。14后面跟不了,24可以跟上1组成124，再加上4本身就可以得到4的种类：14,24,124,4。而我们只要算出1,2的种类就可以加起来得到4......
[2011年NOIP提高组] 铺地毯
输入每个地毯的位置大小，用二维数组存储然后输入指定的点枚举出此点所在地毯（四个顶点上的点也算被地毯覆盖）输出地毯编号（若此处没有被地毯覆盖则输出-1）代码：#include<ios......
[NOIP2001 提高组] 一元三次方程求解
首先输入系数根据提示：三个实根之差绝对值均>=1......求解最后输出三个实根代码：#include<iostream>#include<cstdio>#include<math.h>usingnamespacestd;intmain(){......
[2001年NOIP普及组] 最大公约数和最小公倍数问题
[2001年NOIP普及组]最大公约数和最小公倍数问题思路：可以运用暴力枚举法。先用两个数的乘积=他们的最大公约数*最小公倍数的公式求出乘积num，再在已知范围内暴力搜素能......
[2011年NOIP提高组] 铺地毯
[2011年NOIP提高组]铺地毯思路：运用暴力枚举法。开一个结构体存地毯信息，然后铺上地毯。然后在根据要找的地点，与输入顺序反着一一枚举来找符合的地毯（因为地毯会覆盖，先铺的......
[2016年NOIP普及组] 回文日期
[2016年NOIP普及组]回文日期分析：根据题意，有一个由年月日组成的八位数，判断是否是回文日期，因为每个月的天数是不一样的，所以可以开一个数组来存每个月的天数，此时有一个特殊......
[2011年NOIP提高组] 铺地毯
为了准备一个独特的颁奖典礼，组织者在会场的一片矩形区域（可看做是平面直角坐标系的第一象限）铺上一些矩形地毯。一共有n张地毯，编号从1到n。现在将这些地毯按照编号从小到大......

01-Spark的功能及特点

相关文章

赞助商

阅读排行