首页 > 其他分享 >2-spark学习路线-应用常景和解决

2-spark学习路线-应用常景和解决

时间:2023-09-14 13:02:23浏览次数:35  
标签:常景 节点 路线 交互式 Executor 数据处理 spark 时间跨度 Spark

在实际应用中,大数据处理主要包括以下三个类型:

1.复杂的批量数据处理:

   通常时间跨度在数十分钟到数小时之间

2.基于历史数据的交互式查询:

   通常时间跨度在数十秒到数分钟之间

3.基于实时数据流的数据处理:

   通常时间跨度在数百毫秒到数秒之间

当同时存在以上三种场景时,就需要同时部署三种不同的软件比如:

MapReduce:离线批处理

Impala:交互式查询处理

Storm:实时流处理

这样做难免会带来一些问题:

不同场景之间输入输出数据无法做到无缝共享,通常需要进行数据格式的转换

不同的软件需要不同的开发和维护团队,带来了较高的使用成本

比较难以对同一个集群中的各个系统进行统一的资源协调和分配

Spark:既能够提供内存计算框架,也可以支持SQL即席查询、实时流式计算、机器学习和图计算等

Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案

Spark所提供的生态系统足以应对上述三种场景,即同时支持批处理、交互式查询和流数据处理

生态系统组件

Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX 等组件。

应用场景

应用场景

时间跨度

其他框架

Spark生态系统组件

复杂的批量数据处理

小时级

MapReduce

Hive Spark

基于历史数据的交互式查询

分钟级、秒级

Impala、Dremel、Drill

Spark SQL

基于实时数据流的数据处理

毫秒、秒级

Storm、S4

Spark Streaming

基于历史数据的数据挖掘

-

Mahout

MLlib

图结构数据的处理

-

Pregel、Hama

GraphX

Spark执行任务流程图

1、Spark运行架构包括:Master(集群资源管理)、Slaves(运行任务的工作节点)、应用程序的控制节点(Driver)和每个工作节点上负责任务的执行进程(Executor);

2、Master是集群资源的管理者(Cluster Manager)。支持:Standalone,Yarn,Mesos;

3、Slaves在spark中被称为Worker,工作节点,包括Executor。;

4、Driver Program。该进程运行应用的 main() 方法并且创建了SparkContext。由Cluster Manager分配资源,SparkContext将发送Task到Executor上执行。

5、每个工作节点上负责任务的执行进程(Executor);

Executor包括cache、分配到Executor上的task任务(task1、task2…tasksN)

标签:常景,节点,路线,交互式,Executor,数据处理,spark,时间跨度,Spark
From: https://blog.51cto.com/u_16110904/7469056

相关文章

  • 1-spark学习路线-spark 概述
    一.spark和hadoopMapReduceSpark数据存储结构:磁盘HDFS文件系统的split使用内存构建弹性分布式数据集RDDs对数据进行运算和cache编程范式:Map+ReduceDAG:Transformation+Action计算中间结果落到磁盘IO及序列化、反序列化代价大计算中间结果在内存中维护存取速度比磁盘高几个数......
  • Web前端学习路线
    学习Web前端需要的精选的书本和网络资源HTML教程CSS教程JavaScript教程BootStrap教程AJAX教程Node.js教程Vue.js教程React教程此外,在b站上有很多教学视频,亲测有效!不积跬步,无以至千里;不积小流,无以成江海。---《荀子》Web前端的方向和分支方向低代码方向前端......
  • 【Spark】Spark基础教程
    Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark特点Spark具有如下几个主要特点:运行速度快:Spark使用先进的DAG(DirectedAcyclicGraph,有向无环图)执行引擎,以支持循环数据流与内存计算,基......
  • Spark基础——scala基础1.0
    定义对象和强制转化1.定义规则var变量名:变量类型=初始值vari:Int=10varj:Double=3.33//var变量名:变量类型=初始值valo:Int=2//val常量名:变量类型=初始值变量声明时,必须要有初始值i=20//var修饰的变量可以改变,val则不可改变varl=3.33valp="......
  • Iceberg从入门到精通系列之十五:Spark集成Iceberg
    Iceberg从入门到精通系列之十五:Spark集成Iceberg一、下载Spark安装包二、解压Spark安装包三、配置环境变量四、激活环境变量五、下载Sparkiceberg的jar包六、Spark集成Iceberg七、Spark配置Catalog八、配置HiveCatalog九、配置HadoopCatalog十、spark集成hive十、启动Sparkshe......
  • 2023-最新嵌入式学习路线!
    2023-最新嵌入式学习路线!说明:以下学习路线基于我本人在22年秋招过程中的嵌入式学习、面试经验整理主要面向嵌入式软件、linux、驱动岗位,相比其他大而全的嵌入式学习路线,本文注重嵌入式面试重点、核心、精简内容。(没有废话、全是干货)嵌入式核心知识点----基本功------......
  • Zeppelin起Spark任务报错:RECEIVED SIGNAL TERM
    Zeppelin起Spark任务报错:RECEIVEDSIGNALTERM解决方法如下所示:调大spark任务资源exportSPARK_SUBMIT_OPTIONS="--driver-memory4G--executor-memory4G--driver-cores2--executor-cores2--num-executors20--confspark.sql.shuffle.partitions=1000--confspark.......
  • zeppelin设置spark的启动参数
    zeppelin设置spark的启动参数vimzeppelin-env.shexportSPARK_SUBMIT_OPTIONS="--driver-memory4G--executor-memory4G--driver-cores2--executor-cores2--num-executors10--confspark.sql.shuffle.partitions=1000--confspark.default.parallelism=300......
  • spark2.4.4安装
    1、环境准备:下载spark-2.4.4-bin-hadoop2.7.tgz上传安装包到Linux中解压安装包tar-zxf spark-2.4.4-bin-hadoop2.7.tgz-C/hadoop/app2、配置环境2.1修改hadoop中yarn-site.xml<property><name>yarn.nodemanager.pmem-check-enabled</name><value>f......
  • 恒创科技:国内访问香港服务器选择什么路线?
    ​国内访问中国香港服务器可以选择多种路线。首先,我们了解下各个线路的速度延迟。一、CN2直连:解决了不同互联网服务提供商之间访问的难题,不需要绕到国际网络再从中国的三个网络入口进入。二、优化直连:全国平均延迟60ms,速度较快。三、国际线路:全国平均延迟180ms......