首页 > 其他分享 >02-Spark的应用及使用

02-Spark的应用及使用

时间:2022-08-14 21:47:22浏览次数:53  
标签:02 数据源 Hive YARN 应用 SQL Spark 分布式

  • 应用场景
    • 离线场景:实现离线数据仓库中的数据清洗、数据分析、即席查询等应用
      • 比较成熟,工作中主要的应用场景
      • 使用Spark对各种数据源数据进行处理:Hive、RDBMS、文件
      • Hive数仓常见处理引擎:Spark、Impala、Presto
      • Impala:底层是C语言,性能最好,SQL开发,集成Hive或者Hbase,语法兼容性较差
      • Presto:底层基于JVM,性能其次,SQL开发,集合各种数据库数据源,纯内存,与Hive兼容性较差
      • Spark:底层基于JVM,支持读写各种大数据平台数据源数据,多种开发语言,与Hive语法完美兼容
    • 实时场景:实现实时数据流数据处理,相对而言功能和性能不是特别的完善,工作中建议使用Flink替代
  • 开发语言:Python、Scala、SQL、Java、R
  • 运行模式
    • 本地模式Local:程序运行在本地,不是分布式的,只启动1个进程运行所有Task任务,一般用于测试
    • 集群模式Cluster
      • Standalone:Spark自带的一个分布式资源管理平台,可以将Spark直接运行在自带的平台中
      • YARN:Hadoop中的一个公共的分布式资源管理平台,可以将Spark程序提交到YARN中运行
      • Messos:类似于YARN,国外用的比较多
      • K8s:分布式资源容器平台

标签:02,数据源,Hive,YARN,应用,SQL,Spark,分布式
From: https://www.cnblogs.com/z-h-q/p/16586401.html

相关文章