首页 > 其他分享 >Spark Streaming

Spark Streaming

时间:2022-11-01 20:12:34浏览次数:39  
标签:队列 离线 实时 Streaming Spark 数据

Spark Streaming

1、流处理和批处理

 

 

1,流处理处理过程

 

数据采集(实时采集)工具:flume

数据先放到消息队列做缓冲,第一步往第二步放数据的过程叫做生产,第三步从第二部取数据的过程叫做消费,mq中的数据有索引

 MQ:消息队列(message queue):kafka  特点:先进先出

计算框架:flink、spark streaming、

通过socket模拟这个过程

 

2,批处理过程

 

数据采集读到的数据先到mq(消息队列)再到db(hdfs),用离线框架去读数据

 消息队列一般会保存7天

 

2、离线计算和实时计算的特点

两者对比

 

 

实时计算面对的挑战?

 

 

 

 

标签:队列,离线,实时,Streaming,Spark,数据
From: https://www.cnblogs.com/wqy1027/p/16837439.html

相关文章

  • Spark SQL读取parquet文件
        Parquet是一种流行的列式存储格式,可以高效地存储具有嵌套字段的记录,还可以针对相同类型的列进行压缩。介绍:使用:......
  • 基于spark的单词计数统计
    单词计数:直接查看官网:​​http://spark.apache.org/examples.html​​小案例,自己再次基础上进一步的实现,我用了两种语言实现 主要文件:words.txt:hellomehelloyouhellohe......
  • 四、Spark性能调优
    目录​​1.常规性能调优​​​​常规性能调优一:最优资源配置​​​​常规性能调优二:RDD优化​​​​RDD复用​​​​RDD持久化​​​​ RDD尽可能早的filter操作​​​​常......
  • Spark SQL优化总结2
    接上文内存优化用以下三张表,做性能测试RDD1.1.1cacheimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.{Row,SparkSession}objectMemoryTuning{defmai......
  • Spark有状态算子
    Spark有状态算子不仅可以计算当前批次的结果,还可以结合上一次的结果,并对两次结果进行汇总packagecom.streamingimportorg.apache.spark.sql.SparkSessionimportor......
  • sparkCore
    spark第二天1、打包代码到yarn上运行将代码提交到Yarn.上运行1、将setMaster代码注释,使用提交命令设置运行方式2、修改输入输出路径,并准备数据3、打包上传至服务器4......
  • sparkSql
    SparkSQL&sparkDSL1、SparkSQL(1)、构建SparkSessionspark2.x统一入口如果要与hive进行交互,在建立spark入口时加上.enableHiveSupport()(1)首先添加依赖: <dependen......
  • local spark config
    Sparklocalhivemetadatastore Skiptoendofmetadata Bydefault,sparkwilluseembeddedDerbydatabasetostoremetadata,butifwedon'tconfi......
  • Mac环境下,配置spark连接hive的本地开发环境
    目录安装hadoop一、配置sshlocalhost二、安装和配置三、启动服务安装hive一、下载配置二、修改Metastore数据库配置三、初始化配置spark配置连接hive环境安装hadoopmac......
  • Spark通过打jar包形式提交任务
    idea构建项目创建一个maven项目,配置pom依赖,以及scala编译插件。注意一定要保证,你的scala版本和spark版本和要提交的集群版本一致,要不很多莫名其妙的问题,scala如果你在wi......