Spark Streaming
1、流处理和批处理
1,流处理处理过程
数据采集(实时采集)工具:flume
数据先放到消息队列做缓冲,第一步往第二步放数据的过程叫做生产,第三步从第二部取数据的过程叫做消费,mq中的数据有索引
MQ:消息队列(message queue):kafka 特点:先进先出
计算框架:flink、spark streaming、
通过socket模拟这个过程
2,批处理过程
数据采集读到的数据先到mq(消息队列)再到db(hdfs),用离线框架去读数据
消息队列一般会保存7天
2、离线计算和实时计算的特点
两者对比
实时计算面对的挑战?
标签:队列,离线,实时,Streaming,Spark,数据 From: https://www.cnblogs.com/wqy1027/p/16837439.html