Spark Streaming 支持的数据输入源很多,例如:Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。另外Spark Streaming 也能和 MLlib(机器学习)以及 Graphx 完美融合。
流数据特点:
- 数据一直在变化
- 数据无法回退
- 数据始终源源不断涌进
DStream
和 Spark 基于 RDD 的概念很相似,Spark Streaming 使用离散化流(discretized stream)作为抽象表示,叫作DStream。DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在,而DStream 是由这些RDD 所组成的序列(因此得名“离散化”)。
DStream形成步骤:
- 针对某个时间段切分的小数据块进行RDD DAG构建;
- 连续时间内产生的一连串小的数据进行切片处理分别构建RDD DAG,形成DStream;
定义一个RDD处理逻辑,数据按照时间切片,每次流入的数据都不一样,但是RDD的DAG逻辑是一样的,即按照时间划分成一个个batch,用同一个逻辑处理。
标签:DAG,16,笔记,2024,RDD,Streaming,Spark,DStream,数据 From: https://www.cnblogs.com/wzs-study/p/18017633