DStream

2024-07-2606_sparkStreaming
SparkStreamingsparkStreaming用于处理流式数据，其中输入数据源包括Kafka、Flume、HDFS等；结果输出目的地址包括HDFS、数据库。SparkCore对应RDD；SparkSQL对应DataFrame/DataSet；SparkStreaming对应DStream（离散化数据流），DStream是对RDD在实时数据处理场景的一种封装。
2024-02-24寒假学习（22）
SparkStreaming是Spark提供的流式数据处理模块，能够处理实时数据流。SparkStreaming将实时数据流按照一定的时间间隔切分成批次数据，然后再将每个批次的数据作为RDD进行处理。SparkStreaming支持多种数据源，例如Kafka、Flume、HDFS等。这也是spark学习中一个重要的地方。
2024-02-162024/2/16学习进度笔记
SparkStreaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。另外SparkStreaming也能和MLlib（机器学习）以及G
2024-02-04学习记录23
本次学习了DStream无状态转换操作DStream:RDD的集合map(func)：对源DStream的每个元素，采用func函数进行转换，得到一个新的DstreamflatMap(func)：与map相似，但是每个输入项可用被映射为0个或者多个输出项filter(func)：返回一个新的DStream，仅包含源DStream中满足函数func的项repa
2024-01-24有状态转化操作WindowOperations
WindowOperations可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。所有基于窗口的操作都需要两个参数，分别为窗口时长以及滑动步长。➢窗口时长：计算内容的时间范围；➢滑动步长：隔多久触发一次计算。注意：这两者都必须为采集周期大小的整数倍。obje
2024-01-24有状态转化操作UpdateStateByKey
UpdateStateByKey原语用于记录历史记录，有时，我们需要在DStream中跨批次维护状态(例如流计算中累加wordcount)。针对这种情况，updateStateByKey()为我们提供了对一个状态变量的访问，用于键值对形式的DStream。给定一个由(键，事件)对构成的DStream，并传递一个指定如何根据新的事件
2024-01-23无状态转化操作
无状态转化操作就是把简单的RDD转化操作应用到每个批次上，也就是转化DStream中的每一个RDD。部分无状态转化操作列在了下表中。注意，针对键值对的DStream转化操作(比如reduceByKey())要添加importStreamingContext._才能在Scala中使用。需要记住的是，尽管这些函数看起
2024-01-23DStream与RDD关系
RDD是怎么生成的？RDD依靠什么生成？根据DStream来的RDD生成的依据是什么？SparkStreaming中RDD的执行是否和SparkCore中的RDD执行有所不同？运行之后我们对RDD怎么处理？ForEachDStream不一定会触发Job的执行，但是它一定会触发job的产生，和Job是否执行没有关系；问：RDD依靠什么生成的？
2024-01-23Transform
/***ReturnanewDStreaminwhicheachRDDisgeneratedbyapplyingafunction*oneachRDDof'this'DStream.在调用的stream的RDD中应用传入的函数，返回一个新的DStream*/deftransform[U:ClassTag](transformFunc:RDD[T]=>RDD[U]):DStream[
2024-01-20学习笔记8
Streaming原理可以参考官网教程：http://spark.apache.org/docs/latest/streaming-programming-guide.html，SparkStreaming提供了称为离散流或DStream的高级抽象，它表示连续的数据流，在内部DStream表示为RDD序列，每个RDD包含一定间隔的数据，如下图所示：所有对于DStream的操作都会相应地
2024-01-19Spark Streaming工作原理
说起SparkStreaming，玩大数据的没有不知道的，但对于小白来说还是有些生疏，所以本篇文章就来介绍一下SparkStreaming，以期让同行能更清楚地掌握SparkStreaming的原理。一：什么是SparkStreaming 官方对于SparkStreaming的介绍是这样的（翻译过来的）：Sp
2024-01-18spark streaming简介
SparkStreaming用于流式数据处理（准实时，微批次），SparkStreaming支持的数据源很多，例如：kafka、Flume、简单的TCP套接字等，数据输入后可以用Spark的高度抽象原语，如：map、join、reduce、window等进行运算，而结果也可以保存在很多地方，如：hdfs、数据库等。和Spark基于RDD的概念很相似，Spark
2023-11-20Spark Streaming快速入门
SparkStreaming快速入门一、简介SparkStreaming是构建在SparkCore基础之上的流处理框架（但实际上是微批次处理框架），是Spark非常重要的组成部分。严格意义上来讲，SparkStreaming是一个准实时，微批次的流处理框架。特点：Easytouse：简单易用；Unifiedbatchandstreami
2022-11-11SparkStreaming_Dstream创建
SparkStreaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到SparkStreaming的Maven工件中，而其他的一些则可以通过spark-streaming-kafka等附加工件获
2022-10-28idea构建spark streaming环境
packagecom.streamingimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.streaming.dstream.DStreamimportorg.apache.spark.streaming.{Durations
2022-10-23SparkStreaming
概述SparkStreaming是用于流式数据的处理。数据输入后可以用高级抽象原语（就是SparkCore中的算子，这里只是为了区分），如map、reduce、window等进行计算。SparkStreaming
2022-09-02sparkstreaming行动算子
查看//默认是前10条print(num)保存数据一批次产生一个文件packageSparkStreaming.actionimportorg.apache.spark.SparkConfimportorg.apache.spark.streami
2022-09-02sparkstreaming转换算子--窗口函数
window画图理解说明countByWindow对每个滑动窗口的数据执行count操作reduceByWindow对每个滑动窗口的数据执行reduce操作reduceByKeyAndWindow对每个滑动窗口的