• 2024-07-2606_sparkStreaming
    SparkStreamingsparkStreaming用于处理流式数据,其中输入数据源包括Kafka、Flume、HDFS等;结果输出目的地址包括HDFS、数据库。SparkCore对应RDD;SparkSQL对应DataFrame/DataSet;SparkStreaming对应DStream(离散化数据流),DStream是对RDD在实时数据处理场景的一种封装。
  • 2024-02-24寒假学习(22)
    SparkStreaming是Spark提供的流式数据处理模块,能够处理实时数据流。SparkStreaming将实时数据流按照一定的时间间隔切分成批次数据,然后再将每个批次的数据作为RDD进行处理。SparkStreaming支持多种数据源,例如Kafka、Flume、HDFS等。这也是spark学习中一个重要的地方。
  • 2024-02-162024/2/16学习进度笔记
    SparkStreaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。另外SparkStreaming也能和MLlib(机器学习)以及G
  • 2024-02-04学习记录23
    本次学习了DStream无状态转换操作DStream:RDD的集合map(func):对源DStream的每个元素,采用func函数进行转换,得到一个新的DstreamflatMap(func):与map相似,但是每个输入项可用被映射为0个或者多个输出项filter(func):返回一个新的DStream,仅包含源DStream中满足函数func的项repa
  • 2024-01-24有状态转化操作WindowOperations
    WindowOperations可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。所有基于窗口的操作都需要两个参数,分别为窗口时长以及滑动步长。➢窗口时长:计算内容的时间范围;➢滑动步长:隔多久触发一次计算。注意:这两者都必须为采集周期大小的整数倍。obje
  • 2024-01-24有状态转化操作UpdateStateByKey
    UpdateStateByKey原语用于记录历史记录,有时,我们需要在DStream中跨批次维护状态(例如流计算中累加wordcount)。针对这种情况,updateStateByKey()为我们提供了对一个状态变量的访问,用于键值对形式的DStream。给定一个由(键,事件)对构成的DStream,并传递一个指定如何根据新的事件
  • 2024-01-23无状态转化操作
    无状态转化操作就是把简单的RDD转化操作应用到每个批次上,也就是转化DStream中的每一个RDD。部分无状态转化操作列在了下表中。注意,针对键值对的DStream转化操作(比如reduceByKey())要添加importStreamingContext._才能在Scala中使用。 需要记住的是,尽管这些函数看起
  • 2024-01-23DStream与RDD关系
    RDD是怎么生成的?RDD依靠什么生成?根据DStream来的RDD生成的依据是什么?SparkStreaming中RDD的执行是否和SparkCore中的RDD执行有所不同?运行之后我们对RDD怎么处理?ForEachDStream不一定会触发Job的执行,但是它一定会触发job的产生,和Job是否执行没有关系;问:RDD依靠什么生成的? 
  • 2024-01-23Transform
    /***ReturnanewDStreaminwhicheachRDDisgeneratedbyapplyingafunction*oneachRDDof'this'DStream.在调用的stream的RDD中应用传入的函数,返回一个新的DStream*/deftransform[U:ClassTag](transformFunc:RDD[T]=>RDD[U]):DStream[
  • 2024-01-20学习笔记8
    Streaming原理可以参考官网教程:http://spark.apache.org/docs/latest/streaming-programming-guide.html,SparkStreaming提供了称为离散流或DStream的高级抽象,它表示连续的数据流,在内部DStream表示为RDD序列,每个RDD包含一定间隔的数据,如下图所示:所有对于DStream的操作都会相应地
  • 2024-01-19Spark Streaming工作原理
         说起SparkStreaming,玩大数据的没有不知道的,但对于小白来说还是有些生疏,所以本篇文章就来介绍一下SparkStreaming,以期让同行能更清楚地掌握SparkStreaming的原理。   一:什么是SparkStreaming   官方对于SparkStreaming的介绍是这样的(翻译过来的):Sp
  • 2024-01-18spark streaming简介
    SparkStreaming用于流式数据处理(准实时,微批次),SparkStreaming支持的数据源很多,例如:kafka、Flume、简单的TCP套接字等,数据输入后可以用Spark的高度抽象原语,如:map、join、reduce、window等进行运算,而结果也可以保存在很多地方,如:hdfs、数据库等。和Spark基于RDD的概念很相似,Spark
  • 2023-11-20Spark Streaming快速入门
    SparkStreaming快速入门一、简介SparkStreaming是构建在SparkCore基础之上的流处理框架(但实际上是微批次处理框架),是Spark非常重要的组成部分。严格意义上来讲,SparkStreaming是一个准实时,微批次的流处理框架。特点:Easytouse:简单易用;Unifiedbatchandstreami
  • 2022-11-11SparkStreaming_Dstream创建
    SparkStreaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到SparkStreaming的Maven工件中,而其他的一些则可以通过spark-streaming-kafka等附加工件获
  • 2022-10-28idea构建spark streaming环境
    packagecom.streamingimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.streaming.dstream.DStreamimportorg.apache.spark.streaming.{Durations
  • 2022-10-23SparkStreaming
    概述SparkStreaming是用于流式数据的处理。数据输入后可以用高级抽象原语(就是SparkCore中的算子,这里只是为了区分),如map、reduce、window等进行计算。SparkStreaming
  • 2022-09-02sparkstreaming行动算子
    查看//默认是前10条print(num)保存数据一批次产生一个文件packageSparkStreaming.actionimportorg.apache.spark.SparkConfimportorg.apache.spark.streami
  • 2022-09-02sparkstreaming转换算子--窗口函数
    window画图理解说明countByWindow对每个滑动窗口的数据执行count操作reduceByWindow对每个滑动窗口的数据执行reduce操作reduceByKeyAndWindow对每个滑动窗口的