SparkStreaming

2024-07-2606_sparkStreaming
SparkStreamingsparkStreaming用于处理流式数据，其中输入数据源包括Kafka、Flume、HDFS等；结果输出目的地址包括HDFS、数据库。SparkCore对应RDD；SparkSQL对应DataFrame/DataSet；SparkStreaming对应DStream（离散化数据流），DStream是对RDD在实时数据处理场景的一种封装。
2024-02-22spark实验六SparkStreaming
1.安装FlumeFlume是Cloudera提供的一个分布式、可靠、可用的系统，它能够将不同数据源的海量日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。Flume的核心是把数据从数据源收集过来，再送到目的地。请到Flume官网下载Flume1.7.0安装文件，下载地址如
2024-01-15SparkStreaming 连接 Kafka数据源
本文的前提条件:SparkStreaminginJava参考地址：SparkStreaming+KafkaIntegrationGuide(Kafkabrokerversion0.10.0orhigher)1.添加POM依赖<dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>
2024-01-15SparkStreaming 自定义数据采集器
本文的前提条件:SparkStreaminginJava参考地址：SparkStreamingCustomReceivers1.自定义数据采集器packagecn.coreqi.receiver;importorg.apache.spark.storage.StorageLevel;importorg.apache.spark.streaming.receiver.Receiver;importjava.util.Random;/**
2024-01-15SparkStreaming in Java
参考地址：SparkStreamingProgrammingGuide1.新建Maven项目,POM引入依赖<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.13</artifactId><version>3.5.0</ve
2023-01-04Spark详解(07-1) - SparkStreaming案例实操
Spark详解(07-1)-SparkStreaming案例实操环境准备pom文件<dependencies> <dependency> <groupId>org.apache.spark</groupId>
2022-11-11SparkStreaming_Dstream创建
SparkStreaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到SparkStreaming的Maven工件中，而其他的一些则可以通过spark-streaming-kafka等附加工件获
2022-10-23SparkStreaming
概述SparkStreaming是用于流式数据的处理。数据输入后可以用高级抽象原语（就是SparkCore中的算子，这里只是为了区分），如map、reduce、window等进行计算。SparkStreaming
2022-10-14给sparkStreaming的socketTextStream端口写数据，streaming收不到的问题！
本文参考了这篇文章，非常感谢：https://www.jianshu.com/p/31655775b040这两天研究从hdfs里读数据，写进sparkStreaming，不使用kafka，直接发送给streaming，于是想到了socketTextSt
2022-09-02sparkstreaming行动算子
查看//默认是前10条print(num)保存数据一批次产生一个文件packageSparkStreaming.actionimportorg.apache.spark.SparkConfimportorg.apache.spark.streami
2022-09-02sparkstreaming转换算子--窗口函数
window画图理解说明countByWindow对每个滑动窗口的数据执行count操作reduceByWindow对每个滑动窗口的数据执行reduce操作reduceByKeyAndWindow对每个滑动窗口的
2022-09-02SparkStreaming中的转换算子1
转换算子1---map,flatMapRDD支持的转换算子DStream大部分都是支持的map、flatMap、filter、distinct、union、join、reduceByKey......RDD中部分行动算子DStream会当作
2022-08-31sparkstreaming的创建方式及运行流程及注意事项
sparkstreaming创建有两种方式1.借助SparkConf对象创建valconf=newSparkConf().setAppName("streamingContext").setMaster("local[4]")/***streamingcontex