- 2024-07-2606_sparkStreaming
SparkStreamingsparkStreaming用于处理流式数据,其中输入数据源包括Kafka、Flume、HDFS等;结果输出目的地址包括HDFS、数据库。SparkCore对应RDD;SparkSQL对应DataFrame/DataSet;SparkStreaming对应DStream(离散化数据流),DStream是对RDD在实时数据处理场景的一种封装。
- 2024-02-22spark实验六SparkStreaming
1.安装FlumeFlume是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。Flume的核心是把数据从数据源收集过来,再送到目的地。请到Flume官网下载Flume1.7.0安装文件,下载地址如
- 2024-01-15SparkStreaming 连接 Kafka数据源
本文的前提条件:SparkStreaminginJava参考地址:SparkStreaming+KafkaIntegrationGuide(Kafkabrokerversion0.10.0orhigher)1.添加POM依赖<dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>
- 2024-01-15SparkStreaming 自定义数据采集器
本文的前提条件:SparkStreaminginJava参考地址:SparkStreamingCustomReceivers1.自定义数据采集器packagecn.coreqi.receiver;importorg.apache.spark.storage.StorageLevel;importorg.apache.spark.streaming.receiver.Receiver;importjava.util.Random;/**
- 2024-01-15SparkStreaming in Java
参考地址:SparkStreamingProgrammingGuide1.新建Maven项目,POM引入依赖<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.13</artifactId><version>3.5.0</ve
- 2023-01-04Spark详解(07-1) - SparkStreaming案例实操
Spark详解(07-1)-SparkStreaming案例实操环境准备pom文件<dependencies> <dependency> <groupId>org.apache.spark</groupId>
- 2022-11-11SparkStreaming_Dstream创建
SparkStreaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到SparkStreaming的Maven工件中,而其他的一些则可以通过spark-streaming-kafka等附加工件获
- 2022-10-23SparkStreaming
概述SparkStreaming是用于流式数据的处理。数据输入后可以用高级抽象原语(就是SparkCore中的算子,这里只是为了区分),如map、reduce、window等进行计算。SparkStreaming
- 2022-10-14给sparkStreaming的socketTextStream端口写数据,streaming收不到的问题!
本文参考了这篇文章,非常感谢:https://www.jianshu.com/p/31655775b040这两天研究从hdfs里读数据,写进sparkStreaming,不使用kafka,直接发送给streaming,于是想到了socketTextSt
- 2022-09-02sparkstreaming行动算子
查看//默认是前10条print(num)保存数据一批次产生一个文件packageSparkStreaming.actionimportorg.apache.spark.SparkConfimportorg.apache.spark.streami
- 2022-09-02sparkstreaming转换算子--窗口函数
window画图理解说明countByWindow对每个滑动窗口的数据执行count操作reduceByWindow对每个滑动窗口的数据执行reduce操作reduceByKeyAndWindow对每个滑动窗口的
- 2022-09-02SparkStreaming中的转换算子1
转换算子1---map,flatMapRDD支持的转换算子DStream大部分都是支持的map、flatMap、filter、distinct、union、join、reduceByKey......RDD中部分行动算子DStream会当作
- 2022-08-31sparkstreaming的创建方式及运行流程及注意事项
sparkstreaming创建有两种方式1.借助SparkConf对象创建valconf=newSparkConf().setAppName("streamingContext").setMaster("local[4]")/***streamingcontex