• 2024-07-2606_sparkStreaming
    SparkStreamingsparkStreaming用于处理流式数据,其中输入数据源包括Kafka、Flume、HDFS等;结果输出目的地址包括HDFS、数据库。SparkCore对应RDD;SparkSQL对应DataFrame/DataSet;SparkStreaming对应DStream(离散化数据流),DStream是对RDD在实时数据处理场景的一种封装。
  • 2024-02-22spark实验六SparkStreaming
    1.安装FlumeFlume是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。Flume的核心是把数据从数据源收集过来,再送到目的地。请到Flume官网下载Flume1.7.0安装文件,下载地址如
  • 2024-01-15SparkStreaming 连接 Kafka数据源
    本文的前提条件:SparkStreaminginJava参考地址:SparkStreaming+KafkaIntegrationGuide(Kafkabrokerversion0.10.0orhigher)1.添加POM依赖<dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>
  • 2024-01-15SparkStreaming 自定义数据采集器
    本文的前提条件:SparkStreaminginJava参考地址:SparkStreamingCustomReceivers1.自定义数据采集器packagecn.coreqi.receiver;importorg.apache.spark.storage.StorageLevel;importorg.apache.spark.streaming.receiver.Receiver;importjava.util.Random;/**
  • 2024-01-15SparkStreaming in Java
    参考地址:SparkStreamingProgrammingGuide1.新建Maven项目,POM引入依赖<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.13</artifactId><version>3.5.0</ve
  • 2023-01-04Spark详解(07-1) - SparkStreaming案例实操
    Spark详解(07-1)-SparkStreaming案例实操环境准备pom文件<dependencies>    <dependency>        <groupId>org.apache.spark</groupId>      
  • 2022-11-11SparkStreaming_Dstream创建
    SparkStreaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到SparkStreaming的Maven工件中,而其他的一些则可以通过spark-streaming-kafka等附加工件获
  • 2022-10-23SparkStreaming
    概述SparkStreaming是用于流式数据的处理。数据输入后可以用高级抽象原语(就是SparkCore中的算子,这里只是为了区分),如map、reduce、window等进行计算。SparkStreaming
  • 2022-10-14给sparkStreaming的socketTextStream端口写数据,streaming收不到的问题!
    本文参考了这篇文章,非常感谢:https://www.jianshu.com/p/31655775b040这两天研究从hdfs里读数据,写进sparkStreaming,不使用kafka,直接发送给streaming,于是想到了socketTextSt
  • 2022-09-02sparkstreaming行动算子
    查看//默认是前10条print(num)保存数据一批次产生一个文件packageSparkStreaming.actionimportorg.apache.spark.SparkConfimportorg.apache.spark.streami
  • 2022-09-02sparkstreaming转换算子--窗口函数
    window画图理解说明countByWindow对每个滑动窗口的数据执行count操作reduceByWindow对每个滑动窗口的数据执行reduce操作reduceByKeyAndWindow对每个滑动窗口的
  • 2022-09-02SparkStreaming中的转换算子1
    转换算子1---map,flatMapRDD支持的转换算子DStream大部分都是支持的map、flatMap、filter、distinct、union、join、reduceByKey......RDD中部分行动算子DStream会当作
  • 2022-08-31sparkstreaming的创建方式及运行流程及注意事项
    sparkstreaming创建有两种方式1.借助SparkConf对象创建valconf=newSparkConf().setAppName("streamingContext").setMaster("local[4]")/***streamingcontex