• 2024-08-06Spark StructStreaming 流计算中的数据关联
    SparkStructStreaming流计算中的数据关联在上一讲,我们提到,StructuredStreaming会复用SparkSQL所提供的一切数据处理能力,比如数据抽取、过滤、分组聚合、关联、排序,等等。不过,在这些常规的数据处理类型中,有一类操作需要我们特别关注,它就是数据关联(Joins)。这主要是出
  • 2024-08-06Spark StructStreaming Window和Watermark
    SparkStructStreamingWindow和Watermark前面我们介绍了tructuredStreaming的计算模型与容错机制。深入理解这些基本原理,会帮我们开发流处理应用打下坚实的基础。在“流动的WordCount”那一讲,我们演示了在StructuredStreaming框架下,如何做流处理开发的一般流程。