水位线 Watermark
实时统计使用了flink sql程序,使用flink-TVF表值函数滚动窗口按分钟进行数据聚合操作,消费的kafka数据需要在规定的时间窗口内进行推送数据并消费计算,
为了解决处理乱序事件或延迟数据引入了Watermark,用来设置延迟计算时间等待迟到的数据,但不能无限期的等下去,必须要有个机制来保证一个特定的时间后,触发window去进行计算,
超过Watermark水位线时间戳的数据将被丢弃,被认为违流式计算的初衷。(Watermark时间设置不宜过长,在TPS很高的场景下会产生大量的Watermark在一定程度上对下游算子造成压力)
标签:Watermark,flink,水位,时间,计算,数据
From: https://www.cnblogs.com/whiteY/p/18060400