目录
TUMBLE
、SESSION
和 HOP
。它们各自的窗口行为和使用场景有所不同
TUMBLE 滚动窗口(Tumbling Window)
滚动窗口是一种固定大小、不重叠的窗口。每个事件只属于一个窗口。
在这个查询中,TUMBLE
窗口定义了一个10秒的固定窗口,每个窗口从row_time
的每10秒开始计算。例如,窗口将从00:00:00
到00:00:10
,然后从00:00:10
到00:00:20
,依此类推
SESSION 会话窗口(Session Window)
会话窗口根据不活动时间(gap)来定义窗口。事件之间的时间间隔超过指定的gap时,将生成一个新的窗口。
在这个查询中,SESSION
窗口定义了一个会话窗口,gap为10秒。这意味着,如果两个事件之间的时间间隔超过10秒,将创建一个新的会话窗口。
HOP 滑动窗口(Hopping Window)
滑动窗口是一种固定大小且可以重叠的窗口。每个事件可以属于多个窗口。
在这个查询中,HOP
窗口定义了一个10秒的窗口,每5秒滑动一次。这意味着每个窗口大小为10秒,并且每5秒开始一个新的窗口。由于窗口重叠,每个事件可能会属于多个窗口。
小结
- TUMBLE 窗口:固定大小的窗口,事件只属于一个窗口。
- SESSION 窗口:基于不活动时间间隔(gap)的窗口,适合不规则的事件流。
- HOP 窗口:固定大小且可以重叠的窗口,事件可以属于多个窗口。
选择哪种窗口取决于你的应用场景和需求。例如,如果你需要固定时间间隔的统计,可以选择 TUMBLE
窗口;如果你需要处理不规则事件流,可以选择 SESSION
窗口;如果你需要频繁的时间间隔统计,可以选择 HOP
窗口
HOP 窗口为什么不需要rowtime(事件时间)
在Flink SQL中使用 HOP
滑动窗口时,HOP
函数的时间字段通常使用的是 PROCTIME()
,而不是 row_time
。下面是原因和详细解释:
PROCTIME()
vs row_time
-
PROCTIME()
: 代表处理时间(Processing Time),即事件被处理的时间。处理时间是Flink系统的本地时间,适用于实时性要求高的应用或当事件时间不重要时使用。 -
row_time
: 代表事件时间(Event Time),即事件产生的实际时间。事件时间是从数据流中提取的时间戳,适用于需要基于事件实际时间进行处理的应用。
为什么 HOP
窗口常用 PROCTIME()
?
-
滑动窗口的特性:
HOP
窗口通常用于需要在时间上重叠的统计,例如每隔5秒计算10秒窗口内的统计量。使用PROCTIME()
可以让你基于系统时间来滑动窗口,适用于需要实时处理的场景。 -
实时数据处理: 在很多实时数据处理应用中,系统时间(
PROCTIME()
)足以满足需求。使用PROCTIME()
可以避免因为事件时间的延迟或乱序引入复杂性。 -
简化使用: 对于简单的实时分析或流处理任务,使用
PROCTIME()
可以简化窗口操作,因为不需要处理复杂的事件时间问题,如乱序、延迟等
总结
- 使用
PROCTIME()
时,HOP
窗口基于系统时间滑动,适合实时数据处理。 - 使用
row_time
时,HOP
窗口可以基于事件时间滑动,适合需要处理事件时间的场景。
选择哪个时间字段取决于你的业务需求和数据特性。如果实时性和简洁性更重要,PROCTIME()
是一个很好的选择;如果事件时间更重要,则使用 row_time
。
TUMBLE、SESSION可以使用处理时间嘛
在Flink SQL中,TUMBLE
和 SESSION
窗口通常用于事件时间,但它们也可以使用处理时间。如果你选择使用处理时间,Flink提供了 PROCTIME()
函数来获取系统当前时间
TUMBLE 窗口(滚动窗口)
使用处理时间的示例:
在这个例子中,PROCTIME()
返回处理时间,窗口从每10秒的处理时间开始计算。每个事件会按照处理时间被划分到相应的窗口中。
SESSION 窗口(会话窗口)
使用处理时间的示例:
在这个例子中,PROCTIME()
返回处理时间。会话窗口会基于处理时间中的不活动间隔(gap)进行划分,每当两个事件之间的处理时间间隔超过10秒,就会创建一个新的会话窗口
总结
- TUMBLE 窗口:可以使用事件时间或处理时间。使用处理时间时,每个事件根据系统当前时间划分到固定大小的窗口中。
- SESSION 窗口:也可以使用事件时间或处理时间。使用处理时间时,会话窗口基于事件的处理时间间隔来定义窗口。
选择使用事件时间还是处理时间取决于你的业务需求。如果事件的实际发生时间重要(例如,日志数据或用户活动数据),通常使用事件时间;如果系统时间和实时性更为关键(例如,实时监控数据),则可以使用处理时间
标签:PROCTIME,窗口,TUMBLE,FlinkSQL,SESSION,时间,事件,HOP From: https://blog.csdn.net/weixin_64261178/article/details/140714413