首页 > 其他分享 >flink

flink

时间:2024-05-22 15:57:16浏览次数:18  
标签:11 窗口 flink 毫秒 时间 滑动

  1. 基础api  创建执行环境  sink 执行

     

     

     这8个字节到底是整个还是2个2个字节解析,为什么需要数据类型,flink必须非常清楚数据结构,才有处理,还要网络传输。

     

     

  2. 解析泛型内部信息,应对泛型擦除,+类型提示

     

     

     

     

     

  3. 物理分区api

     

     

     

  4. shuffle打散,均匀分布

     

     

     

     

  5.  

    flink时间发生时间,到达时间,处理时间因为分布式系统不同,可可能乱序

     不能简单的以产品自带的时间戳作为标志推动,因为下游的处理算子接受不到8:05的·数据卡住了

     水位线来指示事件进展,哪怕数据在窗口关闭之前不给你,你下游也知道进行到哪一步了

     周期性的插入,毫秒级来好多个,你不能来一个差一个,做了大量无用功,在稀疏时周期插入也还行。反正系统资源有的是

     如果0-9的窗口,你11秒关,相当于这是一个0-11的窗口,这就有点怪

     

     一般都是几十毫秒或一百多毫秒

  6. 提取事件时间戳,生成一个watermark周期性发射

     

     

     

  7. 窗口的概念  改变sparkstreaming 框住一块数据的概念  事件时间没有早来了一说,因为它确实已经发生,无可置疑,你为什么还要把它狂错,它都告诉你是11秒的了

     谁告诉你,同一个时间窗口只能有一个

     

     最常用

     窗口大小代表收集数据的范围。滑动步长说明计算的频率,因为下次滑动就会新开一个窗口,计算! 滚动窗口就是一个特殊的滑动窗口

     很麻烦,因为可能乱序,还要窗口合并

     基于key分组  推荐keyby  keyedstream

     

     

     

  8. 窗口函数  批处理,流处理快在中间攒数据,处理保存中间状态

     

     月活

标签:11,窗口,flink,毫秒,时间,滑动
From: https://www.cnblogs.com/lvshy/p/17850498.html

相关文章

  • 使用Flink进行MD5加密
    packagecom.huft.flk117.test;importorg.apache.flink.api.common.eventtime.WatermarkStrategy;importorg.apache.flink.api.common.serialization.SimpleStringEncoder;importorg.apache.flink.configuration.MemorySize;importorg.apache.flink.connector.file.si......
  • Flink富函数
      富函数是DataStreamAPI提供的函数接口,Flink的函数都有它的Rich版本,它与其他函数不同的是,富函数可以获取到运行环境上下文,初始化参数,拥有生命周期方法等,可通过它进行自定义复杂功能。我们常见的如RichMapFunction、RichFilterFunction等。    富函数的生命周期主要通过......
  • Flink精确消费一次
     在大数据计算里面,计算引擎是处于承上启下的作用,对上承接数据源,对下承接各种各种数据库,比如mysql、oracle。对于任何数据计算来说要想精确消费一次,就需要支持事务或者幂等,我们最常见的支持事务的就是单点的oracle、mysql数据库,那么Flink作为分布式计算引擎,是如何做到精确消费一次......
  • Flink同步kafka到iceberg数据延迟,两个checkpoint后才可查询
    一、问题描述用户配置了高级参数很多,观察kafka增量数据不多,flink负载不高情况下两个checkpoint后才可查询到数据。  排查时hdfs有数据文件产生,但是mainfast文件中最新快照id没变化。 二、原因经腾讯排查,用户参数指定高级参数execution.checkpointing.unaligned:true引起......
  • 【Flink 日常踩坑】Could not find ExecutorFactory in classpath
    Description一段简单的FlinkSQL程序,在IDE中运行没问题,但是maven打包后发布到终端启动却报错了。importorg.apache.flink.configuration.Configuration;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache.flink.table.......
  • 【Flink 日常踩坑】Could not find ExecutorFactory in classpath
    Description一段简单的FlinkSQL程序,在IDE中运行没问题,但是maven打包后发布到终端启动却报错了。importorg.apache.flink.configuration.Configuration;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache.flink.table.......
  • Flink同步kafka到iceberg(cos存储)
    一、flink到logger1、sourcecreatetablesource_table(idbigintcomment'唯一编号',order_numberbigintcomment'订单编号',update_timestamptimestamp_ltzmetadatafr......
  • Flink的State
      有状态的计算是流式计算框架的一个重要功能,很多复杂的计算场景都需要记录一下相关的状态。FlinkState一种为了满足算子计算时需要历史数据需求的,使用checkpoint机制进行容错,存储在statebackend的数据结构。1.State分类    FlinkState被分为keyedstate、operato......
  • Flink执行图
    Flink的代码编写流程为env->source->transform->sink,基本所有的代码都是大致按照图1的流程进行代码编写,当然中间也会有一些封装之类的。  Flink代码写好后,它的任务调度执行图按照生成顺序分为:逻辑流图(StreamGraph)->作业图(JobGraph)->执行图(ExecutionGraph)->物理图(Physica......
  • flink监控数据库表
    背景在日常服务运行中可能会遇到很多数据上的问题,一些我们可以通过日志查询,但是一些修改等操作日志无法查询到,binlog日志不方便查询而且不是所有表都需要日志,增加了查询的难度,我们考虑使用canal或者flink对binlog进行记录,这里flink,flink程序和客户端版本1.17.1pom.xml<?xm......