首页 > 其他分享 >Flink同步kafka到iceberg数据延迟,两个checkpoint后才可查询

Flink同步kafka到iceberg数据延迟,两个checkpoint后才可查询

时间:2024-05-17 14:54:06浏览次数:18  
标签:快照 Flink 查询 checkpoint 参数 iceberg kafka

一、问题描述

用户配置了高级参数很多,观察kafka增量数据不多,flink负载不高情况下两个checkpoint后才可查询到数据。   排查时hdfs有数据文件产生,但是mainfast文件中最新快照id没变化。

 

二、原因

经腾讯排查,用户参数指定高级参数execution.checkpointing.unaligned: true引起。

写入iceberg时,flink writer算子会把内存数据写出到文件,写出成功时提交状态给IcebergFilesCommitter,不加该参数时全部写成功Committer才被触发,生成快照。

加上该参数后写入乱序,存在文件还没写完,Committer就生成快照的情况,导致查询该快照没有最新数据。  数据不会丢失,这部分数据文件在下个快照后才可查询。

 

三、恢复

去除execution.checkpointing.unaligned: true参数,savepoint后启动。!!!存在启动不成功风险,我们用户尝试后可从savepoint恢复,但存在启动不了的风险。

 

标签:快照,Flink,查询,checkpoint,参数,iceberg,kafka
From: https://www.cnblogs.com/robots2/p/18197778

相关文章

  • kafka权威指南
    消息有字节数组组成消息Key也是一个字节数组根据消息key的哈希码进行取模后写入不同分区,保证具有相同key的消息总是被写入到相同分区中为了提供消息写入效率,支持消息的分批次写入,批次就是一组消息,每个批次的消息输入同一个主体和分区为了减少网络消耗,批次数据会被压缩kakfa使......
  • 【Flink 日常踩坑】Could not find ExecutorFactory in classpath
    Description一段简单的FlinkSQL程序,在IDE中运行没问题,但是maven打包后发布到终端启动却报错了。importorg.apache.flink.configuration.Configuration;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache.flink.table.......
  • 【Flink 日常踩坑】Could not find ExecutorFactory in classpath
    Description一段简单的FlinkSQL程序,在IDE中运行没问题,但是maven打包后发布到终端启动却报错了。importorg.apache.flink.configuration.Configuration;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache.flink.table.......
  • kafka安装(windows)
    首先安装zookeeper,kafka启动前需要先启动Zookeeper。1、官网下载kafka,解压https://kafka.apache.org/downloads2、配置安装1、进入D:\Study_Tool\kafka\config目录,找到zookeeper.properties文件。创建一个data目录,用于存放zookeeper的数据文件。2、找到server.properties......
  • Flink同步kafka到iceberg(cos存储)
    一、flink到logger1、sourcecreatetablesource_table(idbigintcomment'唯一编号',order_numberbigintcomment'订单编号',update_timestamptimestamp_ltzmetadatafr......
  • 教你如何搞定springboot集成kafka
    本文分享自华为云社区《手拉手入门springboot+kafka》,作者:QGS。安装kafka启动Kafka本地环境需Java8+以上Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。Kafka启动方式有Zookeeper和Kraft,两种方式只能选择其中一种启动,不能同时使用......
  • Flink的State
      有状态的计算是流式计算框架的一个重要功能,很多复杂的计算场景都需要记录一下相关的状态。FlinkState一种为了满足算子计算时需要历史数据需求的,使用checkpoint机制进行容错,存储在statebackend的数据结构。1.State分类    FlinkState被分为keyedstate、operato......
  • offsetExplorer3.0 如何连接加SASL认证的zookeeper、kafka
    offsetExplorer3.0连接速度与查看topic、consumers查询速度显著提升。建议使用offsetExplorer3.0代替旧版offsetExploreroffsetExplorer3.0下载地址:https://www.kafkatool.com/download.html配置方式如下:注意:zookeeper和kafka的地址、端口,可以二选一,只配置一个,也可以全配置。......
  • Flink执行图
    Flink的代码编写流程为env->source->transform->sink,基本所有的代码都是大致按照图1的流程进行代码编写,当然中间也会有一些封装之类的。  Flink代码写好后,它的任务调度执行图按照生成顺序分为:逻辑流图(StreamGraph)->作业图(JobGraph)->执行图(ExecutionGraph)->物理图(Physica......
  • kafka_2.13-3.7.0 单机版安装
    [root@localhost~]#adduserkafka[root@localhost~]#passwordkafka-bash:password:commandnotfound[root@localhost~]#ls/homejenkinskafkanacos[root@localhost~]#passwdkafkaChangingpasswordforuserkafka.Newpassword:BADPASSWORD:The......