Flink精确消费一次

时间：2024-05-19 18:30:17浏览次数：31

在大数据计算里面，计算引擎是处于承上启下的作用，对上承接数据源，对下承接各种各种数据库，比如mysql、oracle。对于任何数据计算来说要想精确消费一次，就需要支持事务或者幂等，我们最常见的支持事务的就是单点的oracle、mysql数据库，那么Flink作为分布式计算引擎，是如何做到精确消费一次的呢？

Source端的精确消费一次比较好实现，毕竟Flink是消费者，比如它消费Kafka时，它可以记录下相关的偏移量，恢复时重置偏移量就可以了，Flink应用内部就是通过checkpoint机制来实现精确一次的，难点是sink端如何保证精确消费一次，毕竟数据写到外部系统后，Flink就无法管控了，目前针对sink端是kafka的情况时，是通过两段提交（预提交、正式提交）的方式来实现的，所以理论上提供了必要的协调机制的三方系统，都是可以实现精确一次的。

标签：一次,Flink,偏移量,消费,精确,mysql
From： https://www.cnblogs.com/beststrive/p/18200573

Flink同步kafka到iceberg数据延迟，两个checkpoint后才可查询
一、问题描述用户配置了高级参数很多，观察kafka增量数据不多，flink负载不高情况下两个checkpoint后才可查询到数据。排查时hdfs有数据文件产生，但是mainfast文件中最新快照id没变化。二、原因经腾讯排查，用户参数指定高级参数execution.checkpointing.unaligned:true引起......
一个Java基于阻塞的定时消费内存队列
@Getter@AllArgsConstructorpublicenumInsertQueueEnum{A(30000,10,TimeUnit.SECONDS,2,1000),;privatefinalintcapacity;//队列长度privatefinalinttime;//最长阻塞时间privatefinalTimeUnittimeUnit;//最长阻塞时间单位privatefi......
【专题】2023年中国白酒行业消费白皮书报告PDF合集分享（附原数据表）
原文链接：https://tecdat.cn/?p=34188原文出处：拓端数据部落公众号2023年中国白酒行业消费白皮书报告合集，总结了消费市场的两大传承和五大进化，以帮助白酒企业更好地理解消费者心理和供需变化，从而把握增长机会。两大传承包括争夺消费者的“第一口酒”以及品牌在消费决策中的关键作......
【Flink 日常踩坑】Could not find ExecutorFactory in classpath
Description一段简单的FlinkSQL程序，在IDE中运行没问题，但是maven打包后发布到终端启动却报错了。importorg.apache.flink.configuration.Configuration;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache.flink.table.......
【Flink 日常踩坑】Could not find ExecutorFactory in classpath
Description一段简单的FlinkSQL程序，在IDE中运行没问题，但是maven打包后发布到终端启动却报错了。importorg.apache.flink.configuration.Configuration;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache.flink.table.......
Flink同步kafka到iceberg(cos存储）
一、flink到logger1、sourcecreatetablesource_table(idbigintcomment'唯一编号',order_numberbigintcomment'订单编号',update_timestamptimestamp_ltzmetadatafr......
Flink的State
有状态的计算是流式计算框架的一个重要功能，很多复杂的计算场景都需要记录一下相关的状态。FlinkState一种为了满足算子计算时需要历史数据需求的，使用checkpoint机制进行容错，存储在statebackend的数据结构。1.State分类 FlinkState被分为keyedstate、operato......
pytorch调试时CUDA报错，如何精确定位
由于pytorch的python语句执行和CUDA后端实际上是异步执行的，所以当CUDAruntime报错时，并不一定能正确地反映在python抛出的错误语句中，因此，可以添加一个环境变量来实现：CUDA_LAUNCH_BLOCKING=1这里再补充一些关于cuda和pytorch异步执行的知识，当你写了一句torch.mm(X,Y)时，实际上......
Flink执行图
Flink的代码编写流程为env->source->transform->sink，基本所有的代码都是大致按照图1的流程进行代码编写，当然中间也会有一些封装之类的。 Flink代码写好后，它的任务调度执行图按照生成顺序分为:逻辑流图(StreamGraph)->作业图（JobGraph）->执行图(ExecutionGraph)->物理图(Physica......
分类算法中精确率、召回率、F1 Score的理解
在机器学习和深度学习中，将分类任务的预测结果分为以下四种，被称作混淆矩阵：TruePositive(TP)：预测出的为正例，标签值也为正例，预测正确FalseNegative(FN)：预测出的为负例，标签值为正例，预测错误FalsePositive(FP)：预测出的为正例，标签值为负例，预测错误TrueNegative(TN)：预测出的为负......

Flink精确消费一次

相关文章

赞助商

阅读排行