Flink消费kafka获取kafka消息的offset

时间：2022-10-12 15:36:23浏览次数：50

标签：Flink flink partition offset import kafka public

参考：https://chengyanan.blog.csdn.net/article/details/112391375

虽然Flink消费kafka有着完善的checkpoint机制，可以使得程序停止后再次能从上一次的消费位点继续消费，但是有时候flink的checkpoint也会失败，或者checkpoint管理起来不够灵活，我们想自己维护kafka 的offset信息。
但是Flink封装的FlinkKafkaConsumer并不能直接的获取kafka 消息的offset
现在有两种实现方法，原理都是一样的，第二种就是知道这里可以改就行了，真正使用的时候还是第一种。

原理：将kafka消息的offset和partition信息整合到kafka消息中。

第一种最简单：
自定义MyKafkaDeserializationSchema，实现KafkaDeserializationSchema接口即可：
这里因为我的kafka消息已经是json串了，所以我把消息的offset 和 partition 信息直接插入到json里了。
如果 kafka中消息不是json串，那就可以自己组织数据结构，将 offset 和 partition 信息插入到value信息中。

package com.qsds.flink.demo;
/**  

* 创建时间：2022年10月12日 下午2:32:11  
* 项目名称：flink  
* 文件名称：MyKafkaDeserializationSchema.java  
* 类说明：  
*/

import java.nio.charset.Charset;

import org.apache.flink.api.common.typeinfo.BasicTypeInfo;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.streaming.connectors.kafka.KafkaDeserializationSchema;
import org.apache.kafka.clients.consumer.ConsumerRecord;

import com.alibaba.fastjson.JSONObject;

public class MyKafkaDeserializationSchema implements KafkaDeserializationSchema<String> {

    public static final Charset UTF_8 = Charset.forName("UTF-8");

    @Override
    public boolean isEndOfStream(String s) {
        return false;
    }

    @Override
    public String deserialize(ConsumerRecord<byte[], byte[]> consumerRecord) throws Exception {
        String value = new String(consumerRecord.value(), UTF_8.name());
        long offset = consumerRecord.offset();
        int partition = consumerRecord.partition();
        JSONObject jsonObject = JSONObject.parseObject(value);
        jsonObject.put("partition",partition);
        jsonObject.put("offset",offset);
        
        System.out.println("======================");
        System.out.println(jsonObject.toString());
        System.out.println("======================");
        return jsonObject.toString();
    }

    @Override
    public TypeInformation<String> getProducedType() {
        return BasicTypeInfo.STRING_TYPE_INFO;
    }
}

标签：Flink,flink,partition,offset,import,kafka,public
From： https://www.cnblogs.com/qsds/p/16784650.html

flink&kafka报错Caused by: org.apache.flink.api.common.functions.InvalidTypesExce
flink消费kafka，使用自定义实现kafka的消息反序列化，报错org.apache.flink.api.common.functions.InvalidTypesException:Thereturntypeoffunction'CustomSource'c......
win下kafka启动服务器
Kafka使用 ZooKeeper 如果你还没有ZooKeeper服务器，你需要先启动一个ZooKeeper服务器。您可以通过与kafka打包在一起的便捷脚本来快速简单地创建一个单节点ZooKe......
146-《大数据架构师》Flink 架构深剖到源码详解 07_ev
......
Kafka Server的运行（windows环境）
KafkaServer的运行运行环境：windows1064位一、Kafka运行环境Kafka运行需要JAVA开发环境，需要安装JDK1.8及以上(选择windows64版本：jdk-8u341-windows-x64.exe)可以选......
Flink Table API 的开发步骤
1.创建TableEnvironmentFlink的TableAPI/SQL的执行入口功能如下：1.1注册Catalog【数据系统实例】1.2在Catalog中注册库和表1.3加载插件模块1.4执行SQL的查询1.......
Flink在数度Datagradient平台的应用
ApacheFlink是一个框架和分布式处理引擎，用于对无边界和有边界的数据流进行有状态的计算。梯度科技自主研发的Datagradient（数度），实时计算（实时开发）是一套基于Apach......
《基于Apache Flink的流处理》读书笔记
前段时间详细地阅读了《ApacheFlink的流处理》这本书，作者是FabianHueske&VasilikiKalavri，国内崔星灿翻译的，这本书非常详细、全面得介绍了Flink流处......
sqlserver 分页 row_number() over(), offset fetch next only
1-row_number()over() 1declare@pageIndexint=1,@pageSize=102select*from(3selectROW_NUMBER()over(orderbyId)'rowid',count(*)over()'Tot......
Flink DataStream Sink(四)
FlinkDataStreamSink(四)文档：https://bahir.apache.org/docs/flink/current/flink-streaming-redis/https://nightlies.apache.org/flink/flink-docs-release-1.......
148-《大数据架构师》Flink-1.14 集群启动源码分析：JobManager 和 T_ev
......

Flink消费kafka获取kafka消息的offset

原理：将kafka消息的offset和partition信息整合到kafka消息中。

相关文章

赞助商

阅读排行