SchemaRegestry组件原生的类和方法无法实现flink消费kafka的数据动态调整schema的情况--未彻底解决

时间：2023-04-19 14:56:07浏览次数：37

标签：-- flink SchemaRegestry kafka 链路 schema

0、前提知识储备

Conflurent公司的SchemaRegestry组件的基本了解和使用

一、背景：

0.组件版本

flink：1.14

1.链路调整情况

原先链路：oracle-->OGG-->kafka-->flink-->数据库\湖\仓

实现链路：oracle-->OGG-->kafka（搭配conflurent公司的SchemaRegestry组件使用）-->flink-->数据库\湖\仓

2.链路调整缘由：

原链路中的kafka存储的数据格式是avro，每次源端oracle表做schema变更时，下游的相关程序都需要做停程序处理，费时费力，对运维不友好。

预期链路加入SchemaRegestry组件，它天然对avro格式数据支持，并且可以实现动态调整源端schema但不会要求程序手动停止。可以有效解耦链路的上下游，更加灵活，减少运维操作。

3.约束条件

目前项目组负责OGG和kafka的日常维护，flink程序及后续链路由其他项目组（包括我们自己的项目组）独立开发。因为SchemaRegestry组件是由我们负责引入的，在kafka之后链路上的项目组都需要做相应变更，所以需要我们项目组出一个样例代码（此代码逻辑已经实现并全链路跑通）。为使对下游代码改造的影响最小，要求个项目组在flink消费者程序中引入我们编写的反序列化代码，而不是实现自定义的SourceFunction。

二、目前困境

1.通过上面的背景可知，下游在改造时仍需要引入我们自定义的反序列化类，虽然这个类也是对flink原生类的一种具体实现。但是这种方式仍然不太友好，但是当前原生API不支持，找了官网和社区也没有发现有效的解决办法，大家都是在原生基础上按需进行封装。

2. 1.14版本的flink官网中存在AvroDeserializationSchema.forGeneric(...)这种方式，但是需要传入静态schema。目前schema是不确定的，需要根据消费信息中存储的id值去拿到对应的schema版本，这样也存在一个问题：初始化未进行消费时是无法拿到schema的，并且你也无法去解析消费信息对象去动态拿到id值进而拿到对应的schema。这样就成了一个死结。

三、目前的解决办法

1.对原生的反序列化类KafkaDeserializationSchema<GenericRecord>进行封装，实现只传入schemaregestryURL不需要传入schema就可以进行反序列化的操作，将schema变更和消费程序进行解耦。

四、未来优化方向

1.在引入SchemaRegestry组件后，优化flink消费kafka中的avro格式数据的方法，解耦schema的变更和程序运行之间的联系，确保flink消费程序可以实现：在初始化链路中无对应topic的数据时不会报错；当链路中存在积压数据的情况下，依然可以进行schema的变更，程序按照kafka的offset值顺序消费（先消费旧数据再消费新数据），并且在新旧数据的连接处可以自动实现schema的转换。

2.按照上述第一条的描述，可能需要程序在消费每条数据时拿到消息自带的id号并和缓存的schema进行比对，比对成功则反序列化数据；对比不成功则按照新id值重新获取schema文件并进行缓存，再重复上面的步骤。这样可能消费速率会比较慢，影响整个链路运行性能，具体影响多少需要进行仔细测试才能知道。

标签：--,flink,SchemaRegestry,kafka,链路,schema
From： https://www.cnblogs.com/jia-tong/p/17330239.html

构建私有仓库 flink image 镜像
准备flink-*.tar.gz可以自己编译，或者下载编译cd${flink-root}mvninstall-DskipTests#编译成功后，压缩成tar.gzcd./flink-dist/target/tar-cvfflink-1.18-SNAPSHOT-bin.tar.gz./flink-1.18-SNAPSHOT-bin下载准备gosudocker-entrypoint.sh需要使用到gosu......
performance_schema 笔记（二）——配置详解
提前预警：这一篇巨长。。。做好心理准备。。。删除了书里重复说明和过于复杂的一些解释，完整版请参考原书《MySQL性能优化金字塔法则》零、基本概念instruments：生产者，用于采集MySQL中各种各样的操作产生的事件信息，可以称为监控采集配置项consumers：消费者，用于存储来自instruments......
performance_schema 笔记（一）—— 简介与快速入门
系列文章参考自《MySQL性能优化金字塔法则》，删除了书里重复说明和过于复杂的一些解释，完整版请参考原书。第一篇将简单介绍performance_schema是什么、有什么用、用法快速入门，它由哪些表组成以及这些表的用途。一、performance_schema简介performanceschema是运行在较低级别的......
flink
指定TM内存模型的方式整个TM内存模型可以通过三种方式来指定通过指定taskmanager.memory.task.heap.size和taskmanager.memory.managed.size来确定通过指定taskmanager.memory.flink.size也就是TotalFlinkMemory大小通过指定*taskmanager.memory.p......
Flink零基础学习笔记(一)：基础概念
一、ApacheFlink的定义、架构和原理ApacheFlink是一个分布式大数据处理引擎，可以对有限数据流和无限数据流进行有状态或无状态的计算，能够部署在各种集群环境，对各种规模大小的数据以内存速度进行快速计算。接下来我们介绍一下这些关键词的意义。处理无界和有界数据任何数据都......
记一次Flink遇到性能瓶颈
前言这周的主要时间花在Flink上面，做了一个简单的从文本文件中读取数据，然后存入数据库的例子，能够正常的实现功能，但是遇到个问题，我有四台机器，自己搭建了一个standalone的集群，不论我把并行度设置多少，跑起来的耗时都非常接近，实在是百思不得其解。机器多似乎并不能帮助它。把过程记录......
xml schema
1、介绍xmlschema可描述xml文档的结构，是基于xml的dtd替代者。XMLSchema可针对未来的需求进行扩展XMLSchema更完善，功能更强大XMLSchema基于XML编写XMLSchema支持数据类型XMLSchema支持命名空间参考：https://www.runoob.com/schema/schema-tutorial.html2、sche......
分布式计算技术（下）：Impala、Apache Flink、星环Slipstream
实时计算的发展历史只有十几年，它与基于数据库的计算模型有本质区别，实时计算是固定的计算任务加上流动的数据，而数据库大多是固定的数据和流动的计算任务，因此实时计算平台对数据抽象、延时性、容错性、数据语义等的要求与数据库明显不同，面向实时计算的数据架构也就发展起来。本篇我......
chatpgt-flinkcdc从mysql到kafka再到mysql
flinkcdcmysql到kafkaimportorg.apache.flink.api.common.serialization.SimpleStringSchema;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;importorg.apach......
Web开发|XML Schema (XSD) 学习
采用XSD建立教师、学生之间的关系。假设有两个实体“学生”和“教师”，一个学生可以有多个老师，一个老师也可以有多个学生，二者为多对多的关系。在XSD中描述多对多的关系可以使用XML元素的引用和复杂类型的组合，使用中间表（或连接表）来表示多对多关系。首先，我们定义“学生”和“教师”......

SchemaRegestry组件原生的类和方法无法实现flink消费kafka的数据动态调整schema的情况--未彻底解决

相关文章

赞助商

阅读排行