首页 > 其他分享 >Flink把kafa数据写入Doris的N种方法及对比。

Flink把kafa数据写入Doris的N种方法及对比。

时间:2025-01-22 10:28:05浏览次数:3  
标签:Load Flink 实时 kafka 导入 Routine kafa Doris

用Flink+Doris来开发实时数仓,首要解决是如何接入kafka实时流,下面是参考Doris官方文档和代码,在自己项目开发的实践中总结,包括一些容易踩坑的细节。

目录

Routine Load方法

 接入kafka实时数据

踩坑的问题细节 

Flink Doris Connector方法

完整示例


Routine Load方法

如果Doris是2.1以上,不需要复杂的数据转换的,建议使用Doris自带的Routine Load,实测使用方便,性能高。

 接入kafka实时数据

Doris 可以通过 Routine Load 导入方式持续消费 Kafka Topic 中的数据。在提交 Routine Load 作业后,Doris 会持续运行该导入作业,实时生成导入任务不断消费 Kakfa 集群中指定 Topic 中的消息。

Routine Load 是一个流式导入作业,支持 Exactly-Once 语义,保证数据不丢不重。下面示例如何通过拉入kafka数据(json格式):<

标签:Load,Flink,实时,kafka,导入,Routine,kafa,Doris
From: https://blog.csdn.net/linweidong/article/details/145278529

相关文章

  • 带 `$` 符号的 Redis 密码在 Flink 调度脚本中被截断的解决方案 WRONGPASS invalid us
    在实际生产使用中,如果你的Redis密码中包含$符号,而你又通过调度脚本(如DolphinScheduler)或Shell参数方式传递给Flink,就可能造成密码被部分截断,进而导致:WRONGPASSinvalidusername-passwordpairoruserisdisabled这是因为Shell解释$为变量展开符,后续字符被当作环......
  • Doris 2.1 Queries Acceleration -Tuning Plan学习笔记
    1OptimizingTableSchemaDesign1.1Case1:TableEngineSelection1.1.1Thequeryperformanceofthesetablemodels,frombesttoworst,is:Duplicate>MOW>MOR==Aggregate.1.2Case2:BucketColumnSelection1.2.1Selectingappropriatebucket......
  • Flink(十):DataStream API (七) 状态
    1.状态的定义在ApacheFlink中,状态(State)是指在数据流处理过程中需要持久化和追踪的中间数据,它允许Flink在处理事件时保持上下文信息,从而支持复杂的流式计算任务,如聚合、窗口计算、联接等。状态是Flink处理有状态操作(如窗口、时间戳操作、聚合等)的核心组成部分。2.状......
  • Flink (九):DataStream API (六) Process Function
    1.ProcessFunctionProcessFunction 是一种底层的流处理操作,基于它用户可以访问(无环)流应用程序的所有基本构建块事件(流元素)状态(容错,一致性,仅在keyedstream上)定时器(事件时间和处理时间,仅在keyedstream上)可以将 ProcessFunction 视为一种可以访问keyedstate和定时......
  • Flink(八):DataStream API (五) Join
    1. WindowJoinWindowjoin作用在两个流中有相同key且处于相同窗口的元素上。这些窗口可以通过 windowassigner 定义,并且两个流中的元素都会被用于计算窗口的结果。两个流中的元素在组合之后,会被传递给用户定义的 JoinFunction 或 FlatJoinFunction,用户可以用它们输......
  • doris:自增列
    在Doris中,自增列(AutoIncrementColumn)是一种自动生成唯一数字值的功能,常用于为每一行数据生成唯一的标识符,如主键。每当插入新记录时,自增列会自动分配一个递增的值,避免了手动指定数字的繁琐操作。使用Doris自增列,可以确保数据的唯一性和一致性,简化数据插入过程,减少人为错......
  • doris:远程存储
    概述​远程存储支持将冷数据放到外部存储(例如对象存储,HDFS)上。注意远程存储的数据只有一个副本,数据可靠性依赖远程存储的数据可靠性,您需要保证远程存储有ec(擦除码)或者多副本技术确保数据可靠性。使用方法​冷数据保存到S3兼容存储​第一步: 创建S3Resource。CREATE......
  • doris&clickhouse&spark的元数据解析
    1.元数据的核心作用-数据目录管理-权限管理-分片信息-版本控制-资源调度2.基本组成部分-表结构定义-分区信息-统计信息-依赖关系-访问控制3.各系统的特点Doris:-FE管理的表定义、分区等-分布式事务相关元数据ClickHouse:-ZK存储的集群......
  • Flink (三):核心概念(并行度、算子链、任务槽)
    1.作业提交Client 不是运行时和程序执行的一部分,而是用于准备数据流并将其发送给JobManager。之后,客户端可以断开连接(分离模式),或保持连接来接收进程报告(附加模式)。客户端可以作为触发执行Java/Scala程序的一部分运行,也可以在命令行进程./bin/flinkrun...中运行。可以......
  • doris:自动分桶
    用户经常设置不合适的bucket,导致各种问题,这里提供一种方式,来自动设置分桶数。当前只对OLAP表生效。警告注意:这个功能在被CCR同步时将会失效。如果这个表是被CCR复制而来的,即PROPERTIES中包含is_being_synced=true时,在showcreatetable中会显示开启状态,但不会实际......