首页 > 其他分享 >实时数仓原来如此:Kafka+Flink+Hudi

实时数仓原来如此:Kafka+Flink+Hudi

时间:2022-12-07 15:13:34浏览次数:36  
标签:数仓 同步 Hudi Flink Kafka 数据

原来使用kafka消费者直接进行mysql数据同步,现在发现当时只考虑了数据的同步,对于后续数据的存储和使用没有考虑全面。面对大量流式数据,面向的是应用,数据同步之后,数据如何存储,如何计算是更大的问题,不只是数据本身。但是当时同步数据确实遇到了事务问题,通过加锁实现了简单的事务。Hudi本身支持ACID,看来自己又造轮子了!也深感大数据底座的重要性!

入湖/仓:Mysql+Kafka生产者+Flink+Kafka生产者+Flink SQL+Hudi(保证事物一致性)

ETL:Hudi/hive数据处理后放到Mysql,方便查询分析

不知道理解的是否有偏差,欢迎来拍砖。

标签:数仓,同步,Hudi,Flink,Kafka,数据
From: https://www.cnblogs.com/xieqisheng666/p/16963098.html

相关文章

  • 大数据-数据仓库-实时数仓架构分析
    数仓分层分层全称译名说明压缩列式存储分区ODSOperationDataStore原始层原始数据✅❌✅DIMDimension维度层合并维度表✅✅✅DWDDat......
  • Flink Plan Visualizer | Apache Flink Machine Learning Library & Apache
    ApacheFlinkMachineLearningLibrary|ApacheFlinkMachineLearningLibraryhttps://nightlies.apache.org/flink/flink-ml-docs-stable/QuickStart|ApacheFli......
  • Flink SQL管理平台flink-streaming-platform-web安装搭建
    我的gitee地址:https://gitee.com/ddxygq/bigdata-technical-pai最近看到有人在用flinksql的页面管理平台,大致看了下,尝试安装使用,比原生的flinksql界面确实好用多了,我们......
  • flink sql 程序消费kafka数据到mysql设置参数connector.url问题汇总
    1.问题现象:使用flinksql程序消费kafka数据写入mysql时,使用TVF表值函数,START_ENENT_TIME和END_ENENT_TIME始终比消费时间小大约13小时。解决办法在写入mysql的sink......
  • Flink on Yarn三部曲之三:提交Flink任务
    欢迎访问我的GitHub这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos本文是《FlinkonYarn三部曲》系列的终篇,先简单回顾前面的内容......
  • 医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用
    背景在ApacheHudi支持完整的Schema演变的方案中(https://mp.weixin.qq.com/s/rSW864o2YEbHw6oQ4Lsq0Q),读取方面,只完成了SQLonSpark的支持(Spark3以上,用于离线分析场景),Pr......
  • Flink的时间语义,以及使用场景
    有哪些时间语义:EventTime  ProcessingTime  IngestionTime使用场景:EventTime:数据本身携带时间,事件达到Flink之前就已经确定的。ProcessingTime:需要低延迟......
  • 数仓中 HIVE 内外表对比
    分区表有外表和内表(管理表)的存在形式,他们的区别是什么?内部表(管理表):删除内部表会直接删除元数据以及存储的数据,对内部表的修改会将修改直接同步给元数据;外部表:......
  • 数仓建模—分层建设理论(03)
    文章目录​​分层建设理论​​​​分层的意义​​​​清晰数据结构体系​​​​数据血缘追踪​​​​减少重复开发和资源浪费​​​​复杂问题简单化​​​​统一数据口径......
  • 数仓建模—数仓架构发展史(02)
    发展史时代的变迁,生死的轮回,历史长河滔滔,没有什么是永恒的,只有变化才是不变的,技术亦是如此,当你选择互联网的那一刻,你就相当于乘坐了一个滚滚向前的时代列车,开往未知的方向,不......