实时数仓原来如此：Kafka+Flink+Hudi

时间：2022-12-07 15:13:34浏览次数：41

原来使用kafka消费者直接进行mysql数据同步，现在发现当时只考虑了数据的同步，对于后续数据的存储和使用没有考虑全面。面对大量流式数据，面向的是应用，数据同步之后，数据如何存储，如何计算是更大的问题，不只是数据本身。但是当时同步数据确实遇到了事务问题，通过加锁实现了简单的事务。Hudi本身支持ACID，看来自己又造轮子了！也深感大数据底座的重要性！

入湖/仓：Mysql+Kafka生产者+Flink+Kafka生产者+Flink SQL+Hudi（保证事物一致性）

ETL：Hudi/hive数据处理后放到Mysql，方便查询分析

不知道理解的是否有偏差，欢迎来拍砖。

标签：数仓,同步,Hudi,Flink,Kafka,数据
From： https://www.cnblogs.com/xieqisheng666/p/16963098.html

大数据-数据仓库-实时数仓架构分析
数仓分层分层全称译名说明压缩列式存储分区ODSOperationDataStore原始层原始数据✅❌✅DIMDimension维度层合并维度表✅✅✅DWDDat......
Flink Plan Visualizer | Apache Flink Machine Learning Library & Apache
ApacheFlinkMachineLearningLibrary|ApacheFlinkMachineLearningLibraryhttps://nightlies.apache.org/flink/flink-ml-docs-stable/QuickStart|ApacheFli......
Flink SQL管理平台flink-streaming-platform-web安装搭建
我的gitee地址：https://gitee.com/ddxygq/bigdata-technical-pai最近看到有人在用flinksql的页面管理平台，大致看了下，尝试安装使用，比原生的flinksql界面确实好用多了，我们......
flink sql 程序消费kafka数据到mysql设置参数connector.url问题汇总
1.问题现象：使用flinksql程序消费kafka数据写入mysql时，使用TVF表值函数，START_ENENT_TIME和END_ENENT_TIME始终比消费时间小大约13小时。解决办法在写入mysql的sink......
Flink on Yarn三部曲之三：提交Flink任务
欢迎访问我的GitHub这里分类和汇总了欣宸的全部原创(含配套源码)：https://github.com/zq2599/blog_demos本文是《FlinkonYarn三部曲》系列的终篇，先简单回顾前面的内容......
医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用
背景在ApacheHudi支持完整的Schema演变的方案中（https://mp.weixin.qq.com/s/rSW864o2YEbHw6oQ4Lsq0Q），读取方面，只完成了SQLonSpark的支持（Spark3以上，用于离线分析场景），Pr......
Flink的时间语义，以及使用场景
有哪些时间语义：EventTime ProcessingTime IngestionTime使用场景：EventTime:数据本身携带时间，事件达到Flink之前就已经确定的。ProcessingTime:需要低延迟......
数仓中 HIVE 内外表对比
分区表有外表和内表(管理表)的存在形式，他们的区别是什么？内部表(管理表):删除内部表会直接删除元数据以及存储的数据，对内部表的修改会将修改直接同步给元数据；外部表：......
数仓建模—分层建设理论(03)
文章目录分层建设理论分层的意义清晰数据结构体系数据血缘追踪减少重复开发和资源浪费复杂问题简单化统一数据口径......
数仓建模—数仓架构发展史(02)
发展史时代的变迁，生死的轮回，历史长河滔滔，没有什么是永恒的，只有变化才是不变的，技术亦是如此，当你选择互联网的那一刻，你就相当于乘坐了一个滚滚向前的时代列车，开往未知的方向，不......

实时数仓原来如此：Kafka+Flink+Hudi

相关文章

赞助商

阅读排行