原来使用kafka消费者直接进行mysql数据同步,现在发现当时只考虑了数据的同步,对于后续数据的存储和使用没有考虑全面。面对大量流式数据,面向的是应用,数据同步之后,数据如何存储,如何计算是更大的问题,不只是数据本身。但是当时同步数据确实遇到了事务问题,通过加锁实现了简单的事务。Hudi本身支持ACID,看来自己又造轮子了!也深感大数据底座的重要性!
入湖/仓:Mysql+Kafka生产者+Flink+Kafka生产者+Flink SQL+Hudi(保证事物一致性)
ETL:Hudi/hive数据处理后放到Mysql,方便查询分析
不知道理解的是否有偏差,欢迎来拍砖。
标签:数仓,同步,Hudi,Flink,Kafka,数据 From: https://www.cnblogs.com/xieqisheng666/p/16963098.html