在从离线到实时化发展的过程中,大数据领域出现了很多优秀的系统以应对各种不同的分析和查询场景。
1.比如我们可以将实时的数据归档到像Hive这样的离线数仓里进行数据的离线处理后再将聚合后的小规模数据导出到mysql进行后续的报表查询或者数据访问;
2.也有将数据经过flink流计算引擎进行前置的实时处理计算后将结果汇总到HBASE/casandra这样的KV系统进行高并发的点查;
3.或者是实时数据直接写入clickhouse/druid这样的mpp系统里进行快速的交互式查询;
4.还有通过presto进行多个数据源的联邦查询
总之为了实现数据的摄取、处理、分析链路的实时化,需要搭建和运维多套系统或者服务,最终造成了架构复杂、数据存储割裂、数据不一致、开发成本高等诸多的问题。
标签:数仓,离线,实时,查询,开源,玩转,数据 From: https://www.cnblogs.com/xieqisheng666/p/16963153.html