首页 > 其他分享 >一份大数据湖仓一体架构落地指南

一份大数据湖仓一体架构落地指南

时间:2024-07-12 13:41:35浏览次数:12  
标签:指南 架构 实时 查询 一体 OLAP 湖仓 数据

原文:https://mp.weixin.qq.com/s/_oKbXLUOImym59XwITeS9Q

随着业界对数据时效性的要求越来越高,大数据平台的发展方向逐渐向湖仓一体发展。

湖仓一体主要解决了以下几个问题:

  1. OLAP数据库由于需要内存和高效磁盘来提供向量化毫秒级的查询,所以用来存储原始流量数据,集群成本高。

  2. 离线存储比如HDFS,查询计算慢,不支持更新,落地后无法再提供流式计算。

3.实践中,湖的原始数据,要提供OLAP查询和数据分析,需要再导入OLAP数据库,存储多份数据。

湖仓一体的关键是,统一数据存储,统一计算引擎,统一SQL查询,既有流批一体,也有存算分离。但是业界并没有相关的开源产品。所以一般架构是以数据湖表格式中间件,以flink为流计算引擎,加上OLAP数据库的sql能力和高效查询能力,以联邦查询的方式,构建湖仓一体架构。

常见的架构,以iceberg/paimon为数据湖中间件,hadoop为数据存储,kafka+flink为实时流计算,clickhouse/doris/starrocks为查询组件,构建从数据接入到数据应用的湖仓一体架构。

理想状态下,paimon+flink+starrocks(存算分离),为当前最接近湖仓一体的架构,具相关业内人士透露,已经有公司自研统一SQL引擎,直接把SQL转换为flink任务或者向量化查询来返回结果,直接基于paimon构建数据湖和数据仓库。

当然,更快的数据查询和数据分析,需要更多的资源支撑。但是,从实践上看,将离线任务从hive迁移出来,尽可能以实时方式去实现或者用向量化的OLAP数据库去实现,反而减少了服务器的资源压力,带来了更高的时效性和更好的稳定性。

湖仓一体的时代,数据湖的价值更多的是以低廉的存储成本来存储原始数据,同时支持更新和批转流,更主要的是,可以通过向量化的OLAP查询引擎来实现快速的查询,从而构建高效的近实时离线数仓。

从以上看,近实时离线数仓,结合实时数仓,一体化构建,基本能满足未来几年数据分析的时效性要求。

从技术上看,flink的批量计算也会逐渐弱化,除非是也能支持向量化计算,才能真正意义推动流批一体落地,这个时候,就是近实时+实时。而starrocks的发展方向是支持大数据量的数据分析,基于已有的向量化引擎来支持大数据下的批量计算。总体上,这两者的目标是一致的,都是要在实时的基础上,构建近实时的离线分析。

具体落地湖仓一体架构,还是要以自身的需求为导向,同时尽可能拥抱时代发展。

标签:指南,架构,实时,查询,一体,OLAP,湖仓,数据
From: https://www.cnblogs.com/huft/p/18298208

相关文章

  • 还在困惑需要多少数据吗?来看看这份估计指南 | CVPR 2022
    论文基于实验验证,为数据需求预测这一问题提供了比较有用的建议,详情可以直接看看Conclusion部分。来源:晓飞的算法工程笔记公众号论文:HowMuchMoreDataDoINeed?EstimatingRequirementsforDownstreamTasks论文地址:https://arxiv.org/abs/2207.01725论文代码:http......
  • FILE+POS 方式 GreatSQL 主从复制架构给主节点磁盘扩容
    FILE+POS方式GreatSQL主从复制架构给主节点磁盘扩容一、前提在一套非常老的系统上,有一套GreatSQL主从集群(1主1从),主从复制采用的是FILE+POS方式复制,磁盘使用紧张需要扩容,只能在该台机器上添加更大的磁盘,将原数据盘替换,也没有其他的机器资源替换。这套系统没有VIP,没有高可用切......
  • “存算分离“和“湖仓一体“
    "存算分离"和"湖仓一体"是在大数据领域中常见的两种数据架构设计理念,用于处理和管理大数据的存储和分析需求。1.存算分离(StorageComputeSeparation):   定义:存算分离是一种架构设计思想,旨在将数据存储(Storage)和数据计算(Compute)分开部署和管理。通常情况下,数据存储和数......
  • GRE详解:概念、架构、原理、搭建过程、常用命令与实战案例
       我们将深入探讨如何在Linux上设置GRE(GenericRoutingEncapsulation,通用路由封装)。本文将涵盖GRE的定义、架构、原理、应用场景、常见命令体系,并通过详细的实战模拟展示如何在Linux系统上实际操作。希望通过这篇文章,您能深入理解GRE技术,并能在实际中应用。......
  • python+flask计算机毕业设计基于B_S架构的社区租户管理系统(程序+开题+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着城市化进程的加速和房地产市场的蓬勃发展,社区管理成为了城市治理中不可或缺的一环。特别是在租赁市场日益活跃的背景下,传统的社区管理......
  • 写代码总被Dis:5个项目案例带你掌握SOLID技巧,代码有架构风格
    SOLID原则图单一职责原则是基础,确保每个类只关注一件事情。开闭原则建立在单一职责原则之上,强调通过扩展而不是修改现有代码来添加新功能。里氏替换原则确保继承体系的健全性,让派生类可以安全地替换基类。接口隔离原则避免让客户端依赖于它们不需要的接口,提高了接口的可......
  • 优化VOI(Virtual Operating System Infrastructure,虚拟操作系统基础架构)架构的性能
    优化VOI(VirtualOperatingSystemInfrastructure,虚拟操作系统基础架构)架构的性能,可以从多个方面入手,以确保系统能够更高效、更稳定地运行。以下是一些优化建议:1.优化硬件资源利用本地硬件资源最大化:确保客户端机器的硬件资源(如CPU、内存、存储)得到最大化利用。这包括合......
  • Spring MVC 全面指南:从入门到精通的详细解析
    引言:SpringMVC,作为Spring框架的一个重要模块,为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者,掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径,通过详细的知识点分析和实际案例,帮助你快速上手Sprin......
  • T5架构和主流llama3架构有什么区别和优缺点、transformer中encoder 和decoder的不同、
    T5架构和主流llama3架构有什么区别和优缺点T5和LLaMA是两种在自然语言处理(NLP)领域广泛应用的大型语言模型,它们在架构和应用上有显著的区别和各自的优缺点。T5架构架构特点:Encoder-Decoder结构:T5(Text-to-TextTransferTransformer)采用了经典的Encoder-DecoderTransform......
  • 达梦数据库体系架构
    提示:本文内容包含达梦数据库体系架构基本知识。文章目录前言一、DM逻辑结构1.1逻辑存储数据结构关系1.2表空间1.3页1.4簇1.5段1.51数据段1.52临时段1.53回滚段二、DM物理结构2.1配置文件2.2控制文件2.3数据文件2.4重做日志文件2.5归档日志文件2.6逻辑日志文件......