一、论文论据
数据仓库是从各种外部数据源、各种内部应用程序中定期提取数据的大型存储库。数据湖是一个以原始格式存储数据的平台,不需要定义数据按原样存储数据,而无需事先对数据进行结构化处理或者定义数据模式,数据湖仓虽然适合数据的存储,但由于不支持事务、缺乏一致性/隔离性、不保证执行数据质量等。因此数据湖不适合承载数据读写访问,批处理、流处理等业务。又由于数据湖缺乏结构性,容易编程数据沼泽。
湖仓一体(Lakehouse)结合了数据湖和数据仓库的优势,它构建在数据湖低成本的数据存储架构上,又继承了数据湖仓的数据处理和管理能力。
可以选择以下四种数据湖仓一体的特征,进行详细的特点阐述:
湖仓一体的特征:
1、事务支持:对事务的ACID支持,确保数据并发访问的一致性,正确性。可以在不破坏数据完整性的前提下,支持并发的读写事务。
2、数据的模型化和数据治理:支持各类数据模型的实现和转变,支持DW模式架构。
3、报表以及分析应用的支持,Lakehouse所保存的数据经过了清理和整合的过程,可以用于加速分析。相比于数据仓库,Lakehouse保存的数据更多,数据时效性更高,可以显著提升报表质量。
4、数据类型扩展:相比于数据仓库仅支持结构化数据,Lakehouse结构化可以支持结构化和非结构化数据,包括图像、视频、音频、文本。
5、存储和计算分离,降低存储成本:使用低成本硬件与集群技术架构数据湖。提供廉价的分离式存储,湖仓一体延续了数据湖的优势,采取了存算分离的架构,支持更大的并发量和数据规模。
6、开发性:数据湖仓采取了开源组件,且采用了Parquet/ORC等开放兼容的底层存储格式,因此,不同存储引擎、语言都可以操作数据湖仓。
7、减少数据的冗余:如果同时维护一个数据湖和多个数据仓库,往往会造成巨大的数据冗余,而使用Lakehouse,可以减少数据的重复性。
8、避免数据沼泽:人们倾向于数据湖中丢数据,而不考虑治理,长此以往数据湖会变成为数据沼泽,引入数据湖仓可以治理海量数据,有效提升分析数据的时效性。
标签:存储,架构,数据仓库,软考,Lakehouse,湖仓,论湖,数据 From: https://www.cnblogs.com/tuqunfu/p/18487648