首页 > 其他分享 >软考论文论湖仓一体架构及其应用

软考论文论湖仓一体架构及其应用

时间:2024-10-20 19:13:38浏览次数:1  
标签:存储 架构 数据仓库 软考 Lakehouse 湖仓 论湖 数据

一、论文论据

数据仓库是从各种外部数据源、各种内部应用程序中定期提取数据的大型存储库。数据湖是一个以原始格式存储数据的平台,不需要定义数据按原样存储数据,而无需事先对数据进行结构化处理或者定义数据模式,数据湖仓虽然适合数据的存储,但由于不支持事务、缺乏一致性/隔离性、不保证执行数据质量等。因此数据湖不适合承载数据读写访问,批处理、流处理等业务。又由于数据湖缺乏结构性,容易编程数据沼泽。

湖仓一体(Lakehouse)结合了数据湖和数据仓库的优势,它构建在数据湖低成本的数据存储架构上,又继承了数据湖仓的数据处理和管理能力。

可以选择以下四种数据湖仓一体的特征,进行详细的特点阐述:

湖仓一体的特征:

1、事务支持:对事务的ACID支持,确保数据并发访问的一致性,正确性。可以在不破坏数据完整性的前提下,支持并发的读写事务。

2、数据的模型化和数据治理:支持各类数据模型的实现和转变,支持DW模式架构。

3、报表以及分析应用的支持,Lakehouse所保存的数据经过了清理和整合的过程,可以用于加速分析。相比于数据仓库,Lakehouse保存的数据更多,数据时效性更高,可以显著提升报表质量。

4、数据类型扩展:相比于数据仓库仅支持结构化数据,Lakehouse结构化可以支持结构化和非结构化数据,包括图像、视频、音频、文本。

5、存储和计算分离,降低存储成本:使用低成本硬件与集群技术架构数据湖。提供廉价的分离式存储,湖仓一体延续了数据湖的优势,采取了存算分离的架构,支持更大的并发量和数据规模。

6、开发性:数据湖仓采取了开源组件,且采用了Parquet/ORC等开放兼容的底层存储格式,因此,不同存储引擎、语言都可以操作数据湖仓。

7、减少数据的冗余:如果同时维护一个数据湖和多个数据仓库,往往会造成巨大的数据冗余,而使用Lakehouse,可以减少数据的重复性。

8、避免数据沼泽:人们倾向于数据湖中丢数据,而不考虑治理,长此以往数据湖会变成为数据沼泽,引入数据湖仓可以治理海量数据,有效提升分析数据的时效性。

标签:存储,架构,数据仓库,软考,Lakehouse,湖仓,论湖,数据
From: https://www.cnblogs.com/tuqunfu/p/18487648

相关文章

  • 计算机毕业设计-基于Java+SSM架构的职业高中学情成绩系统项目开发实战(附源码+论文)
    大家好!我是程序员一帆,感谢您阅读本文,欢迎一键三连哦。......
  • 计算机毕业设计-基于Java+SSM架构的仓库管理系统项目开发实战(附源码+论文)
    大家好!我是程序员一帆,感谢您阅读本文,欢迎一键三连哦。......
  • 软考论文之论软件维护方法及其应用
    一、论点论据软件维护,就是在软件已经交付使用之后,为了改正错误或满足新的需要而修改软件的过程。可以选择以下4~5种主要的影响软件维护工作的因素,进行论述影响软件维护工作的主要因素有:1、可理解性:通过阅读源代码和文档,了解软件功能和运行的容易程度。2、可测试性:验证软件程......
  • 基于nodejs+vue基于Web的软考题库平台[开题+源码+程序+论文]计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容一、选题背景关于软考相关平台的研究,现有研究主要以软考知识体系、软考备考策略等为主。专门针对基于Web的软考题库平台的研究较少。在软考的普及过程中,虽然有一些软......
  • 云原生架构视图
    关于云原生的概念,业内有没有统一的定义,比较主流的还是CNCF(CloudNativeComputingFoundation,云原生计算基金会)对云原生的定义。原文如下:Cloudnativetechnologiesempowerorganizationstobuildandrunscalableapplicationsinpublic,private,andhybridclouds.Fe......
  • 软考系统分析师知识点十七:系统运行与维护
    前言今年报考了11月份的软考高级:系统分析师。考试时间为:11月9日。倒计时:20天。目标:优先应试,其次学习,再次实践。复习计划第一阶段:扫平基础知识点,仅抽取有用信息,可有缺失,但得过眼。第十五章:系统运行与维护内容总结知识点1:系统运行与维护概述概念:系统运行与维护是信......
  • Kappa数据架构
    典型的互联网大数据架构大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。数据采集将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用Sqoop,日志同步可以选择Flume,打点......
  • 系统架构设计师教程 第18章18.8 安全架构设计案例分析 笔记
    18.8安全架构设计案例分析18.8.1电子商务系统的安全性设计认证、授权和审计(AuthenticationAuthorizationandAccounting,AAA)是运行于宽带网络接入服务器上的客户端程序RADIUS软件主要应用于宽带业务运营的支撑管理,是一个需要可靠运行且高安全级别的软件支撑系......
  • 系统架构设计师教程 第18章 18.7 系统架构的脆弱性分析 笔记
    18.7系统架构的脆弱性分析18.7.1概述安全架构的设计核心是采用各种防御手段确保系统不被破坏,而系统的脆弱性分析是系统安全性的另一方面技术,即系统漏洞分析。漏洞的来源:1.软件设计时的瑕疵2.软件实现中的弱点3.软件本身的瑕疵4.系统和网络的错误配置18.7.2软件脆......
  • SpringCloud项目|基于分布式架构的商城系统的设计与实现
    作者简介:Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验,被多个学校常年聘为校外企业导师,指导学生毕业设计并参与学生毕业答辩指导,有较为丰富的相关经验。期待与各位高校教师、企业......