首页 > 其他分享 >大厂数仓专家漫谈数据仓库的魅力与作用!

大厂数仓专家漫谈数据仓库的魅力与作用!

时间:2023-12-25 20:31:48浏览次数:22  
标签:分析 数仓 数据库 漫谈 数据仓库 支持 企业 数据


1.数据仓库产生背景

数据仓库的产生源于企业对更好地管理和利用数据的需求,以支持决策制定、业务分析和报告等活动。以下是数据仓库是如何产生的主要因素和背景:

  1. 数据爆炸: 随着计算机技术的发展和数字化信息的广泛采集,企业积累了大量的数据。这些数据存储在不同的系统和应用程序中,分散在整个组织中。这种数据分散和分散的存储方式导致了数据管理和分析的困难。
  2. 需求增加: 企业开始认识到数据具有巨大的潜力,可以用于洞察客户行为、市场趋势、业务绩效等方面。因此,对数据的需求迅速增加,需要更有效的方式来访问和分析数据。
  3. 决策支持的需求: 企业领导和管理层需要更好的信息来支持决策制定。传统的操作型数据库不够灵活,无法满足复杂的分析和报告需求。
  4. 历史数据的重要性: 了解过去的业务趋势和历史数据变化对于制定战略和计划至关重要。传统数据库通常会覆盖或清除旧数据,无法提供历史数据分析。
  5. 数据质量和一致性: 数据分散在多个系统中时,数据质量和一致性成为问题。企业需要一种方法来确保数据的准确性和一致性。

因此,为了应对这些挑战,数据仓库概念逐渐产生并发展起来。数据仓库允许企业将分散的数据集成到一个中心存储中,提供一致的数据视图,支持高级分析、复杂查询和历史数据的存储。数据仓库系统的发展和演进,如OLAP数据库、列存储技术、云数据仓库等,进一步增强了企业对数据仓库的需求,并使其成为现代企业数据管理和分析的关键组成部分。

总的来说,数据仓库的产生是为了满足企业在数据管理、分析和决策制定方面的需求,并充分利用数据的潜力,以提高业务效率和竞争力。

2.数据仓库定义

数据仓库(Data Warehouse)的官方定义可以根据不同的权威来源略有不同,但通常情况下,以下是数据仓库的官方定义:

1.Inmon的定义(由Bill Inmon提出,被认为是数据仓库领域的先驱):

数据仓库是“集成的、主题导向的、非易失性的、时间变化的数据集合,用于支持管理决策制定过程”。  

a.集成的:数据仓库将来自不同源系统的数据集成到一个统一的存储中,消除了数据的分散性。
b.主题导向的:数据仓库是以主题或业务需求为导向的,而不是以特定的应用程序或业务过程为导向。
c.非易失性的:数据仓库中的数据是持久的,不会随着时间的推移而丢失。
d.时间变化的:数据仓库包含了历史数据,可以追溯和分析过去的变化。

2.Kimball的定义(由Ralph Kimball提出,也是数据仓库领域的重要贡献者):

数据仓库是“可查询、可扩展、集成的、主题导向的、历史的数据存储,用于支持管理决策”。

a.可查询的:数据仓库中的数据易于查询和分析,以满足各种业务需求。
b.可扩展的:数据仓库可以根据业务需求进行扩展,添加新的数据源和主题。
c.历史的:与Inmon的定义类似,数据仓库包含历史数据,支持时间趋势分析。

这两个定义反映了数据仓库的核心特征,包括数据集成、主题导向、非易失性、时间变化、可查询性以及支持管理决策。数据仓库通常用于帮助组织更好地理解其数据,支持决策制定、报告和分析等活动。

3.数据仓库意义

数据仓库建设具有重要的意义,对于组织和企业来说,它不仅仅是一个技术性的举措,更是战略性的决策,以下是数据仓库建设的主要意义:

  1. 提升决策支持能力:数据仓库将企业各个部门和业务系统的数据集成在一起,提供了一个全面、一致的数据视图。这使得组织能够更好地分析数据、识别趋势、进行预测,从而更好地支持决策制定过程。管理层可以基于准确和一致的数据做出更明智的战略和运营决策。
  2. 改善数据质量和一致性:数据仓库可以作为数据质量的中心,通过数据清洗、转换和标准化,提高数据的质量和一致性。这有助于避免因数据错误或不一致性而引发的决策偏差和问题。
  3. 支持业务分析和报告:数据仓库为数据分析和报告提供了稳定的基础。它可以用于生成各种类型的报告、仪表板和数据可视化,帮助业务用户更好地理解数据、识别问题和机会。
  4. 促进业务集成:通过集成来自不同部门和系统的数据,数据仓库促进了业务集成。这意味着不同部门之间可以更好地协作,共享信息,并协同解决问题。
  5. 支持战略目标:数据仓库可以帮助组织实现其战略目标。通过分析历史数据和趋势,企业可以更好地规划未来,制定战略计划,并做出与市场和竞争环境相适应的战略决策。
  6. 满足监管和合规要求:数据仓库可以支持企业遵守监管和合规要求,通过确保数据的完整性和可追溯性,以及提供审计和报告功能。
  7. 增强竞争力:数据驱动的决策和分析可以帮助企业更好地了解市场、客户需求和竞争对手,从而更好地应对竞争,提高竞争力。
  8. 降低成本:尽管数据仓库建设本身可能需要一定的投资,但通过提高效率、减少数据错误和决策风险,数据仓库可以在长期内降低成本。

企业搭建数据仓库可以为其带来多方面的价值,这些价值从不同角度都对企业的运营和决策制定产生积极影响。以下是一些从对企业带来的价值角度来讨论企业搭建数据仓库的作用:

1.支持数据驱动决策

  • a.数据仓库提供了集成、一致的数据视图,使企业能够更好地分析和理解其业务状况。
  • b.基于数据仓库的分析和报告可以帮助企业领导和管理层做出更明智的决策,因为这些决策是基于数据和事实的,而不是主观判断。

2.提高决策效率

  • a.数据仓库中的数据是经过清洗、集成和优化的,因此可以更迅速地获得准确的信息。
  • b.通过数据仓库,决策者可以实时访问数据,无需等待IT部门生成报告,从而提高了决策的效率。

3.改进业务运营

  • a.数据仓库可以帮助企业识别业务趋势、模式和异常,从而更好地规划和优化运营策略。
  • b.通过数据仓库,企业可以更好地了解其客户、产品和市场,有助于改进产品开发、市场推广和客户服务。

4.增强客户体验

  • a.数据仓库可以帮助企业了解客户的行为和需求,从而定制更个性化的产品和服务。
  • b.通过分析数据仓库中的客户数据,企业可以改进客户支持流程,提供更好的客户体验。

5.降低风险

  • a.数据仓库支持企业进行风险分析和合规性监控,有助于降低潜在的风险和法律责任。
  • b.通过追踪历史数据,企业可以更好地了解过去发生的事件,以便更好地预测未来可能的风险 。

6.支持战略规划

  • a.数据仓库可以为企业提供全面的业务洞察,帮助制定长期战略规划。
  • b.通过分析历史数据和市场趋势,企业可以更好地预测未来的机会和挑战,从而制定适应性更强的战略计划。

7.提高竞争力

  • a.通过更好地理解市场和客户,企业可以在竞争激烈的市场中脱颖而出,制定更具竞争力的战略。
  • b.数据仓库支持企业创新和快速反应市场变化,有助于在市场中保持竞争优势。

总之,企业搭建数据仓库的主要作用是将分散的数据整合到一个可用于分析和决策的中心存储中,从而提供更深入的业务洞察和更好的决策支持。这不仅可以改进业务运营和客户体验,还可以提高企业的竞争力,并降低风险。因此,数据仓库在现代企业中被视为一项重要的战略性投资。

4.与数据库对比

很多同学可能对数据库和数据仓库傻傻份不奇怪,从技术角度,数据仓库(DataWarehouse)和数据库(Database)是两个不同的概念,它们在用途、设计、数据处理方式等方面有明显的区别。以下是数据仓库和数据库之间的主要区别:

1.数据用途

  • a.数据库通常用于支持应用程序的事务性操作,例如,存储、检索、更新和删除特定事务的数据。它们主要关注数据的实时操作和事务处理。
  • b.数据仓库则用于支持分析和决策制定。它们关注数据的历史性、集成性和主题性,用于进行复杂的数据分析、报告和洞察提取。

2.数据结构

  • a.数据库通常包含规范化的数据结构,以减少数据冗余和维护数据一致性。这有助于高效地处理大量的事务性操作。
  • b.数据仓库更倾向于采用维度建模或星型/雪花模型,以支持复杂的查询和分析。数据通常会被整合成更大的主题区域,而不是规范化。

3.数据处理

  • a.数据库支持实时的、即时的数据更新和查询。它们旨在处理瞬时数据需求。
  • b.数据仓库通常是批处理导向的,数据会定期从多个源系统提取、清洗、转换,然后加载到数据仓库中,以供分析使用。这种处理方式能够处理大量的历史数据。

4.查询复杂性

  • a.数据库通常处理相对简单的查询,例如根据特定条件检索或更新特定记录。
  • b.数据仓库旨在支持复杂的多维分析查询,它们可以处理涉及大量数据、多个维度和聚合的查询。

5.数据量

  • a.数据库通常处理相对较小的数据集,适用于事务性应用程序。
  • b.数据仓库处理大量数据,通常包括多年的历史数据,以便进行全面的分析。 

6.数据保留期限

  • a.数据库通常保留最新的数据,旧数据可能会被归档或清除。
  • b.数据仓库保留历史数据,以支持时间趋势分析和历史数据查询。

7.用户类型

  • a.数据库主要面向应用程序开发人员和事务性用户,以满足特定的应用程序需求。
  • b.数据仓库主要面向分析师、业务决策者和高级用户,以支持复杂的数据分析和报告。

总之,数据仓库和数据库在设计、用途和数据处理方式上存在显著差异。数据库用于事务性操作,而数据仓库用于支持数据分析和决策制定。企业通常会同时使用这两种技术,以满足不同的数据需求。

了解完数据库和数据仓库一些本质区别后,我们从技术视角和企业实际项目的角度来看数据仓库和数据库之间存在明显的区别。

数据存储和用途的区别

数据库通常是用于事务处理(OLTP,Online Transaction Processing)的,它们用于支持企业的日常操作,如订单处理、库存管理等。我们一般将这类数据库应用到前台应用系统中支撑前台业务发展。数据库设计主要关注数据的一致性、完整性和实时性。例如,常见的数据库包括:

MySQL
PostgreSQL
Oracle Database
Microsoft SQL Server

数据仓库则用于分析和决策支持(OLAP,Online Analytical Processing)。它们旨在存储和管理大量历史数据,以便进行复杂的查询和分析,如业务智能、报表和数据挖掘。我们一般将数据仓库归类到数据中台。数据仓库通常具有大容量、高性能和复杂的数据转换功能。示例数据仓库系统包括:

Snowflake
Amazon Redshift
GaussDB DWS(Data Warehouse Service)
Teradata
Hive

数据结构的区别

  • a.数据库的数据结构通常是规范化的,即数据分散在多个表中,以最小化数据冗余和保持数据一致性。这使得数据写入和更新非常有效。
  • b.数据仓库的数据结构通常是星型或雪花型,其中核心事实表包含事务数据,而维度表包含关于事实数据的描述性信息。这种结构使得查询和分析操作更加高效。

数据更新频率的区别

  • a.数据库中的数据通常是实时更新的,以支持事务的要求,因此其数据具有高度的时效性。
  • b.数据仓库的数据更新通常是批处理方式,定期或按需加载。这意味着数据仓库的数据可能比数据库中的数据略有延迟,但更适合分析和报表。

查询和性能的区别

  • a.数据库的性能主要关注事务处理,通常优化了大量并发的读写操作,但对复杂的分析查询性能较差。
  • b.数据仓库的性能主要关注复杂的查询和分析,通常通过列式存储、索引、分区等技术来优化查询性能,但对于大量的写操作性能较差。

企业项目示例

假设一个电商公司想要建立一个系统,以支持其日常交易(例如,订单处理)和分析客户购买模式的需求。在这种情况下:

该公司可以使用Oracle Database或Microsoft SQL Server等数据库系统来管理其订单处理、库存和交易数据。

同时,公司可能还会搭建一个数据仓库,如Hive,Snowflake或Amazon Redshift,来存储历史交易数据以及有关客户、产品和销售渠道的信息。这个数据仓库将用于分析客户行为、生成销售报表以及支持决策制定。

综上所述,数据仓库和数据库在数据存储、用途、结构、更新频率和性能等方面存在明显的区别,企业通常根据其业务需求同时使用这两种类型的系统来实现日常操作和决策支持。


标签:分析,数仓,数据库,漫谈,数据仓库,支持,企业,数据
From: https://blog.51cto.com/u_15346267/8971765

相关文章

  • 数仓调优实践丨SQL改写消除相关子查询
    本文分享自华为云社区《【调优实践】SQL改写消除相关子查询》,作者:门前一棵葡萄树。一、子查询GaussDB(DWS)根据子查询在SQL语句中的位置把子查询分成了子查询、子链接两种形式。子查询SubQuery:对应于查询解析树中的范围表RangeTblEntry,更通俗一些指的是出现在FROM语句后面的......
  • 数仓
    数据仓库的定义数据仓库是将多个数据源的数据经过ETL处理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构化数据环境。ETL:Extract(抽取)、Transform(转换)、Load(加载)数据仓库vs数据库数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数......
  • 数据仓库之星型模型和雪花模型
    在了解星型模型和雪花模型之前,我们需要先了解一下事实表和维度表到底是什么?一、事实表与维度表事实表在数据仓库中,保存度量值的详细值或存储事实记录的表称为事实表。事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关......
  • 【活动回顾】Databend 云数仓与 Databend Playground 扩展组件介绍
    2023年12月7日,作为KubeSphere的合作伙伴,Databend荣幸地受邀参与了KubeSphere社区主办的云原生技术直播活动。本次活动的核心议题为「Databend云数仓与DatabendPlayground扩展组件介绍」,此次分享由DatabendLabs的研发工程师尚卓燃担任主讲嘉宾,向与会者呈现了一场......
  • FQS:一种神奇的数仓查询优化技术
    本文分享自华为云社区《根据执行计划优化SQL【绽放吧!GaussDB(DWS)云原生数仓】》,作者:西岭雪山。引言如果您刚接触DWS那一定会好奇想要知道"REMOTE_FQS_QUERY"到底代表什么意思?我们看官网的描述是代表这执行计划已经CN直接将原语句下发到DN,各DN单独执行,并将执行结果在CN上进行汇......
  • 数仓项目总结
    数仓项目总结一、数据采集数据从哪里来的?一般在实际开发中,是业务开发端在业务系统程序中,植入一些收集事件数据的SDK(工具代码),进行各种事件数据的收集,埋点数据可以植入到业务系统的前端程序或者后端程序中。我们作为大数据开发,只需要提出数据埋点需求,对具体实现技术仅作基本了......
  • 数仓调优实践丨多次关联发散导致数据爆炸案例分析改写
    本文分享自华为云社区《GaussDB(DWS)性能调优:求字段全体值中大于本行值的最小值——多次关联发散导致数据爆炸案例分析改写》,作者:Zawami。1、【问题描述】 语句中存在同一个表多次自关联,且均为发散关联,数据爆炸导致性能瓶颈。2、【原始SQL】explainverboseWITHTMPAS......
  • 数仓虚拟化技术:PieCloudDB Database 通过中国信通院 2023 「可信数据库」性能评测的强
    “可信数据库”是国内首个数据库的评测体系,被业界广泛认可为产品能力重要的衡量标准之一。PieCloudDBDatabase在该评测中展现出卓越的数据处理速度、稳定性和可扩展性,为用户提供了强大的数据分析和查询能力。6月15~16日,中国信通院2023上半年“可信数据库”评测专家评审会......
  • 【PostgreSQL 数据库线下沙龙(武汉站)】PieCloudDB Database :云原生分布式虚拟数仓的诞
    2023年6月3日,开源软件联盟PostgreSQL中文社区在武汉举办了技术沙龙活动。本次活动主题围绕未来数据库展开讨论和分享。通过探讨未来数据库的概念和特点,为智能化时代的发展提供更多的支持和服务。同时,通过探讨数据库和AI技术的共生共荣,推动数字经济的发展和创新,开创未来数据库的新......
  • 【PostgreSQL 数据库技术峰会(成都站)】云原生虚拟数仓 PieCloudDB Database 的架构和关
    2023年6月17日,中国开源软件推进联盟PostgreSQL分会在成都举办了数据库技术峰会。此次峰会以“新机遇、新态势、新发展”为主题,结合当下信创热潮、人工智能等产业变革背景,探讨PostgreSQL数据库在这些新机遇下的发展前景。峰会邀请众多行业大咖、学术精英、技术专家、技术爱好者......