首页 > 其他分享 >数据仓库

数据仓库

时间:2023-02-18 01:55:19浏览次数:27  
标签:模型 数据仓库 建模 维度 设计 数据模型

关于数据仓库的概念,这里不再累赘。先看下面的图(数据仓库建设的7个主要环节):

dw

本文,主要针对第三块数据仓库模型设计来讨论交流,尤其是互联网行业。

一、关于数据仓库数据模型

dw1. 数据仓库数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名;是业务人员和开发人员之间沟通的一套语言。

2. 数据仓库数据模型的作用:

  • 统一企业的数据视图;
  • 定义业务部门对于数据信息的需求;
  • 是构建数据仓库原子层的基础;
  • 支持数据仓库的发展规划;
  • 初始化业务数据的归属;

 

3. 数据仓库数据模型与业务系统数据模型设计的区别:

dw4. 数据仓库数据模型设计的先后次序

  • 概念模型设计(业务模型):界定系统边界;确定主要的主题域及其内容;
  • 逻辑模型设计:维度建模方法(事实表、维度表);以星型和雪花型来组织数据;
  • 物理模型设计:将数据仓库的逻辑模型物理化到数据库的过程;

二、关于维度模型和关系模型

dw

关系建模又叫ER建模,是数据仓库之父Inmon推崇的,其从全企业的高度设计一个3NF模型的方法,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF,其是站在企业角度进行面向主题的抽象,而不是针对某个具体业务流程的,它更多是面向数据的整合和一致性治理,正如Inmon所希望达到的“single version of the truth”。

dw

维度模型则是数据仓库领域另一位大师Ralph Kimball 所倡导的。维度建模以分析决策的需求为出发点构建模型,一般有较好的大规模复杂查询的响应性能,更直接面向业务,典型的代表是我们比较熟知的星形模型,以及在一些特殊场景下适用的雪花模型。

dw

两者的主要区别在于灵活性和性能方面。

dw

 

另外,关系模型要求数据以最细粒度存在,而多维模型则以轻粒度汇总数据存在。

(记得十年前,某大型保险公司实施EDW项目,采用的就是关系模型,由IBM专门的团队负责建模,好家伙)。

在我看来,如果不是实施业务相对成熟的EDW,大多数据仓库均会采用维度模型建模;

三、互联网数据仓库数据模型

1. 互联网数据仓库的现实状况

dw2. 我们的模型方法选择

dw

在我们的数据仓库中,除了各个主题域下的维度模型,还存在一些宽表模型。所谓宽表模型,是基于维度模型的扩展,采用退化维度的方式,将不同维度的度量放入数据表的不同的列中;它更易于理解,具有更高的查询效率;易于模型扩展;

dw

事实证明,在海量数据环境下,对业务查询的支撑,宽表在性能和易用性方面,都达到了比较理想的效果。

标签:模型,数据仓库,建模,维度,设计,数据模型
From: https://www.cnblogs.com/yaoyangding/p/17131887.html

相关文章

  • 数据仓库建模
    一、建模方法论数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你在更高的维度去看的话,所有的划分都是为了更好的管理。1.访问性能 能够快速查询......
  • 传统数据仓库的挑战
    传统数据仓库的挑战1.扩展性差。如果要扩展存储能力,不能像hadoop那样增加节点的方式,只能单纯增加内存;如果要扩展计算能力,也不能像hadoop那样增加节点的方式,只能单纯提升CP......
  • 开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-下
    @目录使用注意连接条件限制维度限制度量限制查询引擎SparderHDFS存储信息查询参数查询下压配置Cube构建优化使用衍生维度(deriveddimension)使用聚合组(Aggregationgroup)Ro......
  • 开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-上
    @目录概述定义特性术语技术概念架构和组件生态圈部署Docker部署基于hadoop环境安装前置条件安装使用步骤官方样例Cube说明示例演示准备演示数据创建项目选择数据源创建Mode......
  • 云数据仓库比较:Redshift、Snowflake、OushuDB、AnalyticDB
    数据已成为企业的命脉,数据仓库是数据驱动和智能化升级必不可少的一部分。企业用户选择和搭建数据仓库之前,非常有必要了解数据仓库之间的差异。今天,我们比较一下普通用户都关......
  • 数据仓库学习
    一、数据采集&ODS1、没有时间字段的表(如:库存表),可以使用镜像采集,采集每一天的数据。2、有时间字段的表: (1)如果有修改时间字段,我们可能需要考虑他的修改时间,可以使用他的......
  • 数据仓库、数据湖、湖仓一体,究竟有什么区别
    数据,已经成为了企业的生命线与核心资产,数据管理和数据分析成为非常重要的应用领域。出于对数据管理领域的关注,不同行业也逐步提升了对数据存储、数据治理及数据分析能力的......
  • 一文详解,数据仓库、数据库、数据中台、数据湖的区别
    数据时代,各行业的企业都已经开始通过数据库来沉淀数据,但是真的论起数据库、数据仓库、数据中台,还是新出现的数据湖,它们的概念和区别,可能知道的人就比较少了,今天我们详细来......
  • 《商务智能 管理视角》——(三)数据仓库(2)
    1.数据集成数据集成包括3个重要阶段,一旦数据集成成功,数据和ETL、分析工具和数据仓库环境均可被访问。这3个阶段分别是:数据访问,也就是从数据源中访问和提取数据的能力;数据合......
  • 《商务智能 管理视角》——(二)数据仓库(1)
    1.数据仓库的定义和概念实时数据仓库(Real-timeDataWarehousing,RDW)、决策支持系统(DecisionSupportSystem,DSS)以及商务智能技术综合运用是一种重要的梳理业务流程的手段。......