首页 > 其他分享 >数据仓库基本概念

数据仓库基本概念

时间:2024-01-23 11:22:44浏览次数:25  
标签:Data 数据仓库 事实 粒度 维度 数据 基本概念

什么是数据仓库?
数据仓库,英文名称为Data Warehouse,数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。 ——比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)

数据仓库的特点
主题性:数据仓库是针对某个主题来进行组织,比如滴滴出行,司机行为分析就是一个主题,所以可以将多种不同的数据源进行整合。而传统的数据库主要针对某个项目而言,数据相对分散和孤立。
集成性:数据仓库需要将多个数据源的数据存到一起,但是这些数据以前的存储方式不同,所以需要经过抽取、清洗、转换的过程
稳定性:保存的数据是一系列历史快照,不允许修改,只能分析。
时变性:会定期接收到新的数据,反应出最新的数据变化。
数据仓库架构

DB:源系统数据库,如mysql、oracle、mongodb等数据库
ETL: 抽取(extract)、交互转换(transform)、加载(load)的过程。实现方式可以是编写程序或kettle等工具
ODS(Operation Data Store):操作型数据仓库。存储各大业务型数据库ETL后的数据,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理,目的是数据集中。
DW(Data Warehouse):即数据仓库。
DM(Data Mart):数据集市层。以具体某个业务应用为出发点而建设的局部dw,dw只关心自己需要的数据,不会全盘考虑企业整体的数据架构和应用。
OLAP和OLTP的区别
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

OLTP 系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作;
OLAP 系统则强调数据分析,强调SQL执行市场,强调磁盘I/O,强调分区等

其他概念
事实:是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。每个事实包括关于事实(销售额,销售量,成本,毛利,毛利率等)的基本信息,并且与维度相关。在某些情况下,当所有的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。

数据仓库中都会包括一个或多个事实数据表,包含在事实表中的“度量值”有两种,一种是可以累计的度量值,另一种是非累计的度量值。

从用途的不同来说,事实表可以分为三类,分别是事务事实、周期快照、累计快照。

维度:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维,通常有日期、地区等维度。

切片:一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。

切块:一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。

星型模式:是数据仓库应用程序的最佳设计模式。它的命名是因其在物理上表现为中心实体,典型内容包括指标数据、辐射数据,通常是有助于浏览和聚集指标数据的维度。星形图模型得到的结果常常是查询式数据结构,能够为快速响应用户的查询要求提供最优的数据结构。星形图还常常产生一种包含维度数据和指标数据的两层模型。

雪花模式:指一种扩展的星形图。星形图通常生成一个两层结构,即只有维度和指标,雪花图生成了附加层。实际数据仓库系统建设过程中,通常只扩展三层:维度(维度实体)、指标(指标实体)和相关的描述数据(类目细节实体);超过三层的雪花图模型在数据仓库系统中应该避免。因为它们开始像更倾向于支持OLTP 应用程序的规格化结构,而不是为数据仓库和OLAP应用程序而优化的非格式化结构。

粒度:粒度将直接决定所构建仓库系统能够提供决策支持的细节级别。粒度越高表示仓库中的数据较粗,反之,较细。粒度是与具体指标相关的,具体表现在描述此指标的某些可分层次维的维值上。例如,时间维度,时间可以分成年、季、月、周、日等。

数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响。事实表中以各种维度的什么层次作为最细粒度,将决定存储的数据能否满足信息分析的功能需求,而粒度的层次划分、以及聚合表中粒度的选择将直接影响查询的响应时间。

度量值:在多维数据集中,度量值是一组值,这些值基于多维数据集的事实数据表中的一列,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。即,度量值是最终用户浏览多维数据集时重点查看的数字数据(如销售、毛利、成本)。
————————————————
版权声明:本文为CSDN博主「LPL.」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_36190755/article/details/108863704

标签:Data,数据仓库,事实,粒度,维度,数据,基本概念
From: https://www.cnblogs.com/Codebee-club/p/17981933

相关文章

  • 等保基本概念
    等级保护指对国家重要信息、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信息系统分等级实行安全保护,对信息系统中使用的信息安全产品实行按等级管理,对信息系统中发生的信息安全事件分等级响应、处置。我国实行网络安全等级保护制度,等级保护对象分为......
  • 嵌入式操作系统的一些基本概念
    1、前后台系统一些对实时性要求不那么严格的基于芯片的开发会采用前后台系统架构来进行开发,前后台系统前台由中断构成,后台由一个顺序处理任务的无限循环构成。//中断服务程序voidkeyHandle();voiduartHandle();//主函数intmain(intargc,char**argv){BSP......
  • (五):ElasticSearch基本概念
    1、ElasticSearchElasticsearch是面向文档(documentoriented)的,这意味着它可以存储整个对象或文档(document)。然而它不仅仅是存储,还会索引(index)每个文档的内容使之可以被搜索。在Elasticsearch中,你可以对文档(而非成行成列的数据)进行索引、搜索、排序、过滤。Elasticsearc......
  • 构建高效数据生态:数据库、数据仓库、数据湖、大数据平台与数据中台解析_光点科技
    在数字化的浪潮中,一套高效的数据管理系统是企业竞争力的核心。从传统的数据库到现代的数据中台,每一种技术都在数据的旅程中扮演着关键角色。本文将深入探讨数据库、数据仓库、数据湖、大数据平台以及数据中台的功能和价值,帮助您构建一个符合自身业务需求的高效数据生态系统。数据库......
  • 2024/1/16 数据仓库dwd层
    DWD层,以业务过程为建模驱动,基于每个具体业务过程的特点,构建最细粒度的明细层事实表。事实表可做适当的宽表化处理。 时间用户地区商品优惠券活动度量值订单√√√   运费/优惠金额/原始金额/最终金额订单详情√......
  • 2.1数列极限的基本概念
    (1)因\(\left|\dfrac{3n^2}{n^2-4}-3\right|=\left|\dfrac{3n^2}{n^2-4}\right|<\dfrac{1}{n-4}<\varepsilon\),从而\(\forall\varepsilon>0\),取\(N=\left[4+\dfrac{1}{\varepsilon}\right]\),当\(n>N\)时,有\(\left|\dfrac{3n^2}{n^2-4}-3......
  • MFC---多线程(基本概念和线程同步之互斥对象)
    基本概念引入一个题目:Bingo老师提了一个需求:打印每隔3秒叫martin老师做一次俯卧撑持续20次每隔1秒钟叫rock老师甩头发持续50次每隔2秒钟叫西西老师唱歌持续40次线程(CPU调度和分派的基本单位)线程是在进程中产生的一个执行单元,是CPU调度和分配的最小单元,其在同一个进程中与......
  • 「C语言程序设计」程序设计的基本概念
    算法的特性有穷性:算法必须在执行有限的步骤后终止,不会无限循环或进入死循环确定性:算法的每个步骤必须明确定义,没有歧义。相同输入应产生相同的输出可执行性:算法中的每个步骤都必须能够被执行,不会包含无法实现的操作有零个或多个输入:算法可以接受零个或多个输入参数,这些参数是......
  • 《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念
    ......
  • 深度学习的基本概念:从线性回归到卷积神经网络
    1.背景介绍深度学习是一种人工智能技术,它旨在模拟人类大脑中的神经网络,以解决复杂的问题。深度学习的核心思想是通过多层次的神经网络来学习数据的复杂关系,从而实现自主学习和决策。深度学习的发展历程可以分为以下几个阶段:1980年代:人工神经网络的基础研究,主要关注神经网络的结构和......