首页 > 其他分享 >数据仓库与多维模型设计

数据仓库与多维模型设计

时间:2022-12-27 11:06:49浏览次数:45  
标签:Kimball 架构 Ralph 模型 数据仓库 集市 多维 数据

这是一份早期传统行业时代的数据仓库与多维模型的设计内容,对于初学者还是有参考与学习价值。

备注:该文档是在早期广州菲奈特(之前在数据仓库非常有名)一个培训ppt

关于数据仓库的部分发展背景·

数据仓库概念最早可追溯到 20 世纪 70 年代,MIT 的研究员致力于研究一种优化的技术架构,该架构试图‘将业务处理系统和分析系统分开’,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则,MIT 的研究员认为这两种信息处理的方式具有显著差别,以至于必须采取完全不同的架构和设计方法。但受限于当时的信息处理能力,这个研究仅仅停留在理论层面。

探索阶段:

20 世纪 80 年代中后期,DEC 公司结合 MIT 的研究结论,建立了 TA2(Technical Architecture2)规范,该规范定义了分析系统的四个组成部分:数据获取、数据访问、目录和用户服务。这是系统架构的一次重大转变,第一次明确提出分析系统架构并将其运用于实践。

全企业集成阶段:

IBM 公司在处理信息管理不同方面的问题时发现其最烦人的问题是不断增加的信息孤岛。因此 1988 年,为解决全企业集成问题,第一次提出了信息仓库(InformationWarehouse)的概念,将其定义为:一个结构化的环境,能支持最终用户管理其全部的业务,并在 1991 年在 DEC TA2 的基础之上把信息仓库的概念包含进去,称之为 VITAL 规范(VirtuallyIntegrated Technical Architecture Lifecycle)。VITAL 定义了 85 种信息仓库组件,包括 PC、图形化界面、面向对象的组件以及局域网等。至此,数据仓库的基本原理、技术架构以及分析系统的主要原则都已确定,数据仓库初具雏形。

1988 年到 1991 年之间,一些前沿的公司已经开始建立数据仓库。

确立阶段:

1991 年 Bill Inmon 出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。该书指出,数据仓库(DataWarehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策(Decision-Making Support)。该书还提供了建立数据仓库的指导意见和基本原则。凭借着这本书,Bill Inmon 被称为数据仓库之父。

数据集市:

1994 年前后,实施数据仓库的公司大都以失败告终,导致数据集市的概念被提出并大范围运用,其代表人物是 Ralph Kimball。由于数据集市仅仅是数据仓库的某一部分,实施难度大大降低,并且能够满足公司内部部分业务部门的迫切需求,在初期获得了较大成功。

争吵与混乱:

随着数据集市的不断增多,这种架构的缺陷也逐步显现。公司内部独立建设的数据集市由于遵循不同的标准和建设原则,以致多个数据集市的数据混乱和不一致。为保证数据的准确性和实时性,有的甚至可以由 OLTP 系统直接修改数据集市里面的数据,为了保证系统的性能有的数据集市甚至删除了历史数据。这其中也导致了一些新的应用的出现,例如 ODS。直至此时,人们对数据仓库、数据集市、ODS 的概念还是非常模糊,经常混为一谈。

合并:

经过长时间的争吵,解决问题的方法只能是回归到数据仓库最初的基本建设原则上来。1998 年,Inmon 提出了新的 BI 架构 CIF(CorporationInformation Factory,企业信息工厂),新架构在不同架构层次上采用不同的构件来满足不同的业务需求。CIF 的核心思想是把整个架构分成不同的层次以满足不同的需求,把 DW、DM、ODS 进行详细的描述。现在 CIF 已经成为数据仓库的框架指南。

在国内数据仓库领域,inmon 和 kimball 的理论也一度争论不休,但是随着数据仓库建设的逐步深化,把企业数据仓库作为企业数据整合平台的思路深得人心,越来越多的企业开始强调在企业内部建立一个企业级别的数据仓库来支持整个企业的发展和运作。

 

 

在历史主要大事件列表中提到了两位经典代表人物,Bill Innmon、Ralph kilmball。这两位在数据界可以大名鼎鼎的元祖级别人物,他俩的在上个世纪 90 年代提出的两派思想一直影响到今天的数据平台、数据中台中的数据模型的一些设计。我们先来大概看一下这两位元祖级人物的背景:

 

Bill Inmon,被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾 35 年的经验。他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。

比尔·恩门的思想与见识在所有重量级的计算机协会、许多产业会议、技术研讨会上,都博得了无比的敬重。他写过 650 多篇文章,大多发布在世界最知名的 IT 刊物里,DMReview 杂志每期都有恩门先生的专栏文章,他写了 46 本书籍,最著名的要数“Building the Data Warehouse”(《建立数据仓库》),这本数据仓库精典读物倍受读者喜爱,一而再在而三地升级出版发行,到目前已经是第三版本,发行量达 50 多万册。也正是这本《建立数据仓库》为恩门赢得“数据仓库之父”的殊荣,国内机械工业出版社也分别将第 2 第 3 版本引进翻译,恩门先生的著作也一直是亚马逊电子商务网站的畅销书,都深受广大数据仓库技术读者喜欢。同时恩门又是最知名的数据仓库咨询顾问专家,他为许多名列《财富》1000 排行榜的公司提供过数据仓库设计和数据库管理方面的咨询服务。恩门这些年还创立过公司办过网上教育,1995 创建了 Ambeo 公司

Ralph Kimball 是数据仓库和商务智能领域的权威专家。作为一名最早的数据仓库架构师,他长期以来一直坚信数据仓库的设计必须遵循易于理解和快速反应的准则。他创立的维度建模方法论(或 Kimball 方法论)已经成为决策支持领域的金科玉律。相较于数据仓库的其他领先架构(Bill Inmon 的架构),Kimball 的方法被归类为自底向上的方法。

Ralph Kimball 博士自 1982 年以来一直是数据仓库行业最主要的开拓者,并且是目前最知名的演讲人、咨询师与培训员之一。他是《智能企业(Intelligent Enterprise)》杂志“数据仓库设计者(Data Warehouse Designer)”专栏的撰稿人,同时也是最畅销的《数据仓库生命周期工具箱(The Data Warehouse Lifecycle Toolkit)》与《数据仓库工具箱(The Data Warehouse Toolkit)》两部著作的作者。同时他被列入数据库名人堂(Database Hall of Fame)。

自 1972 年获得斯坦福大学电子工程(人机系统方向)博士学位后,Ralph 就加入施乐帕洛阿尔托研究中心(PARC)。在 PARC,Ralph 参加了 Xerox Star 工作站的开发。这是第一个完整地集成了桌面和应用程序以及图形界面的操作系统。

之后 Kimball 出任 Metaphor Computer Systems 公司的应用程序部门副主席,并在 1982 年开发出了 Capsule Facility。Metaphor 公司是一家决策支持软件和服务的提供商。Capsule 通过在逻辑工作流中连接图标的方式提供了一项基于图形编程的技术。该技术使非编程人员可以以一种可视化的方式进行编程。Capsule 被 Metaphor 用于构建报表和分析方面的应用。

1986 年,Kimball 成立了红砖系统(Red Brick System),并出任 CEO,直到 1992 年公司被 Informix 收购。Informix 如今是 IBM 旗下的公司。Red Brick 以最优化数据仓库的关系型数据库而闻名。他们出名的原因是使用索引来获得比当时其他供应商的数据库高出将近 10 倍的效率。

1992 年成立的 Ralph Kimball Associates 提供数据仓库的咨询和教育。

------------------我是分割线-------------------

目录结构主

多维模型与数据仓库概述

设计数据仓库

设计模型

 

数据仓库与多维模型设计_Data


数据仓库与多维模型设计_Data_02

数据仓库与多维模型设计_数据集市_03

数据仓库与多维模型设计_Data_04

数据仓库与多维模型设计_数据仓库_05

数据仓库与多维模型设计_Data_06

数据仓库与多维模型设计_数据仓库_07


数据仓库与多维模型设计_Data_08

数据仓库与多维模型设计_数据仓库_09

数据仓库与多维模型设计_数据仓库_10


数据仓库与多维模型设计_数据集市_11


数据仓库与多维模型设计_数据仓库_12

数据仓库与多维模型设计_数据集市_13

数据仓库与多维模型设计_数据仓库_14

数据仓库与多维模型设计_数据仓库_15

数据仓库与多维模型设计_数据集市_16

数据仓库与多维模型设计_Data_17


数据仓库与多维模型设计_数据仓库_18

数据仓库与多维模型设计_Data_19

数据仓库与多维模型设计_Data_20


数据仓库与多维模型设计_Data_21


数据仓库与多维模型设计_数据集市_22

数据仓库与多维模型设计_Data_23

数据仓库与多维模型设计_Data_24

数据仓库与多维模型设计_Data_25





标签:Kimball,架构,Ralph,模型,数据仓库,集市,多维,数据
From: https://blog.51cto.com/u_15923336/5971724

相关文章

  • 一个数据人对领域模型理解与深入
    备注:这一篇是来自在自己写的书某些章节删减,在这里并不对文章中所涉及到内容深入展开。  TOGAFTOGAF对于架构师的职责定义是了解并关注实际上关系重大但未变得过载的一些......
  • 学习下Redis内存模型
    作者:京东零售吴佳前言redis,对于一个java开发工程师来讲,其实算不得什么复杂新奇的技术,但可能也很少人去深入了解学习它的底层的一些东西。下面将通过对内存统计、内存划分、......
  • 财务分析与主要的模型
    财务数据是整个企业数据流转的一个比较靠后的环节, 是对企业经营状况的总结与分析,其主要作用表现在四方面:防范资金运营风险:助力企业防范操作风险、道德风险、决策风险、市......
  • 数据分析师成长体系漫谈 - 数仓模型设计
    备注: 本文是前阿里巴巴数据分析专家-张腾在infoQ账号 analysis-lion序看到标题,可能很多小伙伴都会疑惑,为什么笔者把数仓模型设计也纳入了数据分析师的成长体系之中,因为可......
  • OpenHarmony使用Stage模型和FA模型开发分布式应用时的差别
    前言笔者这两个月一直在折腾分布式应用,并且分别基于API8的FA模型以及API9的Stage模型进行了开发,这两天总算是基本开发完了,闲下来总结下这两者的区别,顺便跟大家唠唠开发时踩......
  • Redis网络模型究竟有多强
    如果面试官问我:Redis为什么这么快?我肯定会说:因为Redis是内存数据库!如果不是直接把数据放在内存里,甭管怎么优化数据结构、设计怎样的网络I/O模型,都不可能达到如今这般的执......
  • Matlab·学习 | (一)太阳系模型
    ​目录前言:效果图如下:Matlab代码:1.主文件:2.相对公转绘制:3.移动轨迹绘制:4.个体主体绘制总结:前言:个人学习内容分享:太阳系模型:初学matlab的绘图学习案例。想要......
  • EA构建静态、动态模型图
    文章目录​​一.活动图(流程图)​​​​1.建立活动图​​​​2.添加泳道​​​​3.简述活动图构建模型过程​​​​4.事件泳道活动图​​​​5.行为建模​​​​(1).类......
  • 常见的优先级选择模型 - 波士顿矩阵(对用户和公司价值判断)
    波斯顿矩阵是由波士顿咨询公司发明的一种方法,最早用于分析市场增长率和市场份额。现在也被经常用于对需求的分析之中。波士顿矩阵波士顿矩阵由用户价值维度和公司价值两......
  • 强化学习如何保存模型?
    保存模的关键在于知道决定模型的东西是什么?框架和参数,有了框架保存参数,没有框架,全部保存。模型保存模型保存本质上是保存训练好的参数,便于重复利用模型,随时可以调用。......