这是一份早期传统行业时代的数据仓库与多维模型的设计内容,对于初学者还是有参考与学习价值。
备注:该文档是在早期广州菲奈特(之前在数据仓库非常有名)一个培训ppt
关于数据仓库的部分发展背景·
数据仓库概念最早可追溯到 20 世纪 70 年代,MIT 的研究员致力于研究一种优化的技术架构,该架构试图‘将业务处理系统和分析系统分开’,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则,MIT 的研究员认为这两种信息处理的方式具有显著差别,以至于必须采取完全不同的架构和设计方法。但受限于当时的信息处理能力,这个研究仅仅停留在理论层面。
探索阶段:
20 世纪 80 年代中后期,DEC 公司结合 MIT 的研究结论,建立了 TA2(Technical Architecture2)规范,该规范定义了分析系统的四个组成部分:数据获取、数据访问、目录和用户服务。这是系统架构的一次重大转变,第一次明确提出分析系统架构并将其运用于实践。
全企业集成阶段:
IBM 公司在处理信息管理不同方面的问题时发现其最烦人的问题是不断增加的信息孤岛。因此 1988 年,为解决全企业集成问题,第一次提出了信息仓库(InformationWarehouse)的概念,将其定义为:一个结构化的环境,能支持最终用户管理其全部的业务,并在 1991 年在 DEC TA2 的基础之上把信息仓库的概念包含进去,称之为 VITAL 规范(VirtuallyIntegrated Technical Architecture Lifecycle)。VITAL 定义了 85 种信息仓库组件,包括 PC、图形化界面、面向对象的组件以及局域网等。至此,数据仓库的基本原理、技术架构以及分析系统的主要原则都已确定,数据仓库初具雏形。
1988 年到 1991 年之间,一些前沿的公司已经开始建立数据仓库。
确立阶段:
1991 年 Bill Inmon 出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。该书指出,数据仓库(DataWarehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策(Decision-Making Support)。该书还提供了建立数据仓库的指导意见和基本原则。凭借着这本书,Bill Inmon 被称为数据仓库之父。
数据集市:
1994 年前后,实施数据仓库的公司大都以失败告终,导致数据集市的概念被提出并大范围运用,其代表人物是 Ralph Kimball。由于数据集市仅仅是数据仓库的某一部分,实施难度大大降低,并且能够满足公司内部部分业务部门的迫切需求,在初期获得了较大成功。
争吵与混乱:
随着数据集市的不断增多,这种架构的缺陷也逐步显现。公司内部独立建设的数据集市由于遵循不同的标准和建设原则,以致多个数据集市的数据混乱和不一致。为保证数据的准确性和实时性,有的甚至可以由 OLTP 系统直接修改数据集市里面的数据,为了保证系统的性能有的数据集市甚至删除了历史数据。这其中也导致了一些新的应用的出现,例如 ODS。直至此时,人们对数据仓库、数据集市、ODS 的概念还是非常模糊,经常混为一谈。
合并:
经过长时间的争吵,解决问题的方法只能是回归到数据仓库最初的基本建设原则上来。1998 年,Inmon 提出了新的 BI 架构 CIF(CorporationInformation Factory,企业信息工厂),新架构在不同架构层次上采用不同的构件来满足不同的业务需求。CIF 的核心思想是把整个架构分成不同的层次以满足不同的需求,把 DW、DM、ODS 进行详细的描述。现在 CIF 已经成为数据仓库的框架指南。
在国内数据仓库领域,inmon 和 kimball 的理论也一度争论不休,但是随着数据仓库建设的逐步深化,把企业数据仓库作为企业数据整合平台的思路深得人心,越来越多的企业开始强调在企业内部建立一个企业级别的数据仓库来支持整个企业的发展和运作。
在历史主要大事件列表中提到了两位经典代表人物,Bill Innmon、Ralph kilmball。这两位在数据界可以大名鼎鼎的元祖级别人物,他俩的在上个世纪 90 年代提出的两派思想一直影响到今天的数据平台、数据中台中的数据模型的一些设计。我们先来大概看一下这两位元祖级人物的背景:
Bill Inmon,被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾 35 年的经验。他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。
比尔·恩门的思想与见识在所有重量级的计算机协会、许多产业会议、技术研讨会上,都博得了无比的敬重。他写过 650 多篇文章,大多发布在世界最知名的 IT 刊物里,DMReview 杂志每期都有恩门先生的专栏文章,他写了 46 本书籍,最著名的要数“Building the Data Warehouse”(《建立数据仓库》),这本数据仓库精典读物倍受读者喜爱,一而再在而三地升级出版发行,到目前已经是第三版本,发行量达 50 多万册。也正是这本《建立数据仓库》为恩门赢得“数据仓库之父”的殊荣,国内机械工业出版社也分别将第 2 第 3 版本引进翻译,恩门先生的著作也一直是亚马逊电子商务网站的畅销书,都深受广大数据仓库技术读者喜欢。同时恩门又是最知名的数据仓库咨询顾问专家,他为许多名列《财富》1000 排行榜的公司提供过数据仓库设计和数据库管理方面的咨询服务。恩门这些年还创立过公司办过网上教育,1995 创建了 Ambeo 公司。
Ralph Kimball 是数据仓库和商务智能领域的权威专家。作为一名最早的数据仓库架构师,他长期以来一直坚信数据仓库的设计必须遵循易于理解和快速反应的准则。他创立的维度建模方法论(或 Kimball 方法论)已经成为决策支持领域的金科玉律。相较于数据仓库的其他领先架构(Bill Inmon 的架构),Kimball 的方法被归类为自底向上的方法。
Ralph Kimball 博士自 1982 年以来一直是数据仓库行业最主要的开拓者,并且是目前最知名的演讲人、咨询师与培训员之一。他是《智能企业(Intelligent Enterprise)》杂志“数据仓库设计者(Data Warehouse Designer)”专栏的撰稿人,同时也是最畅销的《数据仓库生命周期工具箱(The Data Warehouse Lifecycle Toolkit)》与《数据仓库工具箱(The Data Warehouse Toolkit)》两部著作的作者。同时他被列入数据库名人堂(Database Hall of Fame)。
自 1972 年获得斯坦福大学电子工程(人机系统方向)博士学位后,Ralph 就加入施乐帕洛阿尔托研究中心(PARC)。在 PARC,Ralph 参加了 Xerox Star 工作站的开发。这是第一个完整地集成了桌面和应用程序以及图形界面的操作系统。
之后 Kimball 出任 Metaphor Computer Systems 公司的应用程序部门副主席,并在 1982 年开发出了 Capsule Facility。Metaphor 公司是一家决策支持软件和服务的提供商。Capsule 通过在逻辑工作流中连接图标的方式提供了一项基于图形编程的技术。该技术使非编程人员可以以一种可视化的方式进行编程。Capsule 被 Metaphor 用于构建报表和分析方面的应用。
1986 年,Kimball 成立了红砖系统(Red Brick System),并出任 CEO,直到 1992 年公司被 Informix 收购。Informix 如今是 IBM 旗下的公司。Red Brick 以最优化数据仓库的关系型数据库而闻名。他们出名的原因是使用索引来获得比当时其他供应商的数据库高出将近 10 倍的效率。
1992 年成立的 Ralph Kimball Associates 提供数据仓库的咨询和教育。
。
------------------我是分割线-------------------
目录结构主
多维模型与数据仓库概述
设计数据仓库
设计模型