什么是数据仓库?
数据仓库是面向主题的,集成的,随时间变化的,非易失的集合。
数据仓库的模型---星型模型
事实表连接着多个维度表,是单维度的每个维度上不存在再连接维度表了
特点: 不存在渐变维度,非正规化,有冗余数据,查询效率比较高
数据仓库的模型-- 雪花模型
多个维度表连接着事实表且每个维度表上会连接至少一个维度表
特点: 正规化,数据冗余少,规范化操作复杂,会导致设计以及后期维护复杂,
有些数据需要连接才能获取,效率变低
维度表的设计方法(重点)
选择维度 -> 确定主维表 -> 梳理维度关系 -> 定义维度属性
事实表的设计流程
选择业务 -> 声明粒度 -> 确定维度 -> 确定事实 -> 冗余维度
事实表的设计原则
事务事实表:
描述的业务的过程,跟踪空间或者时间上某一点的度量事件保存的是最原子的数据。
每行记录实体的一个事务(如:下单流水,支付流水)
周期快照事实表:
具有规律性的,可预见的时间间隔,产生快照每行代表某一个时间周期的一个实体
记录的事实是 时间周期内的聚集事实值(如库存快照表)
累计快照事实表:
描述的业务的过程,跟踪空间或者时间上某一点的度量事件保存的是最原子的数据。
每行记录实体的一个事务
标签:快照,数据仓库,连接,维度,事实,冗余 From: https://www.cnblogs.com/wangxiaojian-lina/p/18546671