首页 > 其他分享 >数据仓库建设方法论

数据仓库建设方法论

时间:2023-07-05 11:23:31浏览次数:54  
标签:数仓 方法论 模型 数据仓库 建模 建设 维度 数据

数据仓库建设方法论

了解决多数据源导致的口径不一致、数据无关联、数据质量差、缺少历史数据、开发效率低等问题,企业需要构建企业级数据仓库,对数据进行规整和高效利用。除此以外,由于直连业务系统支撑多方报表导致读写交叉性能降低,影响正常业务系统使用的问题也可解决。

构建企业级数据仓库的步骤分为调研数仓设计数仓实施测试上线四个主要环节。

 

一、 需求调研

调研前期,需要明确本次项目在此阶段成功的要素,其次是划分责任矩阵,收集相关资料并制定合适的调研策略。与用户需求相关的信息应该足够的详细。最终要交付给最终用户项目计划及需求说明,需要的情况下需要制定灾备计划,以便数据仓库可以从事故中恢复。

调研执行分为四步骤:

(1)对本次项目的目标,整体平台的范围和当前IT的技术架构进行调研与整理;

(2)针对本期项目涉及业务部门进行单独访谈,明确指标,确认口径,梳理前端样式与功能并确定相应的数据标准;

(3)可根据上一轮调研结果所设计的蓝图进行确认和修改并在数据侧对底层数据进行探源;

(4)将调研结果与方案蓝图进行最终的多方确认并审核签字。

这一阶段的交付物为系统蓝图框架与当前数据基础和质量情况表等,具体的执行过程见下图:

 

 

二、 数仓设计

数仓构建的核心工作是分层及建模,分层架构设计是为应用数据资源采集、存储、处理和交换提供建设性依据,而数据模型将决定数据仓库系统的增长性和性能,数仓一般分为 ODS(贴源层)层、DW 层(数据仓储层)、DM 层(数据集市层)三层架构,依据企业实际情况会有所调整,而数仓模型大多采用维度建模和范式建模。

2.1数据分层

每一个数据层都有它的作用域,在使用表的时候能更方便地定位和理解,因此需要针对数据进行分层建设,且数据分层也利于数据血缘追踪、屏蔽原始数据的异常,通过开发一些中间层,还可以起到减少重复开发的作用。

 

2.2数仓建模流程

数仓模型的设计,按照概念模型(主题域模型)——逻辑模型——物理模型的流程进行,逻辑模型和物理模型通常采用维度建模的办法,以星型和雪花型模型来组织数据,维度建模的两个基本元素是事实表和维度表。而维度建模也分为确定业务主题、定义粒度、确定维度和确认事实表四个步骤。该阶段的交付物为针对数据源的概念模型、逻辑模型和物理模型。

 

 

三、 数仓实施开发—ETL

ETL过程常常需要最长的项目时长,可能会占用数仓开发的50%及以上,因为获取源数据、理解业务规则、逻辑和物理数据模型需要花费大量时间。ETL 通过从源系统数据库实时同步数据至数据仓库贴源层,基础层、通用层、应用层基于贴源层的增量数据以实时指标加工的规则进行定时(T+1 天)加工处理。

 

四、 测试上线及规范建设

4.1测试上线

测试上线的主要目的是为了测试当前数仓开发完毕后数据是否准确,数据相应的速度是否及时,包括 ETL 任务的各环节是否出现异常等,测试完毕通过业务确认后即可上线。

4.2数据规范

数仓建设的规范是为了后续开发人员可以遵从规范,培养良好的习惯,也可以提升数仓开发的可维护性,便于用户的沟通及交流。数据规范的内容包括数仓设计规范、命名规范、ETL 规范、报表规范等,数据规范建设为后续的数据治理及数据资产的管理建立了良好的基础。

 

 

原文链接:这可能是全网最全的数据仓库建设方法论! (qq.com)

标签:数仓,方法论,模型,数据仓库,建模,建设,维度,数据
From: https://www.cnblogs.com/hole/p/17528033.html

相关文章

  • 数据仓库时实践
    数据仓库建设近年来,随着银行业务日益发展、监管要求不断深化,银行逐步将数据分析、数据应用、数据挖掘作为金融业务发展和管理决策的重要支撑手段,将数据作为行内的核心资产,不断拓展数据应用场景,提升数据资产管理能力。烟囱式系统建设模式会给数据建设带来严重后果,数据标准、数据规......
  • 从GaussDB(DWS)的技术演进,看数据仓库的积淀与新生
    摘要:随着云计算的兴起和渗透,云数仓成为了数仓技术演进的新阶段,并且逐渐成为了众多企业的共同选择。本文分享自华为云社区《从GaussDB(DWS)的技术演进,看数据仓库的积淀与新生》,作者:华为云头条。数据驱动着现代商业的发展今天,无论在制造、零售、物流还是在互联网、金融等行业......
  • 数据仓库MPP架构&分布式架构
    数据仓库MPP架构&分布式架构一、MPP架构1.1MPP架构概述MPP(MassivelyParallelProcessing)架构是一种分布式数据处理技术,能够通过将工作负载分散到多个节点上来提高数据处理性能。与传统的共享架构不同,MPP采用非共享架构(ShareNothing),将单机数据库节点组成集群,每个节点拥有独立......
  • 数据仓库基本概念
    数据仓库基本概念一、数据仓库诞生原因随着互联网的普及,信息技术已经深入到各行各业,并逐步融入到企业的日常运营中。然而,当前企业在信息化建设过程中遇到了一些困境与挑战。1.1历史数据积存过去企业的业务系统往往是在较长时间内建设的,很少进行大面积的改造或者升级,历史数据留......
  • 数据仓库性能测试方法论与工具集
    目录目录目录数据仓库v.s.传统数据库数据仓库性能测试案例性能指标测试方案测试场景测试数据集测试用例性能指标测试脚本工具基准环境准备硬件环境软件环境测试操作步骤Cloudwave执行步骤导入数据集TestCase1.执行13条标准SQL测试语句TestCase2.执行多表联合join拓......
  • 卫星影像地图在工程建设中的应用,附高清影像数据获取方法
    1.引言在工程建设过程中,了解项目区域范围内的现状至关重要。卫星地图具有较高的图像分辨率和详细、准确的地理信息的特点,被广泛应用于工程建设的前期规划设计、施工现场。那么卫星地图在工程建设中都有哪些应用呢? 2.卫星地图在工程建设中的作用2.1地籍调查在前期的拆迁等调......
  • 数据库与数据仓库
    数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。它出于分析性报告和决策支持目的而创建。企业中一般先有数据库,然后有数据仓库,可以没有数据仓库,但是不能没有数据库。数据仓库不是大型的数......
  • PPT| 某车企资产管理系统建设方案P59
    PPT总共有59页,受篇幅有限,有需要PPT的同学关注:智能制造数字化咨询......
  • 方芳:关于建设新农村对中国传统村落的保护、开发与文化传承的研究
     武汉市江夏路桥工程有限公司中央财经大学 经济管理学院       方  芳     15927602711 中国传统村落是中国农村社会的重要组成部分,是中国文化的重要传承场所。但是,随着城市化进程的加快和现代化技术的广泛应用,传统村落面临着严重的冲击和消失的危......
  • 外贸B2C网站建设的关键是什么?
    当下这个竞争激烈的商业环境中,越来越多的企业为了扩大市场和提升销售而建设外贸B2C网站。但是想要建设一个高效、具有竞争力的外贸B2C网站并不容易。那么,外贸B2C网站建设的关键因素是什么?名锐讯动MRT将深入探讨外贸B2C网站建设的关键要素,帮助企业成功建设自己的B2C网站。 1.清晰......