首页 > 其他分享 >数仓(一)数仓概述

数仓(一)数仓概述

时间:2024-05-06 17:57:12浏览次数:38  
标签:数仓 数据库 数据仓库 业务 采集 概述 数据

前几次内容分享,我们一共做了三件事:

1.逐步搭建了传统hadoop大数据平台包括zookeeper、kafka、flume集群

2.采集前端埋点到hdfs

3.采集业务数据到hdfs

这样数据都采集到HDFS上了,其实就是到了数仓了!

 

数据采集请看以下链接:


前端埋点数据采集系列

一、采集系统架构设计

二、mock应用系统10万条前端埋点数据

三、Flume采集数据

四、Flume消费Kafka数据到HDFS

五. 前端埋点数据采集总结
业务系统数据采集系列
一、整体架构设计以及MySQL安装配置

二、业务表建模以及mock业务数据生成

三、简析数据同步策略

四、Sqoop安装配置以及采集数据到HDFS

五、业务数据采集总结

 

一、数仓定义

 

按照传统的定义,数据仓库是一个面向主题的、集成的、非易失的、反映历史变化(随时间变化),用来支持管理人员决策的数据集合。数据仓库是一套数据组织和应用的方法论,是需要很多的支持系统来协助(包含类似数据库这样的存储系统),最后达到支持分析决策的目的。

1、面向主题

  • 关系型数据库

面向事务处理任务,用于记录状态。

  • 数仓

数仓中的数据是按照一定的主题域进行组织,主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。每一个主题基本对应一个宏观的分析领域。

比如:银行的数据仓库的主题:客户

 2、集成

  • 关系型数据库

数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的

  • 数仓

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的。必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 3、非易失即相对稳定的

  • 关系型数据库

数据通常实时更新,数据根据需要及时发生变化。

  • 数仓

数据仓库中包括了大量的历史数据。所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4、随时间变化即反映历史变化

  • 关系型数据库

数据主要关心当前某一个时间段内的数据

  • 数仓

数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。5、用来支持管理人员决策的数据集合

  • 关系型数据库

数据库只关注当前时间数据,无法支持管理人员决策。

  • 数仓

系统记录了企业历史数据,可以对企业的发展历程和未来趋势做出定量分析和预测。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。供他们做出改善其业务经营的决策而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。



二、建设数仓的目的

 

数仓的建设并不是数据存储的最终目的地,而是为数据最终的目的地做好准备:清洗、转义、分类、重组、合并、拆分、统计等等。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制、成本、提高产品质量等。

1、理清数据资产提高排查和开发运维效率

场景:

  • 不知道有什么数据、找谁要数据;

  • 多个系统不同的数据字段的含义

  • 数据如何生成和更新的,数据依赖关系割裂;

2、提高数据质量

场景

  • 字段命名不规范、口径不一致;

  • 条件的过滤和规则等的理解差异带来的算法不一致;

3、数据解耦

场景

  • 上下游依赖混乱

  • 复杂问题耦合在一起

  • 每次从原始数据取数,数据开发周期长

  • 业务数据轻微改动带来的变更过大,无中间表加工

4、解决频繁的临时性需求

场景

  • 报送监管历史数据

  • 临时数据需要交叉

虽然数仓建设能带来诸多的益处,但数仓的建设不是一天建成的,是一个庞大复杂耗时的工程,需要很多支持系统的配合:元数据管理系统、调度系统等,要根据业务发展所处的状态和未来的发展趋势以及分析决策的复杂性等综合来搭建。

 


总结:

    1. 了解数仓的特点;

    2. 了解建设数仓的目的意义,能解决什么问题等

 

标签:数仓,数据库,数据仓库,业务,采集,概述,数据
From: https://www.cnblogs.com/yayuya/p/18175524

相关文章

  • C#.NET体系图文概述—2024最全总结
    C#是一种简单、现代、面向对象和类型安全的编程语言。。.NET是由Microsoft创建的开发平台,平台包含了语言规范、工具、运行,支持开发各种应用,如Web、移动、桌面等。.NET框架有多个实现,如.NETFramework、.NETCore(及后续的.NET5+版本),以及社区版本Mono。除此以外,C#.NET体系还......
  • LeakSanitizer概述与使用指南
    左手编程,右手年华。大家好,我是一点,关注我,带你走入编程的世界。公众号:一点sir,关注领取编程资料什么是LeakSanitizer?LeakSanitizer是一个强大的内存泄漏检测工具,主要用于C/C++程序的内存泄漏问题诊断。它通过在程序运行时监控动态内存分配和释放的行为,帮助开发者快速定位和解决......
  • 爬虫概述
    一、什么是爬虫爬虫(Crawler)是一种按照既定规则,在网络上自动爬取信息的程序或脚本。也称为网际网路蜘蛛(InternetSpider)或网络机器人(WebRobot)。爬虫可以自动抓取网络信息,主要用于网站数据采集、内容监测等。二、爬虫能做什么1、搜索引擎搜索引擎利用爬虫发现网络上的......
  • openGauss 统一审计策略概述
    统一审计策略概述背景信息传统审计会产生大量的审计日志,且不支持定制化的访问对象和访问来源配置,不方便数据库安全管理员对审计日志的分析。而统一审计策略支持绑定资源标签、配置数据来源输出审计日志,可以提升安全管理员对数据库监控的效率。详情查看:https://opengauss.org详......
  • openGauss 审计概述
    审计概述背景信息数据库安全对数据库系统来说至关重要。openGauss将用户对数据库的所有操作写入审计日志。数据库安全管理员可以利用这些日志信息,重现导致数据库现状的一系列事件,找出非法操作的用户、时间和内容等。关于审计功能,用户需要了解以下几点内容:审计总开关audit_ena......
  • openGauss MOT使用概述
    MOT使用概述MOT作为openGauss的一部分自动部署。有关如何计算和规划所需的内存和存储资源以维持工作负载的说明,请参阅MOT准备。参考MOT部署了解MOT中所有的配置,以及服务器优化的非必须选项。使用MOT的方法非常简单。MOT命令的语法与基于磁盘的表的语法相同,并支持大多数标准,如Pos......
  • 数仓分层
     基于阿里巴巴OneData方法论最佳实践,在阿里巴巴的数据体系中,建议将数据仓库分为三层:数据引入层(ODS,OperationalDataStore)、数据公共层(CDM,CommonDimensionsModel)和数据应用层(ADS,ApplicationDataStore)。数据仓库自顶向下的分层和各层用途如下图所示。数据引入层(ODS,Operat......
  • 数仓(十八)数仓建模以及分层总结(ODS、DIM、DWD、DWS、DWT、ADS层)
    通过前面内容分享,我们讲解了数仓建模的概念、理论、OLTP、OLAP、以及ODS、DIM、DWD、DWS、DWT、ADS层简单搭建。涉及的内容非常多,这节我们捋一捋数仓建模的步骤、以及数仓分层思路、五层每层的设计、处理、加载等总结一下。一、建模步骤 1、关于数仓的建模有两种基本的模型:......
  • 操作系统】试题真题库第1章操作系统概述
    操作系统】第1章操作系统概述——单选题原创2023-09-2220:57:59阅读量145英伟达GR00TW星星S 码龄1年 关注一.单选题1.在计算机系统中配置操作系统的主要目的是(B).A.增强计算机系统的功能B.提高系统资源的利用率C.提高系统的运行速度D.合理组织系......
  • OLAP开源引擎对比之历史概述
    前言OLAP概念诞生于1993年,工具则出现在更早以前,有史可查的第一款OLAP工具是1975年问世的Express,后来走进千家万户的Excel也可归为此类,所以虽然很多数据人可能没听过OLAP,但完全没打过交道的应该很少。这个概念主要是在大数据圈里流传,而在大数据领域里,目前主流的OLAP开源引擎都诞......