首页 > 其他分享 >数据仓库

数据仓库

时间:2022-08-21 21:49:00浏览次数:58  
标签:数据分析 数据库 数据仓库 数据挖掘 数据 ETL

数据仓库(DW):是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现的存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析,辅助领导做决策。在数据库已经大量存在的情况下,它是一整套包括了ETL、调度、建模在内的完整的理论体系。

 

数据仓库的方案建设的目的,是为了前端查询和分析作为基础,主要应用于OLAP,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

 

数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括:清洗、转义、分类、重组、合并、拆分、统计等。

 

 

 

 

为何要分层

   为了解决我们可能面临的问题,需要一套行之有效的数据组织、管理和处理方法,来让我们的数据体系更加有序,这就是数据分层。

 

 

 

 

 

 数据运营层(ODS):数据准备区,也称为贴源层。数据源中的数据,经过抽取、洗净、传输,也就是ETL过程之后进入本层。

 

 为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,这层的数据是后续数据仓库加工数据的来源。

 

 

 

 

数据应用层(ADS):该层主要是提供给数据产品和数据分析使用的数据,一般会存放在ES、Redis、PostgreSql等系统中供线上系统使用;也可能存放在hive或者Druid中,供数据分析和数据挖掘使用,比如常用的数据报表就是存在这里的。

 

标签:数据分析,数据库,数据仓库,数据挖掘,数据,ETL
From: https://www.cnblogs.com/xiao-wang-tong-xue/p/16610952.html

相关文章

  • 实时数据仓库==(总结)
    实时数据仓库(总结)1.开源实时数仓和离线数仓的区别API计算引擎离线数据仓库主要使用hivesql和sparksql进行开发实时数据仓库主要是使用flinksql开发数据存储......
  • 3、构建实时数据仓库-ods和dim层构建
    3、构建实时数据仓库项目平台搭建架构及其总体流程1、flink整合hive的catalog因为本项目中的对应kafka中的表都存在hive的元数据库中,所以需要创建一个hive的catalo......