数据仓库(DW):是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现的存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析,辅助领导做决策。在数据库已经大量存在的情况下,它是一整套包括了ETL、调度、建模在内的完整的理论体系。
数据仓库的方案建设的目的,是为了前端查询和分析作为基础,主要应用于OLAP,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括:清洗、转义、分类、重组、合并、拆分、统计等。
为何要分层
为了解决我们可能面临的问题,需要一套行之有效的数据组织、管理和处理方法,来让我们的数据体系更加有序,这就是数据分层。
数据运营层(ODS):数据准备区,也称为贴源层。数据源中的数据,经过抽取、洗净、传输,也就是ETL过程之后进入本层。
为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,这层的数据是后续数据仓库加工数据的来源。
数据应用层(ADS):该层主要是提供给数据产品和数据分析使用的数据,一般会存放在ES、Redis、PostgreSql等系统中供线上系统使用;也可能存放在hive或者Druid中,供数据分析和数据挖掘使用,比如常用的数据报表就是存在这里的。
标签:数据分析,数据库,数据仓库,数据挖掘,数据,ETL From: https://www.cnblogs.com/xiao-wang-tong-xue/p/16610952.html