1.数据仓库
1.1什么是数据仓库
数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。 数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统; 同时数据仓库自身也不“消费”任何的数据,其结果开放给各个外部应用使用;数据仓库是为了分析数据的。关系型数据库(RDBMS)是OLTP(联机事务处理系统)典型应用,比如:Oracle、MySQL、SQL Server等。
1.2数仓四个特征:
- 面向主题性(Subject-Oriented)
- 集成性(Integrated)
- 非易失性、非异变性(Non-Volatile)
- 时变性(Time-Variant)
1.3数仓开发语言:SQL
结构化查询语言(Structured Query Language)简称SQL,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理数据。2.Apache Hive
2.1Apache Hive是什么,有什么用途
Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。- Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行
- Hive利用HDFS存储数据,利用MapReduce查询分析数据。
(把元数据信息描述清楚,这里映射是指:文件和表之间的对应关系)
2.2Hive架构图及功能
- 用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行;Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。
- 元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
- Driver驱动程序:包括语法解析器、计划编译器、优化器、执行器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有执行引擎调用执行。
- 执行引擎:Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎。