首页 > 其他分享 >Hive学习1(数据仓库及Hive基础学习)

Hive学习1(数据仓库及Hive基础学习)

时间:2023-09-23 09:33:55浏览次数:41  
标签:存储 数据仓库 Hadoop Hive 查询 学习 数据

1.数据仓库

1.1什么是数据仓库

数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。 数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统; 同时数据仓库自身也不“消费”任何的数据,其结果开放给各个外部应用使用;

数据仓库是为了分析数据的。关系型数据库(RDBMS)OLTP(联机事务处理系统)典型应用,比如:Oracle、MySQL、SQL Server等。

1.2数仓四个特征:

  • 面向主题性(Subject-Oriented)
  • 集成性(Integrated)
  • 非易失性、非异变性(Non-Volatile)
  • 时变性(Time-Variant)

 

1.3数仓开发语言:SQL

结构化查询语言(Structured Query Language)简称SQL,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理数据。

2.Apache Hive

2.1Apache Hive是什么,有什么用途

Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。
  • Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行
  • Hive利用HDFS存储数据,利用MapReduce查询分析数据。
优势在于:用户可以专注于编写HQL,Hive帮转换成为MapReduce程序完成对数据的分析   映射信息专业的叫法称之为元数据信息(元数据是指用来描述数据的数据 metadata)

(把元数据信息描述清楚,这里映射是指:文件和表之间的对应关系)

 

2.2Hive架构图及功能

 

  1. 用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行;Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。
  2. 元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
  3. Driver驱动程序:包括语法解析器、计划编译器、优化器、执行器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有执行引擎调用执行。
  4. 执行引擎:Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎。

2.3元数据

元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。 Hive Metadata即Hive的元数据。 元数据存储在关系型数据库中。如hive内置的Derby、或者第三方如MySQL等。   metastore服务配置有3种模式:内嵌模式、本地模式、远程模式

标签:存储,数据仓库,Hadoop,Hive,查询,学习,数据
From: https://www.cnblogs.com/hmy22466/p/17719840.html

相关文章

  • 《动手学深度学习 Pytorch版》 7.6 残差网络(ResNet)
    importtorchfromtorchimportnnfromtorch.nnimportfunctionalasFfromd2limporttorchasd2l7.6.1函数类如果把模型看作一个函数,我们设计的更强大的模型则可以看作范围更大的函数。为了使函数能逐渐靠拢到最优解,应尽量使函数嵌套,以减少不必要的偏移。如下图,更复......
  • Linux学习系列:centos7如何进行图形界面和文本命令行界面切换
    一、场景最近在折腾Centos的安装,一开始是默认为图形界面模式的,登录进去就是类似windows那样的登录框。但是有时候,是希望纯文本界面,不需要那么多花里胡哨的东西。所以希望可以切换到文本命令行模式。本篇博客主要是讲述切换方式。二、环境软件 版本Centos 7三、正文1、临时切换#......
  • 20230922学习总结java连接HBASE
    连接条件:1、所有虚拟机上运行hadoop集群、运行zookeeper进程守护 2、向项目中导入即hbase安装目录下的conf文件夹中的两个文件 3、添加maven依赖<dependencies><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-server</ar......
  • 后缀数组 SA 学习笔记 (一)
    好像有一些图片炸了,慢慢修后缀数组SA学习笔记(一)目录目录后缀数组SA学习笔记(一)目录计数排序CountingSortCode桶排序BucketSort基数排序RadixSortCodeid[]和rk[]后缀数组SuffixArray基础概念计算后缀数组讨论Code讨论KK3299.DescriptionSolutionCode计数排序......
  • Mysql简单的学习记录(上)
    MySql一、DDL(操作数据库、数据表)创建数据库createdatabase数据库名称查询数据库showdatabasescreatedatabaseifnotexists数据库名称删除数据库dropdatabase数据库名称dropdatabaseifexists数据库名称使用数据库selectdatabase......
  • Mysql简单的学习记录(下)
    一、约束概念作用于列上的规则,用于限制加入表的数据保证数据库正确性、有效性、完整性约束的分类约束名称描述关键字非空保证列中所有数据不为nullnotnull唯一保证列中所有数据不相同unique主键主键是一行数据唯一标识,非空且唯一primarykey......
  • 《信息安全系统设计与实现》第三周学习笔记
    一、程序设计语言中的必备要素和技能一门程序设计语言中的必备要素和技能通常包括以下内容:语法:掌握语言的语法规则,包括关键字、标识符、表达式、语句和注释等。数据类型:例如整数、浮点数、字符串、布尔值等。变量和赋值:变量可以存储和操作数据。编写代码需要声明变量、给变......
  • C语言学习-- ~ 按二进制取位 前置后置++ 关系操作符 逻辑操作符
    #include<stdio.h>//~按二进制取位intmain(){inta=10;intb=~a;/*~按二进制取位如101--~=010*/printf("%d\n%d\n",a,b);/*运行a=10b=-11在二进制里的最高位表示符号位,0为正1为负(3=000…………011)源码......
  • python+playwright 学习-83 page.expect_response()捕获网络返回数据
    前言expect_response()方法可以捕获接口返回的数据,在爬取网页数据时非常有用。expect_response()使用官方文档示例withpage.expect_response("https://example.com/resource")asresponse_info:page.get_by_text("triggerresponse").click()response=response_inf......
  • C语言学习-- ~ 按二进制取位 前置后置++ 关系操作符 逻辑操作符
    #include<stdio.h>//~按二进制取位intmain(){inta=10;intb=~a;/*~按二进制取位如101--~=010*/printf("%d\n%d\n",a,b);/*运行a=10b=-11在二进制里的最高位表示符号位,0为正1为负(3=000…………011)源码......