首页 > 其他分享 >1.hive

1.hive

时间:2024-09-14 09:05:29浏览次数:8  
标签:name 分区 Hive hive TABLE 数据 ###

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,下面是Hive的一些核心知识点:

### 基本概念

1. **Hive Metastore**:存储了Hive中所有表和分区的元数据信息。

2. **HiveQL (HQL)**:Hive查询语言,类似SQL,用于查询存储在Hadoop集群中的大数据。

3. **Warehouse**:Hive中数据实际存储的位置。

### 数据模型

1. **数据库**:在Hive中,数据库是一个命名空间,用于组织表。

2. **表**:表由列(列名、类型和数据)组成。

3. **分区**:表可以根据某些列的值进行分区,每个分区的数据通常存储在不同的目录下。

4. **桶(Bucket)**:表的分桶是将表中的数据基于某些列的哈希值进行划分。

### 数据类型

1. **基本数据类型**:如INT、STRING、FLOAT等。

2. **复杂数据类型**:如STRUCT、MAP、ARRAY。

### HQL语法

1. **创建数据库**:`CREATE DATABASE [IF NOT EXISTS] database_name;`

2. **创建表**:`CREATE TABLE [IF NOT EXISTS] table_name ...`

3. **查询数据**:`SELECT [columns] FROM table_name ...`

4. **插入数据**:`INSERT INTO/OVERWRITE [TABLE] table_name ...`

5. **分区操作**:`ALTER TABLE table_name ADD PARTITION ...`

6. **分桶操作**:`CLUSTER BY` 和 `SORT BY`

### 性能优化

1. **分区裁剪**:查询时只扫描相关的分区。

2. **列裁剪**:只查询需要的列。

3. **MapReduce优化**:如调整mapper和reducer的数量。

4. **使用索引**:提高查询效率。

### 高级特性

1. **窗口函数**:如`ROW_NUMBER()`, `RANK()`, `DENSE_RANK()`

2. **视图**:CREATE VIEW语句用于创建视图。

3. **物化视图**:将视图的数据实际存储起来。

4. **UDF/UDAF/UDTF**:用户自定义函数,包括标量函数(UDF)、聚合函数(UDAF)和表生成函数(UDTF)。

### 安全管理

1. **认证**:如LDAP、Kerberos。

2. **授权**:如Hive的内置授权和基于SQL标准的授权。

3. **审计**:记录用户操作。

### 与其他系统集成

1. **Hadoop**:Hive运行在Hadoop之上,使用HDFS存储数据和YARN进行资源管理。

2. **Tez/Oozie**:用于优化执行计划和作业调度。

3. **Pig**、**Spark**:可以与Hive配合使用。

### 常用命令

- `SHOW TABLES`

- `DESCRIBE TABLE`

- `DROP TABLE`

- `LOAD DATA INPATH`

Hive作为一个强大的大数据工具,其知识点非常广泛,这里只列举了部分核心内容。实际使用时还需要结合具体场景进行深入学习。

标签:name,分区,Hive,hive,TABLE,数据,###
From: https://www.cnblogs.com/swh666/p/18413266

相关文章

  • 中级练习[3]:Hive SQL用户行为与商品销售数据分析
    目录 1.用户累计消费金额及VIP等级查询 1.1题目需求1.2代码实现2.首次下单后第二天连续下单的用户比率查询 2.1题目需求2.2代码实现3. 每个商品销售首年的年份、销售数量和销售金额统计3.1题目需求3.2代码实现 1.用户累计消费金额及VIP等级查询 1.......
  • 中级练习[4]:Hive SQL商品销售与用户增长数据分析
    1.筛选去年总销量小于100的商品1.1题目需求从订单明细表(order_detail)中筛选出去年(2021年)总销量小于100的商品及其销量,同时不考虑上架时间少于一个月的商品。假设今天的日期是2022-01-10。期望结果如下:sku_idnameorder_num1xiaomi10513apple12364......
  • CDH Hive集群的create/drop慢问题,在200s 多一点处理分析
    现象:CREATETABLEtest911(SNString,PN_CODEString);Totaltimespentinthismetastorefunctionwasgreaterthan1000ms:createTable_(Table,)=200091Hive集群的create/drop操作时间基本都稳定在200s多一点。分析:HMS会实时向Sentry同步Notifications请......
  • spoon、mysql数据导入hive,分别使用hdfs导入,或者修改配置
    一、mysql通过hdfs导入到hive—spoon    首先要在要在主对象树里边ADD一个hadoop然后在文件安装位置找到这个next后会出现这个,然后就可以把这页面关闭然后新建项目选择这两个,如果没有选择选项,重启软件就会有了然后选择这几个文件从服务器hadoopetc的配置文......
  • Oracle数据库中的归档日志(Archive Log)详解与应用
    在Oracle数据库中,归档日志(ArchiveLog)是数据库恢复和备份策略中的一个重要组成部分。归档日志是已填充的重做日志文件组的副本,它们在数据库运行在ARCHIVELOG模式下时被保存到一个或多个脱机目标。本文将详细介绍归档日志的概念、配置、管理以及在数据库恢复中的应用。1.......
  • 【Spark+Hive】基于大数据招聘数据分析预测推荐系统(完整系统源码+数据库+开发笔记+详
    文章目录【Spark+Hive】基于大数据招聘数据分析预测推荐系统(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)源码获取方式在文章末尾一、 项目概述二、研究意义三、背景四、国内外研究现状五、开发技术介绍六、算法介绍 七、数据库设计八、系统......
  • 大数据毕业设计-基于大数据爬虫+hive的热门旅游景点数据分析平台设计和实现,基于hive的
    博主介绍:✌️码农一枚,专注于大学生项目实战开发、讲解和毕业......
  • Hive 比较BIGINT类型和Binary类型
    鱼弦:公众号:红尘灯塔,CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主) 、github开源爱好者(go-zero源码二次开发、游戏后端架构https://github.com/Peakchen)HiveBIGINT类型和Binary类型比较HiveBIGINT类型和Binary类型都是用于存储数字数据的类型。它们之间有以下区别:1.......
  • Hive的一些基本函数(二)
    一、窗口函数当查询的要求,既要明细查询又要统计查询的时候,这时候考虑开窗,通过over语法让两种查询同时执行比如:需求:查询每个订单的信息,以及订单的总数姓名,购买日期,购买数量saml,2018-01-01,10saml,2018-01-08,55tony,2018-01-07,50saml,2018-01-05,46tony,2018-01-04......
  • [已解决] [HiveCatalog]Kerberos GSS initiate failed, No valid credentials provide
    问题说明部署一个连接Hive的Java应用程序,遇到这个Kerberos报错的问题,查了一天,记录一下问题现象KerberosGSSinitiatefailedNovalidcredentialsprovided(Mechanismlevel:AttempttoobtainnewINITIATEcredentialsfailed!(null))CannotreadfromSystem.injav......