1.hive

1.hive

时间：2024-09-14 09:05:29浏览次数：12

标签：name 分区 Hive hive TABLE 数据 ###

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，下面是Hive的一些核心知识点：

### 基本概念

1. **Hive Metastore**：存储了Hive中所有表和分区的元数据信息。

2. **HiveQL (HQL)**：Hive查询语言，类似SQL，用于查询存储在Hadoop集群中的大数据。

3. **Warehouse**：Hive中数据实际存储的位置。

### 数据模型

1. **数据库**：在Hive中，数据库是一个命名空间，用于组织表。

2. **表**：表由列（列名、类型和数据）组成。

3. **分区**：表可以根据某些列的值进行分区，每个分区的数据通常存储在不同的目录下。

4. **桶（Bucket）**：表的分桶是将表中的数据基于某些列的哈希值进行划分。

### 数据类型

1. **基本数据类型**：如INT、STRING、FLOAT等。

2. **复杂数据类型**：如STRUCT、MAP、ARRAY。

### HQL语法

1. **创建数据库**：`CREATE DATABASE [IF NOT EXISTS] database_name;`

2. **创建表**：`CREATE TABLE [IF NOT EXISTS] table_name ...`

3. **查询数据**：`SELECT [columns] FROM table_name ...`

4. **插入数据**：`INSERT INTO/OVERWRITE [TABLE] table_name ...`

5. **分区操作**：`ALTER TABLE table_name ADD PARTITION ...`

6. **分桶操作**：`CLUSTER BY` 和 `SORT BY`

### 性能优化

1. **分区裁剪**：查询时只扫描相关的分区。

2. **列裁剪**：只查询需要的列。

3. **MapReduce优化**：如调整mapper和reducer的数量。

4. **使用索引**：提高查询效率。

### 高级特性

1. **窗口函数**：如`ROW_NUMBER()`, `RANK()`, `DENSE_RANK()`

2. **视图**：CREATE VIEW语句用于创建视图。

3. **物化视图**：将视图的数据实际存储起来。

4. **UDF/UDAF/UDTF**：用户自定义函数，包括标量函数（UDF）、聚合函数（UDAF）和表生成函数（UDTF）。

### 安全管理

1. **认证**：如LDAP、Kerberos。

2. **授权**：如Hive的内置授权和基于SQL标准的授权。

3. **审计**：记录用户操作。

### 与其他系统集成

1. **Hadoop**：Hive运行在Hadoop之上，使用HDFS存储数据和YARN进行资源管理。

2. **Tez/Oozie**：用于优化执行计划和作业调度。

3. **Pig**、**Spark**：可以与Hive配合使用。

### 常用命令

- `SHOW TABLES`

- `DESCRIBE TABLE`

- `DROP TABLE`

- `LOAD DATA INPATH`

Hive作为一个强大的大数据工具，其知识点非常广泛，这里只列举了部分核心内容。实际使用时还需要结合具体场景进行深入学习。

标签：name,分区,Hive,hive,TABLE,数据,###
From： https://www.cnblogs.com/swh666/p/18413266

中级练习[3]：Hive SQL用户行为与商品销售数据分析
目录 1.用户累计消费金额及VIP等级查询 1.1题目需求1.2代码实现2.首次下单后第二天连续下单的用户比率查询 2.1题目需求2.2代码实现3. 每个商品销售首年的年份、销售数量和销售金额统计3.1题目需求3.2代码实现 1.用户累计消费金额及VIP等级查询 1.......
中级练习[4]：Hive SQL商品销售与用户增长数据分析
1.筛选去年总销量小于100的商品1.1题目需求从订单明细表(order_detail)中筛选出去年（2021年）总销量小于100的商品及其销量，同时不考虑上架时间少于一个月的商品。假设今天的日期是2022-01-10。期望结果如下：sku_idnameorder_num1xiaomi10513apple12364......
CDH Hive集群的create/drop慢问题，在200s 多一点处理分析
现象：CREATETABLEtest911(SNString,PN_CODEString);Totaltimespentinthismetastorefunctionwasgreaterthan1000ms:createTable_(Table,)=200091Hive集群的create/drop操作时间基本都稳定在200s多一点。分析：HMS会实时向Sentry同步Notifications请......
spoon、mysql数据导入hive，分别使用hdfs导入，或者修改配置
一、mysql通过hdfs导入到hive—spoon 首先要在要在主对象树里边ADD一个hadoop然后在文件安装位置找到这个next后会出现这个，然后就可以把这页面关闭然后新建项目选择这两个，如果没有选择选项，重启软件就会有了然后选择这几个文件从服务器hadoopetc的配置文......
Oracle数据库中的归档日志（Archive Log）详解与应用
在Oracle数据库中，归档日志（ArchiveLog）是数据库恢复和备份策略中的一个重要组成部分。归档日志是已填充的重做日志文件组的副本，它们在数据库运行在ARCHIVELOG模式下时被保存到一个或多个脱机目标。本文将详细介绍归档日志的概念、配置、管理以及在数据库恢复中的应用。1.......
【Spark+Hive】基于大数据招聘数据分析预测推荐系统（完整系统源码+数据库+开发笔记+详
文章目录【Spark+Hive】基于大数据招聘数据分析预测推荐系统（完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程）源码获取方式在文章末尾一、项目概述二、研究意义三、背景四、国内外研究现状五、开发技术介绍六、算法介绍七、数据库设计八、系统......
大数据毕业设计-基于大数据爬虫+hive的热门旅游景点数据分析平台设计和实现，基于hive的
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业......
Hive 比较BIGINT类型和Binary类型
鱼弦：公众号：红尘灯塔，CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主) 、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）HiveBIGINT类型和Binary类型比较HiveBIGINT类型和Binary类型都是用于存储数字数据的类型。它们之间有以下区别：1.......
Hive的一些基本函数（二）
一、窗口函数当查询的要求，既要明细查询又要统计查询的时候，这时候考虑开窗，通过over语法让两种查询同时执行比如：需求：查询每个订单的信息，以及订单的总数姓名,购买日期,购买数量saml,2018-01-01,10saml,2018-01-08,55tony,2018-01-07,50saml,2018-01-05,46tony,2018-01-04......