数据处理技术-Hive的表与数据类型

时间：2024-06-20 17:57:32浏览次数：25

标签：string int 数据类型 Hive 数据处理 table 数据 id

Hive数据模型

Hive的数据模型主要由表构成，包括内部表，外部表，分区表和桶表。我也将从这四个方面介绍。
在这之前先介绍另外一个概念：DDL，Data Definition Language数据定义语言，是SQL语言集中对数据库内部的对象结构进行创建，删除，修改等的操作语言。核心语法由CREATE, ALTER, DROP三个组成。DDL并不涉及表内部数据的操作，也就是不涉及DELETE之类的。

内部表Table
表的创建过程和数据加载过程可以在同一个语句中完成，当删除表时，表中的数据和元数据将一同被删除。

//创建表
create table stu(
    id int,
    name string,
    age int, 
    gender string
)
row format delimited fields terminated by "," //以’，'结尾的行格式分隔字段
location "hdfs://datalocation";

外部表External Table
外部表是一个过程，表的创建和加载是同时完成的，但是外表中真正的数据不是放在自己表所属的目录中，而是存储在指定的HDFS路径中。因此删除外部表，并不删除实际的数据，只是删除相应的元数据。

//创建表
create external table stu(
    id int,
    name string, 
    age int, 
    gender string
)
row format delimited fields terminated by ","
location "hdfs://datalocation";

分区表Partition Table
分区表是指在创建表时指定的Partition的分区空间。Hive引入分区表的目的是可以让查询发生在小范围的数据上，避免扫描整个表内容，从而提高了数据查询效率。

create table if not exists stu(
    id int,
    name string, 
    age int,
    gender string
)
row format delimited fields terminated by ","
location ""
partition by id int;

一个表可以有一个或多个分区；分区是以字段的形式在表结构中存在，通过describe table命令可以查看到字段。

桶表Bucket Table
桶是更为细粒度的数据范围划分。桶是对数据文件本身来拆分数据，而表和分区则是基于目录级别的拆分数据。使用桶的表回将元数据文件按一定规律拆分成多个文件。Hive引入桶表的目的是为了获得更高的查询处理效率，它能使一些特定的查询效率更高，如对于具有相同的桶划分并且Join的列刚好就是在桶里的连接查询等。

create table stu(
    id int,
    name string
)
row format delimited fields terminated by ","
clustered by(id) into 4 buckets;

桶的数量是用户自定义的，Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

数据类型

除了关系型数据库支持的基本数据类型外，Hive还支持关系型数据库很少出现的四种复杂数据类型：数组，映射，结构体，联合体。

数据类型转换

在这里插入图片描述

标签：string,int,数据类型,Hive,数据处理,table,数据,id
From： https://blog.csdn.net/Coder_OreoZ/article/details/139752040

java datetime数据类型去掉时分秒
在Java中，如果我们想要表示一个日期而不包括时间（时分秒），我们通常会使用java.time包中的LocalDate类。LocalDate是一个不可变的日期对象，它只包含年、月、日三个字段。1.datetime数据类型去掉时分秒案例一以下是如何使用LocalDate类以及如何从一个包含时间的日期时间对象（比如LocalD......
java datetime数据类型去掉时分秒
在Java中，如果我们想要表示一个日期而不包括时间（时分秒），我们通常会使用java.time包中的LocalDate类。LocalDate是一个不可变的日期对象，它只包含年、月、日三个字段。1.datetime数据类型去掉时分秒案例一以下是如何使用LocalDate类以及如何从一个包含时间的日期时间对象（比如Loc......
变量、数据类型、表达式、运算符
一、变量1.概念:计算机中的一块内存空间，存储数据的基本单元2.变量的组成部分:数据类型、变量名、数据3.语法: (1)先声明，再赋值数据类型变量名;inta;变量名=数据;a=5;(2)声明的同时赋值:数据类型变量名=值;intb=8;(3)同时定义多个同类型的变量:......
Docker+Jenkins+Pipline实现Vue项目input选择不同差异性config文件并修改文件内容后打
场景Docker+Jenkins+Pipline实现SpringBoot项目input选择不同差异性yml文件打包、执行sh打包压缩包、使用archiveArtifacts下载制品(jar包、压缩包)：https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/139748758DockerCompose+Jenkins+Pipeline流水线打包Vue项目(解压......
Redis常见数据类型及其常用命令详解
文章目录一、Redis概述二、Redis常用命令1.通用命令1.1KEYS：查看符合模板的所有key1.2DEL：删除一个指定的key1.3EXISTS：判断key是否存在1.4EXPIRE：给一个key设置有效期，有效期到期时该key会被自动删除1.5TTL：查看一个key的剩余有效期1.6COPY：复制Redis数据库......
Docker+Jenkins+Pipline实现SpringBoot项目input选择不同差异性yml文件打包、执行sh打
场景Docker+Jenkins+Pipline如何获取git插件环境变量(提交sha、分支等)以及Jenkinsfile中获取sh执行结果(获取git最近提交信息)：https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/139697004在上面的基础上实现了使用Jenkinsfile文件获取git的提交记录以及获取sh的执......
Python中的数据类型转换
Python中的数据类型转换是一项基本而实用的技能，它允许您在不同数据类型之间自由切换，以满足不同的运算或逻辑需求。以下是几种常见的数据类型转换方法：x=5y=float(x)print(y)#输出:5.02.浮点(float)转整数(int):使用int()函数可以将浮点数转换为整数，这会导致小数部......
redis常用5种数据类型及其常见问题（缓存穿透，缓存击穿，缓存雪崩）
1.字符串（String)2.哈希（hash）:redishash是一个string类型的字段和value的映射表，hash特别适合存储对象3.列表（List）:字符串列表，按照插入的顺序。可以添加一个元素到列表的头部或尾部4.集合（set）：String类型的无序集合。集合成员不可重复，redis中集合通过哈希表实现的，添加，删除，查找复杂度......
【Python】数据处理：Matplotlib绘图
Matplotlib是Python强大的数据可视化工具库，类似于MATLAB语言。Mat-lotlib提供了一整套与MATLAB相似的命令API，十分适合进行交互式制图，而且也可以方便地将它作为绘图控件，嵌入GUI应用程序中。Matplotlib是神经生物学家JohnD.Hunter于2007年创建的，其函数设计参考了MATLAB。......
（必读）深入浅出Pandas：利用Python进行数据处理与分析 (李庆辉)
书：pan.baidu.com/s/1tIHXj9HmIYojAHqje09DTA?pwd=jqso提取码：jqsoPandas概述：介绍了Pandas库的基本概念、特点和优势，以及它在数据处理和分析领域的重要性。Series对象：讲解了Series对象的创建、访问、修改以及常用的统计和分析方法，如均值、中位数、标准差等。DataFrame对象：详细......

数据处理技术-Hive的表与数据类型

Hive数据模型

数据类型

数据类型转换

相关文章

赞助商

阅读排行