首页 > 其他分享 >数据处理技术-Hive的表与数据类型

数据处理技术-Hive的表与数据类型

时间:2024-06-20 17:57:32浏览次数:11  
标签:string int 数据类型 Hive 数据处理 table 数据 id

Hive数据模型

Hive的数据模型主要由表构成,包括内部表,外部表,分区表和桶表。我也将从这四个方面介绍。
在这之前先介绍另外一个概念:DDL,Data Definition Language数据定义语言,是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言。核心语法由CREATE, ALTER, DROP三个组成。DDL并不涉及表内部数据的操作, 也就是不涉及DELETE之类的。

  1. 内部表Table
    表的创建过程和数据加载过程可以在同一个语句中完成,当删除表时,表中的数据和元数据将一同被删除。
//创建表
create table stu(
    id int,
    name string,
    age int, 
    gender string
)
row format delimited fields terminated by "," //以’,'结尾的行格式分隔字段
location "hdfs://datalocation";
  1. 外部表External Table
    外部表是一个过程,表的创建和加载是同时完成的,但是外表中真正的数据不是放在自己表所属的目录中,而是存储在指定的HDFS路径中。因此删除外部表,并不删除实际的数据,只是删除相应的元数据。
//创建表
create external table stu(
    id int,
    name string, 
    age int, 
    gender string
)
row format delimited fields terminated by ","
location "hdfs://datalocation";
  1. 分区表Partition Table
    分区表是指在创建表时指定的Partition的分区空间。Hive引入分区表的目的是可以让查询发生在小范围的数据上,避免扫描整个表内容,从而提高了数据查询效率。
create table if not exists stu(
    id int,
    name string, 
    age int,
    gender string
)
row format delimited fields terminated by ","
location ""
partition by id int;

一个表可以有一个或多个分区;分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段。

  1. 桶表Bucket Table
    桶是更为细粒度的数据范围划分。桶是对数据文件本身来拆分数据,而表和分区则是基于目录级别的拆分数据。使用桶的表回将元数据文件按一定规律拆分成多个文件。Hive引入桶表的目的是为了获得更高的查询处理效率,它能使一些特定的查询效率更高,如对于具有相同的桶划分并且Join的列刚好就是在桶里的连接查询等。
create table stu(
    id int,
    name string
)
row format delimited fields terminated by ","
clustered by(id) into 4 buckets;

桶的数量是用户自定义的,Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

数据类型

除了关系型数据库支持的基本数据类型外,Hive还支持关系型数据库很少出现的四种复杂数据类型:数组,映射,结构体,联合体。

数据类型转换

在这里插入图片描述

标签:string,int,数据类型,Hive,数据处理,table,数据,id
From: https://blog.csdn.net/Coder_OreoZ/article/details/139752040

相关文章

  • java datetime数据类型去掉时分秒
    在Java中,如果我们想要表示一个日期而不包括时间(时分秒),我们通常会使用java.time包中的LocalDate类。LocalDate是一个不可变的日期对象,它只包含年、月、日三个字段。1.datetime数据类型去掉时分秒案例一以下是如何使用LocalDate类以及如何从一个包含时间的日期时间对象(比如LocalD......
  • java datetime数据类型去掉时分秒
    在Java中,如果我们想要表示一个日期而不包括时间(时分秒),我们通常会使用java.time包中的LocalDate类。LocalDate是一个不可变的日期对象,它只包含年、月、日三个字段。1.datetime数据类型去掉时分秒案例一以下是如何使用LocalDate类以及如何从一个包含时间的日期时间对象(比如Loc......
  • 变量、数据类型、表达式、运算符
    一、变量1.概念:计算机中的一块内存空间,存储数据的基本单元2.变量的组成部分:数据类型、变量名、数据3.语法: (1)先声明,再赋值数据类型变量名;inta;变量名=数据;a=5;(2)声明的同时赋值:数据类型变量名=值;intb=8;(3)同时定义多个同类型的变量:......
  • Docker+Jenkins+Pipline实现Vue项目input选择不同差异性config文件并修改文件内容后打
    场景Docker+Jenkins+Pipline实现SpringBoot项目input选择不同差异性yml文件打包、执行sh打包压缩包、使用archiveArtifacts下载制品(jar包、压缩包):https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/139748758DockerCompose+Jenkins+Pipeline流水线打包Vue项目(解压......
  • Redis常见数据类型及其常用命令详解
    文章目录一、Redis概述二、Redis常用命令1.通用命令1.1KEYS:查看符合模板的所有key1.2DEL:删除一个指定的key1.3EXISTS:判断key是否存在1.4EXPIRE:给一个key设置有效期,有效期到期时该key会被自动删除1.5TTL:查看一个key的剩余有效期1.6COPY:复制Redis数据库......
  • Docker+Jenkins+Pipline实现SpringBoot项目input选择不同差异性yml文件打包、执行sh打
    场景Docker+Jenkins+Pipline如何获取git插件环境变量(提交sha、分支等)以及Jenkinsfile中获取sh执行结果(获取git最近提交信息):https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/139697004在上面的基础上实现了使用Jenkinsfile文件获取git的提交记录以及获取sh的执......
  • Python中的数据类型转换
    Python中的数据类型转换是一项基本而实用的技能,它允许您在不同数据类型之间自由切换,以满足不同的运算或逻辑需求。以下是几种常见的数据类型转换方法:x=5y=float(x)print(y)#输出:5.02.浮点(float)转整数(int):使用int()函数可以将浮点数转换为整数,这会导致小数部......
  • redis常用5种数据类型及其常见问题(缓存穿透,缓存击穿,缓存雪崩)
    1.字符串(String)2.哈希(hash):redishash是一个string类型的字段和value的映射表,hash特别适合存储对象3.列表(List):字符串列表,按照插入的顺序。可以添加一个元素到列表的头部或尾部4.集合(set):String类型的无序集合。集合成员不可重复,redis中集合通过哈希表实现的,添加,删除,查找复杂度......
  • 【Python】数据处理:Matplotlib绘图
    Matplotlib是Python强大的数据可视化工具库,类似于MATLAB语言。Mat-lotlib提供了一整套与MATLAB相似的命令API,十分适合进行交互式制图,而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。Matplotlib是神经生物学家JohnD.Hunter于2007年创建的,其函数设计参考了MATLAB。......
  • (必读)深入浅出Pandas:利用Python进行数据处理与分析 (李庆辉)
    书:pan.baidu.com/s/1tIHXj9HmIYojAHqje09DTA?pwd=jqso提取码:jqsoPandas概述:介绍了Pandas库的基本概念、特点和优势,以及它在数据处理和分析领域的重要性。Series对象:讲解了Series对象的创建、访问、修改以及常用的统计和分析方法,如均值、中位数、标准差等。DataFrame对象:详细......