首页 > 其他分享 >Hive数据仓库的学习——DDL之内部表、外部表、分区表、分桶表

Hive数据仓库的学习——DDL之内部表、外部表、分区表、分桶表

时间:2023-09-26 19:56:09浏览次数:31  
标签:tmp string 分桶 分区 数据仓库 分区表 加载

1、内部表和外部表

没有指定建表的类型的话,默认为内部表(Internal Table或者是Managed Table)

可以通过这行代码查看表的类型:

describe formatted 表名;

内部表和外部表的区别以及适合使用的范围:

2、分区表--避免全表扫描,提高查询效率

需要注意的是,在创建分区表时,分区字段不能再作为表中字段

因为分区字段也会在表中占用一个字段,故不能相同;

partitioned by (role string)

3、分区表数据加载--静态分区

向分区表中加载数据,只是使用hadoop fs -put这个命令是没有用的,需要用这个命令:

load data local inpath '文件路径' into table 表名 parttiton(分区字段='分区值');
create table t1(
    id string,
    name string
)partitioned by(name1 string)
row format delimited
fields terminated by ",";

例如:

4、静态加载————多重分区表(PARTITION BY后面指定的分区字段不只有一个)

5、动态加载

insert into table t2 partition(name1)
select tmp.*,tmp.name from t1 tmp;

6、分桶表

分桶的语法:

使用分桶功能时,需要先将分桶功能开启:

set hive.enforce.bucketing=true;

标签:tmp,string,分桶,分区,数据仓库,分区表,加载
From: https://www.cnblogs.com/liuzijin/p/17730216.html

相关文章

  • Hive数据仓库的学习--DDL部分
    1、建表语法2、数据类型转换函数CAST--也就是强制转换例如,CAST('100'ASINT)3、有关于SerDe的描述序列化和反序列化————用于从文件中读取和数据写入文件的操作(通俗来说,就是分辨分隔符,读取有效数据存储到数据库中);4、rowformat指定具体的分隔符是什么样子的;默认分隔......
  • Kibana中的数据仓库与数据存储策略案例
    前言Kibana是一个流行的开源数据可视化工具,它可以帮助用户从各种数据源中提取数据,并将其可视化。在Kibana中,数据仓库和数据存储策略是非常重要的概念。本文将深入探讨Kibana中的数据仓库与数据存储策略案例。数据仓库在Kibana中,数据仓库是一个用于存储数据的地方。它可以是一个E......
  • Hive学习1(数据仓库及Hive基础学习)
    1.数据仓库1.1什么是数据仓库数据仓库(英语:DataWarehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身也不“消费”任何的数据,其结果开放给各个外部应用使用;数据仓库是为了分析数据的。......
  • KingbaseES数据库分区表添加主键与索引的建议
    一、初始化测试环境#数据库版本信息KingbaseESV008R006C007B0012onx86_64-pc-linux-gnu,compiledbygcc(GCC)4.1.220080704(RedHat4.1.2-46),64-bit1.创建分区表:createtabletb(idbigint,statdate,nobigint,pdatedate,infovarchar2(50))partitionbyra......
  • 高效数据湖构建与数据仓库融合:大规模数据架构最佳实践
    在当今数字时代,数据被认为是新的黄金,无论是企业、政府还是学术界,都需要有效地管理和分析海量数据。在数据处理领域,数据湖(DataLake)和数据仓库(DataWarehouse)是两个重要的概念。本文将深入探讨如何高效地构建数据湖,以及数据湖与数据仓库的融合,为大规模数据架构提供最佳实践。数据......
  • 一文详解数据仓库的物理细粒度备份恢复
    本文分享自华为云社区《DTSETechTalk|第43期:数仓数据可靠保证——物理细粒度备份恢复》,作者:华为云社区精选。大数据时代,数据对企业的重要性不言而喻,如果发生数据丢失或因为误操作而造成数据丢失,将对企业的经营决策带来不可估量的损失。本期《备份恢复全掌握,数仓数据更安全》......
  • 数据仓库开发规范:确保数据安全、高效查询与规范管理
    数据仓库——开发规范在大数据时代,数据仓库成为企业管理和分析海量数据的重要工具。数据仓库不仅能存储大量的数据,还能对这些数据进行有效的组织和分类,从而使得数据利用率和使用效率得到极大的提高。然而,要建立一个高效、稳定、安全的数据仓库,离不开一套严格的开发规范。首先,我们来......
  • gopup:Python公开数据仓库
    GoPUP支持Python3.7+,旨在使获取数据尽可能方便,主要用于学术研究目的。GoPUP项目所采集的数据皆来自公开的数据源,不涉及任何个人隐私数据和非公开数据。同时本项目提供的数据接口及相关数据仅用于学术研究,任何个人、机构及团体使用本项目的数据接口及相关数据请注意商业风险。......
  • PostgreSQL-分区表介绍
    一、分区简介表分区是解决一些因单表过大引用的性能问题的方式,比如某张表过大就会造成查询变慢,可能分区是一种解决方案。一般建议当单表大小超过内存就可以考虑表分区了。表的分区就是将一个逻辑上的大表(主要指数据量大),切分为多个小的物理的分片。1.分区的优点1)在某些情况......
  • MySQL-分区表和分区介绍
    一、MySQL分区简介1、数据库分区数据库分区是一种物理数据库设计技术。虽然分区技术可以实现很多效果,但其主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减sql语句的响应时间,同时对于应用来说分区完全是透明的。MYSQL的分区主要有两种形式:水平分区和垂直分区①、水平......