1、内部表和外部表

没有指定建表的类型的话，默认为内部表（Internal Table或者是Managed Table）

可以通过这行代码查看表的类型：

describe formatted 表名;

内部表和外部表的区别以及适合使用的范围：

2、分区表--避免全表扫描，提高查询效率

需要注意的是，在创建分区表时，分区字段不能再作为表中字段；

因为分区字段也会在表中占用一个字段，故不能相同；

partitioned by (role string)

3、分区表数据加载--静态分区

向分区表中加载数据，只是使用hadoop fs -put这个命令是没有用的，需要用这个命令：

load data local inpath '文件路径' into table 表名 parttiton(分区字段='分区值');

create table t1(
    id string,
    name string
)partitioned by(name1 string)
row format delimited
fields terminated by ",";

例如：

4、静态加载————多重分区表（PARTITION BY后面指定的分区字段不只有一个）

5、动态加载

insert into table t2 partition(name1)
select tmp.*,tmp.name from t1 tmp;

6、分桶表

分桶的语法：

使用分桶功能时，需要先将分桶功能开启：

set hive.enforce.bucketing=true;

标签：tmp,string,分桶,分区,数据仓库,分区表,加载
From： https://www.cnblogs.com/liuzijin/p/17730216.html

Hive数据仓库的学习--DDL部分
1、建表语法2、数据类型转换函数CAST--也就是强制转换例如，CAST('100'ASINT)3、有关于SerDe的描述序列化和反序列化————用于从文件中读取和数据写入文件的操作（通俗来说，就是分辨分隔符，读取有效数据存储到数据库中）；4、rowformat指定具体的分隔符是什么样子的；默认分隔......
Kibana中的数据仓库与数据存储策略案例
前言Kibana是一个流行的开源数据可视化工具，它可以帮助用户从各种数据源中提取数据，并将其可视化。在Kibana中，数据仓库和数据存储策略是非常重要的概念。本文将深入探讨Kibana中的数据仓库与数据存储策略案例。数据仓库在Kibana中，数据仓库是一个用于存储数据的地方。它可以是一个E......
Hive学习1（数据仓库及Hive基础学习）
1.数据仓库1.1什么是数据仓库数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库本身并不“生产”任何数据，其数据来源于不同外部系统；同时数据仓库自身也不“消费”任何的数据，其结果开放给各个外部应用使用；数据仓库是为了分析数据的。......
KingbaseES数据库分区表添加主键与索引的建议
一、初始化测试环境#数据库版本信息KingbaseESV008R006C007B0012onx86_64-pc-linux-gnu,compiledbygcc(GCC)4.1.220080704(RedHat4.1.2-46),64-bit1.创建分区表：createtabletb(idbigint,statdate,nobigint,pdatedate,infovarchar2(50))partitionbyra......
高效数据湖构建与数据仓库融合：大规模数据架构最佳实践
在当今数字时代，数据被认为是新的黄金，无论是企业、政府还是学术界，都需要有效地管理和分析海量数据。在数据处理领域，数据湖（DataLake）和数据仓库（DataWarehouse）是两个重要的概念。本文将深入探讨如何高效地构建数据湖，以及数据湖与数据仓库的融合，为大规模数据架构提供最佳实践。数据......
一文详解数据仓库的物理细粒度备份恢复
本文分享自华为云社区《DTSETechTalk|第43期：数仓数据可靠保证——物理细粒度备份恢复》，作者：华为云社区精选。大数据时代，数据对企业的重要性不言而喻，如果发生数据丢失或因为误操作而造成数据丢失，将对企业的经营决策带来不可估量的损失。本期《备份恢复全掌握，数仓数据更安全》......
数据仓库开发规范：确保数据安全、高效查询与规范管理
数据仓库——开发规范在大数据时代，数据仓库成为企业管理和分析海量数据的重要工具。数据仓库不仅能存储大量的数据，还能对这些数据进行有效的组织和分类，从而使得数据利用率和使用效率得到极大的提高。然而，要建立一个高效、稳定、安全的数据仓库，离不开一套严格的开发规范。首先，我们来......
gopup：Python公开数据仓库
GoPUP支持Python3.7+，旨在使获取数据尽可能方便，主要用于学术研究目的。GoPUP项目所采集的数据皆来自公开的数据源，不涉及任何个人隐私数据和非公开数据。同时本项目提供的数据接口及相关数据仅用于学术研究，任何个人、机构及团体使用本项目的数据接口及相关数据请注意商业风险。......
PostgreSQL-分区表介绍
一、分区简介表分区是解决一些因单表过大引用的性能问题的方式，比如某张表过大就会造成查询变慢，可能分区是一种解决方案。一般建议当单表大小超过内存就可以考虑表分区了。表的分区就是将一个逻辑上的大表(主要指数据量大)，切分为多个小的物理的分片。1．分区的优点1)在某些情况......
MySQL-分区表和分区介绍
一、MySQL分区简介1、数据库分区数据库分区是一种物理数据库设计技术。虽然分区技术可以实现很多效果，但其主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减sql语句的响应时间，同时对于应用来说分区完全是透明的。MYSQL的分区主要有两种形式：水平分区和垂直分区①、水平......

Hive数据仓库的学习——DDL之内部表、外部表、分区表、分桶表