首页 > 数据库 >Apache Doris 分析型数据库(三)数据划分

Apache Doris 分析型数据库(三)数据划分

时间:2022-10-17 14:25:18浏览次数:48  
标签:分桶 数据库 指定 复合 维度 Apache 数据 分区 Doris

一、数据划分

1、 Doris支持单分区和复合分区两种建表方式

在复合分区中:

  • 第一级称为 Partition,即分区。用户可以指定某一维度列作为分区列(当前只支持整型和时间类型的列),并指定每个分区的取值范围。
  • 第二级称为 Distribution,即分桶。用户可以指定一个或多个维度列以及桶数对数据进行 HASH 分布。

以下场景推荐使用复合分区

  • 有时间维度或类似带有有序值的维度,可以以这类维度列作为分区列。分区粒度可以根据导入频次、分区数据量等进行评估。
  • 历史数据删除需求:如有删除历史数据的需求(比如仅保留最近N 天的数据)。使用复合分区,可以通过删除历史分区来达到目的。也可以通过在指定分区内发送 DELETE 语句进行数据删除。
  • 解决数据倾斜问题:每个分区可以单独指定分桶数量。如按天分区,当每天的数据量差异很大时,可以通过指定分区的分桶数,合理划分不同分区的数据,分桶列建议选择区分度大的列。

用户也可以不使用复合分区,即使用单分区。则数据只做 HASH 分布

下面以聚合模型为例,分别演示两种分区的建表语句。

  • Partition

     

 

标签:分桶,数据库,指定,复合,维度,Apache,数据,分区,Doris
From: https://www.cnblogs.com/aqicheng/p/16799034.html

相关文章