大数据-164 Apache Kylin Cube优化案例1 定义衍生维度与对比超详细

标签：Cube Kylin MB Cuboid 维度 est Apache row

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（已更完）
ClickHouse（已更完）
Kudu（已更完）
Druid（已更完）
Kylin（正在更新…）

章节内容

上节我们完成了如下的内容：

手动合并 Segment
案例 1 Kylin 策略
案例 2 自动合并
JDBC 连接 Kylin

在这里插入图片描述

Cuboid剪枝优化

Cuboid 特指 Kylin 中在某一种维度组合下所计算的所有数据，以减少Cuboid数量为目的的优化统称为Cuboid剪枝。
在没有采取任何优化措施的情况下，Kylin会对每一种维度的组合进行预计算。

如果有4个维度，可能最终会有 2^4 = 16个 Cuboid需要计算
如果有10个维度，那么没有经过任何优化的Cube就存在2^10 = 1024个Cuboid
如果有20个维度，那么Cube中总共会存在2^20 = 1048576个Cuboid
过多的Cuboid数量对构建引擎、存储引擎压力是非常巨大的，因此，在构建维度数量较多的Cube时候，尤其要注意Cube的剪枝优化。

Cube的剪枝优化是一种试图减少额外空间占用的方法，这种方法的前提是不会明显影响查询时间，在做剪枝优化的时候：

需要选择跳过那些多余的Cuboid
有的Cuboid因为查询样式的原因永远不会被查询到，因此显得多余
有的Cuboid的能力和其他Cuboid接近，因此显得多余

Kylin提供了一系列简单的工具来帮助他们完成Cube的剪枝优化。

检查Cuboid数量

ApacheKylin 提供了一个简单的工具，检查Cube中哪些Cuboid最终被预计算了，称这些Cuboid被物化的Cuboid，该工具还能给出每个Cuboid所占空间的估计值。由于该工具需要在对数据进行一定阶段的处理之后才能估算Cuboid的大小，一般来说在Cube构建完毕之后再使用该工具。

使用如下的命令行工具去检查这个Cube中的Cuboid状态：

# 我要查看 wzk_kylin_test_cube_4
kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReader wzk_kylin_test_cube_4

执行之后的结果如下图所示：
在这里插入图片描述
具体的Cube信息如下所示：

Cube statistics hll precision: 14
Total cuboids: 15
Total estimated rows: 213
Total estimated size(MB): 0.002885580062866211
Sampling percentage:  100
Mapper overlap ratio: 1.0
Mapper number: 1
Length of dimension WZK_KYLIN.DW_SALES1.DT is 1
Length of dimension WZK_KYLIN.DW_SALES1.PRODUCTID is 1
Length of dimension WZK_KYLIN.DW_SALES1.CHANNELID is 1
Length of dimension WZK_KYLIN.DW_SALES1.REGIONID is 1
|---- Cuboid 1111, est row: 47, est MB: 0
    |---- Cuboid 0111, est row: 47, est MB: 0, shrink: 100%
        |---- Cuboid 0011, est row: 16, est MB: 0, shrink: 34.04%
            |---- Cuboid 0001, est row: 4, est MB: 0, shrink: 25%
            |---- Cuboid 0010, est row: 4, est MB: 0, shrink: 25%
        |---- Cuboid 0101, est row: 15, est MB: 0, shrink: 31.91%
            |---- Cuboid 0100, est row: 4, est MB: 0, shrink: 26.67%
        |---- Cuboid 0110, est row: 16, est MB: 0, shrink: 34.04%
    |---- Cuboid 1011, est row: 16, est MB: 0, shrink: 34.04%
        |---- Cuboid 1001, est row: 4, est MB: 0, shrink: 25%
            |---- Cuboid 1000, est row: 1, est MB: 0, shrink: 25%
        |---- Cuboid 1010, est row: 4, est MB: 0, shrink: 25%
    |---- Cuboid 1101, est row: 15, est MB: 0, shrink: 31.91%
        |---- Cuboid 1100, est row: 4, est MB: 0, shrink: 26.67%
    |---- Cuboid 1110, est row: 16, est MB: 0, shrink: 34.04%
----------------------------------------------------------------------------
============================================================================
Statistics of wzk_kylin_test_cube_4[20240102000000_20240104000000]

Cube statistics hll precision: 14
Total cuboids: 15
Total estimated rows: 160
Total estimated size(MB): 0.00215911865234375
Sampling percentage:  100
Mapper overlap ratio: 0.0
Mapper number: 0
Length of dimension WZK_KYLIN.DW_SALES1.DT is 1
Length of dimension WZK_KYLIN.DW_SALES1.PRODUCTID is 1
Length of dimension WZK_KYLIN.DW_SALES1.CHANNELID is 1
Length of dimension WZK_KYLIN.DW_SALES1.REGIONID is 1
|---- Cuboid 1111, est row: 22, est MB: 0
    |---- Cuboid 0111, est row: 21, est MB: 0, shrink: 95.45%
        |---- Cuboid 0011, est row: 12, est MB: 0, shrink: 57.14%
            |---- Cuboid 0001, est row: 4, est MB: 0, shrink: 33.33%
            |---- Cuboid 0010, est row: 4, est MB: 0, shrink: 33.33%
        |---- Cuboid 0101, est row: 13, est MB: 0, shrink: 61.9%
            |---- Cuboid 0100, est row: 4, est MB: 0, shrink: 30.77%
        |---- Cuboid 0110, est row: 13, est MB: 0, shrink: 61.9%
    |---- Cuboid 1011, est row: 14, est MB: 0, shrink: 63.64%
        |---- Cuboid 1001, est row: 6, est MB: 0, shrink: 42.86%
            |---- Cuboid 1000, est row: 2, est MB: 0, shrink: 33.33%
        |---- Cuboid 1010, est row: 7, est MB: 0, shrink: 50%
    |---- Cuboid 1101, est row: 16, est MB: 0, shrink: 72.73%
        |---- Cuboid 1100, est row: 7, est MB: 0, shrink: 43.75%
    |---- Cuboid 1110, est row: 15, est MB: 0, shrink: 68.18%

对应的截图如下图：
在这里插入图片描述

估计Cuboid大小的精度（HII Precision）
总共的Cuboid数量
Segment 的总行数估计
Segment的大小估计，Segment的大小决定Mapper、Reducer的数量、数据分片数量等
所有的Cuboid及它的分析结果都以树状的形式打印了出来
在这颗树上，每个节点代表一个Cuboid，每个Cuboid都由一连串1和0的数字组成
数字串的长度等于有效维护度的数量，从左到右每个数字依次代表RowKeys设置中的各个维度，如果数字为0，则代表这个Cuboid中不存在相应的维度，如果数字为1，则代表这个Cuboid中存在相应的维度
除了最顶端的Cuboid之外，每个Cuboid都有一个父亲Cuboid，且都比父亲Cuboid少了一个“1”，其意义是这个Cuboid就是由它的父亲节点减少一个维度聚合而来的（上卷）
最顶端的Cuboid成为Base Cuboid，它直接由源数据计算而来，Base Cuboid的具体信息，包括该Cuboid的输出中除了0和1的数字串以外，后面还有每个Cuboid的具体信息，包括该Cuboid行数的估计值、该Cuboid大小的估计值，以及这个Cuboid的行数与父亲节点的对比（Shrink值）
所有Cuboid行数的估计值之和应该等于Segment的行数估计值，所有Cuboid的大小估计值应该等于该Segment的大小估计值，每个Cuboid都是在它的父亲节点的基础上进一步聚合而成的

检查Cube大小

在WebGUI的Model页面选择一个READ状态为Cube，光标移动到该Cube的CubeSize列时，WebGUI会提示Cube的源数据大小，以及当前Cube的大小除以数据源大小的比例，称为膨胀率（Expansion Rate）。

我们可以在页面上看到Cube的大小信息，如下图所示：
在这里插入图片描述
一般来说，Cube的膨胀率应该在0%-1000%之间，如果一个Cube的膨胀率超过1000%，那么应该查找当中的原因，膨胀率高可能有以下几个方面的原因：

Cube中的维度数量较多，且没有进行很好的Cuboid剪枝优化，导致Cuboid数量极多
Cube中存在较高基数的维度（基数的维度是指维度中有多少个不同的值），导致包含这类维度的每个Cuboid占用的空间都很大，这些Cuboid累积造成整体Cube体积变大。
存在占用空间大的度量，例如Count Distinct，因此需要Cuboid的每一行中都为其保存了一个较大度量数据，最坏的情况会导致Cuboid中每一行都有数十KB，从而造成整个Cube的体积变大

对于Cube的膨胀率居高不下的情况，需要结合实际数据进行分析，优化。

使用衍生维度

一个维度可以是普通维度或者衍生维度（Derived）
将维度表的维度设置为衍生维度，这个维度不会参与计算，而是使用维度表的主键（或事实表的外键）来替代它。
Kylin会在底层记录维表主键与其他维度之间的映射关系，以便在查询时能够动态的将维度表的主键翻译成这些非主键维度，并进行实时聚合。
创建Cube的时候，这些维度如果指定为衍生维度，Kylin将会排除这些维度，而是使用维度表的主键来代替它们创建Cuboid，后续查询的时候，再基于主键的聚合结果，在进行一次聚合。
使用衍生角度会有效减少Cube中的Cuboid数量，但在查询的时候会增加聚合的时间。

不适合的场景：

如果从维度表主键到某个维度表所需要的聚合工作量非常大，此时作为一个普通的维度表聚合更合适，否则会影响Kylin的查询性能。

案例1-定义衍生维度及对比

基本介绍

有以下时间日期维表：
在这里插入图片描述

编写 SQL

-- 建表
drop table wzk_kylin.dim_date;
create table wzk_kylin.dim_date(
dateid string,
dayofyear string,
dayofmonth string,
day_in_year string,
day_in_month string,
weekday string,
week_in_month string,
week_in_year string,
date_type string,
quarter string
)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

-- 加载数据
LOAD DATA LOCAL INPATH 'dim_date.txt' OVERWRITE
INTO TABLE wzk_kylin.dim_date;

备注信息：
日期维度代表 dim_date中两个字段，dayofyear、dayofmonth、不能是year、month。

测试数据

dim_date里，少放几条数据（机器太弱了跑不动）：

2024-01-01,2024,01,001,01,1,1,01,workday,Q1
2024-01-02,2024,01,002,02,2,1,01,workday,Q1
2024-01-03,2024,01,003,03,3,1,01,workday,Q1
2024-01-04,2024,01,004,04,4,1,01,workday,Q1

上传数据

cd /opt/wzk/kylin_test
vim dim_date.txt

写入如下的数据：
在这里插入图片描述

cd /opt/wzk/kylin_test
vim dim_date.sql

写入的数据如下图所示：
在这里插入图片描述
执行如下的脚本：

cd /opt/wzk/kylin_test
hive -f dim_date.sql

执行结果如下图所示：
在这里插入图片描述

Cube设计

在这里插入图片描述
对应的SQL：

select dim_date.dayofyear, sum(price)
from lagou_kylin.dw_sales join lagou_kylin.dim_date on
  dw_sales.date1 = dim_date.dateid
group by dim_date.dayofyear;

基本的执行流程如：
创建项目 - 指定数据源 - 定义Model- 定义Cube - 查询

加载数据源

之前已经操作过很多次了，这里就简单一些写了，添加日期维度表：
在这里插入图片描述
创建Model，wzk_test_model_5，选择如下的连表关系：

维度按照按照如下图的配置进行：
在这里插入图片描述
度量还是按原来的：

剩下的部分默认即可。

构建Cube

我们分别构建刚才创建的两个Cube：
在这里插入图片描述

构建结果

构建的结果如下图所示：

wzk_test_kylin_cube_5

在这里插入图片描述

wzk_test_kylin_cube_5_2

在这里插入图片描述

检查Cube的Cuboid数量

我们刚才创建了两个Cube如下图所示：
在这里插入图片描述

wzk_test_kylin_cube_5

查看 wzk_test_kylin_cube_5：

kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReader wzk_kylin_test_cube_5

查询结构如下：

============================================================================
Statistics of wzk_kylin_test_cube_5[FULL_BUILD]

Cube statistics hll precision: 14
Total cuboids: 2047
Total estimated rows: 7999
Total estimated size(MB): 0.03921151161193848
Sampling percentage:  100
Mapper overlap ratio: 1.0
Mapper number: 1
Length of dimension WZK_KYLIN.DW_SALES.DATE1 is 1
Length of dimension WZK_KYLIN.DIM_DATE.DATEID is 1
Length of dimension WZK_KYLIN.DIM_DATE.DAYOFYEAR is 1
Length of dimension WZK_KYLIN.DIM_DATE.DAYOFMONTH is 1
Length of dimension WZK_KYLIN.DIM_DATE.DAY_IN_YEAR is 1
Length of dimension WZK_KYLIN.DIM_DATE.DAY_IN_MONTH is 1
Length of dimension WZK_KYLIN.DIM_DATE.WEEKDAY is 1
Length of dimension WZK_KYLIN.DIM_DATE.WEEK_IN_MONTH is 1
Length of dimension WZK_KYLIN.DIM_DATE.WEEK_IN_YEAR is 1
Length of dimension WZK_KYLIN.DIM_DATE.DATE_TYPE is 1
Length of dimension WZK_KYLIN.DIM_DATE.QUARTER is 1
|---- Cuboid 11111111111, est row: 4, est MB: 0
    |---- Cuboid 00110001111, est row: 1, est MB: 0, shrink: 25%
----------------------------------------------------------------------------
2024-08-10 16:46:06,454 INFO  [close-hbase-conn] hbase.HBaseConnection:137 : Closing HBase connections...
2024-08-10 16:46:06,454 INFO  [close-hbase-conn] client.ConnectionManager$HConnectionImplementation:2155 : Closing master protocol: MasterService
2024-08-10 16:46:06,456 INFO  [close-hbase-conn] client.ConnectionManager$HConnectionImplementation:1712 : Closing zookeeper sessionid=0x200dd291db1003c
2024-08-10 16:46:06,467 INFO  [main-EventThread] zookeeper.ClientCnxn:512 : EventThread shut down
2024-08-10 16:46:06,467 INFO  [close-hbase-conn] zookeeper.ZooKeeper:684 : Session: 0x200dd291db1003c closed
root@h122:~#

对应的截图如下所示：
在这里插入图片描述

wzk_test_kylin_cube_5_2

查看 wzk_test_kylin_cube_5_2：

kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReader wzk_test_kylin_cube_5_2

查询结果如下：
在这里插入图片描述

标签：Cube,Kylin,MB,Cuboid,维度,est,Apache,row
From： https://blog.csdn.net/w776341482/article/details/142845678

大数据-164 Apache Kylin Cube优化案例1 定义衍生维度与对比超详细

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

章节内容

Cuboid剪枝优化

检查Cuboid数量

检查Cube大小

使用衍生维度

案例1-定义衍生维度及对比

基本介绍

编写 SQL

测试数据

上传数据

Cube设计

加载数据源

构建Cube

构建结果

wzk_test_kylin_cube_5

wzk_test_kylin_cube_5_2

检查Cube的Cuboid数量

wzk_test_kylin_cube_5

wzk_test_kylin_cube_5_2

相关文章

赞助商

阅读排行

大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

章节内容

Cuboid剪枝优化

检查Cuboid数量

检查Cube大小

使用衍生维度

案例1-定义衍生维度及对比

基本介绍

编写 SQL

测试数据

上传数据

Cube设计

加载数据源

构建Cube

构建结果

wzk_test_kylin_cube_5

wzk_test_kylin_cube_5_2

检查Cube的Cuboid数量

wzk_test_kylin_cube_5

wzk_test_kylin_cube_5_2

相关文章

赞助商

阅读排行

大数据-164 Apache Kylin Cube优化案例1 定义衍生维度与对比超详细