1、表引擎介绍
ClickHouse表引擎是ClickHouse的一大特色。可以说, 表引擎决定了如何存储表的数据。包括:
- 数据的存储方式和位置,写到哪里以及从哪里读取数据。
- 支持哪些查询以及如何支持。
- 并发数据访问。
- 索引的使用(如果存在)。
- 是否可以执行多线程请求。
- 数据复制参数。
表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎,以及引擎使用的相关参数。说明:表引擎的大小写敏感,在写建表语句的时候需要注意一下。
2、TinyLog
TinyLog 是最简单的表引擎,用于将数据存储在磁盘上。每列都存储在单独的压缩文件中,写入时,数据将附加到文件末尾。该引擎没有并发控制 - 如果同时从表中读取和写入数据,则读取操作将抛出异常; - 如果同时写入多个查询中的表,则数据将被破坏。 这种表引擎的典型用法是 write-once:首先只写入一次数据,然后根据需要多次读取。此引擎适用于相对较小的表(建议最多1,000,000行)。如果有许多小表,则使用此表引擎是适合的,因为它比需要打开的文件更少。当拥有大量小表时,可能会导致性能低下。 不支持索引。 下面使用 TinyLog 建表create table t_tinylog ( id String, name String) engine=TinyLog;此时我们到保存数据的目录/var/lib/clickhouse/data/default/t_tinylog 中可以看到如下目录结构:
[root@hadoop201 hui]# ll /var/lib/clickhouse/data/default/t_tinylog/ total 12 -rw-r----- 1 clickhouse clickhouse 31 May 19 15:04 id.bin -rw-r----- 1 clickhouse clickhouse 33 May 19 15:04 name.bin -rw-r----- 1 clickhouse clickhouse 64 May 19 15:04 sizes.json其中 id.bin name.bin 是压缩后的数据
[root@hadoop201 hui]# less /var/lib/clickhouse/data/default/t_tinylog/sizes.json {"yandex":{"id%2Ebin":{"size":"31"},"name%2Ebin":{"size":"33"}}}
3、Memory
内存引擎,数据以未压缩的原始形式直接保存在内存当中,服务器重启数据就会消失。读写操作不会相互阻塞,不支持索引。简单查询下有非常非常高的性能表现(超过10G/s)。一般用到它的地方不多,除了用来测试,就是在需要非常高的性能,同时数据量又不太大(上限大概 1 亿行)的场景。4、MergeTree
MergeTree 是ClickHouse中最强大的表引擎当属MergeTree(合并树)引擎及该系列(*MergeTree)中的其他引擎,支持索引和分区,地位可以相当于innodb之于Mysql。 而且基于MergeTree,还衍生除了很多小弟,也是非常有特色的引擎。建表
create table t_order_mt( id UInt32, sku_id String, total_amount Decimal(16,2), create_time Datetime ) engine =MergeTree #指定引擎 partition by toYYYYMMDD(create_time) #分区字段 primary key (id) #主键:这里的主键可以重复 order by (id,sku_id); #排序字段插入数据
insert into t_order_mt values (101,'sku_001',1000.00,'2022-08-01 12:00:00') , (102,'sku_002',2000.00,'2022-08-01 11:00:00'), (102,'sku_004',2500.00,'2022-08-01 12:00:00'), (102,'sku_002',2000.00,'2022-08-01 13:00:00'), (102,'sku_002',12000.00,'2022-08-01 13:00:00'), (102,'sku_002',600.00,'2022-08-02 12:00:00');查询一下:这里分两个区
hadoop201 :) sselect * from t_order_mt;select * from t_order_mt; Query id: 49765984-11f1-43e0-b453-b291fe04655c ┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐ │ 101 │ sku_001 │ 1000.00 │ 2022-08-01 12:00:00 │ │ 102 │ sku_002 │ 2000.00 │ 2022-08-01 11:00:00 │ │ 102 │ sku_004 │ 2500.00 │ 2022-08-01 12:00:00 │ │ 102 │ sku_002 │ 2000.00 │ 2022-08-01 13:00:00 │ │ 102 │ sku_002 │ 12000.00 │ 2022-08-01 13:00:00 │ └─────┴─────────┴──────────────┴─────────────────────┘ ┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐ │ 102 │ sku_002 │ 600.00 │ 2022-08-02 12:00:00 │需要注意:通过ClickHouse 自带的 client 查询有分区效果,但是通过第三方工具连接ClickHouse 查询是没有分区效果的;下面是Datagrip的查询效果
101 sku_001 1000.00 2022-08-01 04:00:00 102 sku_002 2000.00 2022-08-01 03:00:00 102 sku_004 2500.00 2022-08-01 04:00:00 102 sku_002 2000.00 2022-08-01 05:00:00 102 sku_002 12000.00 2022-08-01 05:00:00 102 sku_002 600.00 2022-08-02 04:00:00MergeTree其实还有很多参数(绝大多数用默认值即可),但是三个参数是更加重要的,也涉及了关于MergeTree的很多概念。
4.1、partition by 分区 (可选项)
作用:分区的目的主要是降低扫描的范围,优化查询速度; 如果不填:只有一个分区;all 分区目录:MergeTree 是以列文件+索引文件+表定义文件组成的,但是如果设定了分区那么这些文件就会保存到不同的分区目录中。 并行:分区后,面对涉及跨分区的查询统计,ClickHouse会以分区为单位并行处理。[root@hadoop201 clickhouse]# pwd /var/lib/clickhouse [root@hadoop201 clickhouse]# ll total 4 drwxr-x--- 2 clickhouse clickhouse 116 Aug 2 09:00 access drwxr-x--- 3 clickhouse clickhouse 33 Aug 6 21:07 backup drwxr-x--- 2 clickhouse clickhouse 6 Aug 2 09:00 cores drwxr-x--- 6 clickhouse clickhouse 70 Aug 6 15:31 data #数据文件 drwxr-x--- 2 clickhouse clickhouse 6 Aug 2 09:00 dictionaries_lib drwxr-x--- 2 clickhouse clickhouse 6 Aug 2 09:00 flags drwxr-x--- 2 clickhouse clickhouse 6 Aug 2 09:00 format_schemas drwxr-x--- 3 clickhouse clickhouse 150 Aug 6 15:31 metadata #元数据 drwxr-x--- 2 clickhouse clickhouse 6 Nov 5 23:24 metadata_dropped drwxr-x--- 2 clickhouse clickhouse 41 Aug 2 09:00 preprocessed_configs drwxr-x--- 2 clickhouse clickhouse 27 Aug 6 21:07 shadow -rw-r----- 1 clickhouse clickhouse 58 Nov 5 17:34 status drwxr-x--- 28 clickhouse clickhouse 292 Nov 5 23:16 store drwxr-x--- 2 clickhouse clickhouse 6 Aug 2 09:00 tmp drwxr-x--- 2 clickhouse clickhouse 6 Aug 2 09:00 user_files [root@hadoop201 metadata]# pwd /var/lib/clickhouse/metadata drwxr-xr-x 2 clickhouse clickhouse 46 Aug 4 15:16 datasets -rw-r----- 1 clickhouse clickhouse 43 Aug 4 15:17 datasets.sql lrwxrwxrwx 1 clickhouse clickhouse 67 Aug 2 09:00 default -> /var/lib/clickhouse/store/1db/1dbec0d7-a9c7-43b8-9dbe-c0d7a9c753b8/ -rw-r----- 1 clickhouse clickhouse 78 Aug 2 09:00 default.sql lrwxrwxrwx 1 clickhouse clickhouse 67 Aug 2 09:00 system -> /var/lib/clickhouse/store/27d/27d15ac3-28bb-4586-a7d1-5ac328bb7586/ -rw-r----- 1 clickhouse clickhouse 78 Aug 2 09:00 system.sql 存放每个数据库下表的建表语句 [root@hadoop201 default]# pwd /var/lib/clickhouse/metadata/default [root@hadoop201 default]# ll total 4 -rw-r----- 1 clickhouse clickhouse 290 Aug 3 15:23 t_order_mt.sql #建表语句 [root@hadoop201 default]# less t_order_mt.sql ATTACH TABLE _ UUID 'f86dc6d3-aec1-493e-b86d-c6d3aec1293e' ( `id` UInt32, `sku_id` String, `total_amount` Decimal(16, 2), `create_time` DateTime ) ENGINE = MergeTree PARTITION BY toYYYYMMDD(create_time) PRIMARY KEY id ORDER BY (id, sku_id) SETTINGS index_granularity = 8192数据其实存储在 /var/lib/clickhouse/store,但是下面的目录不方便阅读,软连接到来/var/lib/clickhouse/data
[root@hadoop201 t_order_mt]# pwd /var/lib/clickhouse/data/default/t_order_mt [root@hadoop201 t_order_mt]# ll total 4 drwxr-x--- 2 clickhouse clickhouse 203 Aug 3 15:25 20220801_1_1_0 drwxr-x--- 2 clickhouse clickhouse 203 Aug 3 15:25 20220802_2_2_0 drwxr-x--- 2 clickhouse clickhouse 6 Aug 3 15:23 detached -rw-r----- 1 clickhouse clickhouse 1 Aug 3 15:23 format_version.txt 文件说明: bin 文件是数据文件 mrk 文件是标记文件:标记文件在 idx索引文件和bin 数据文件起到桥梁作用 primark.idx 文件主键索引文件,用于加快查询效率 minmax_create_time.idx 分区键最大最小指 checksums.txt 校验文件,用于校验各文件的正确性,存放各文件的size和hash值文件格式说明
20220801_ 1_1_0 第一个1 表示最小分区块编号,第二个1 表示最大分区块编号 0 表示合并等级文件说明
[root@hadoop201 t_order_mt]# cd 20220801_1_1_0 [root@hadoop201 20220801_1_1_0]# ll total 36 -rw-r----- 1 clickhouse clickhouse 259 Nov 5 23:16 checksums.txt #校验信息 -rw-r----- 1 clickhouse clickhouse 118 Nov 5 23:16 columns.txt #列信息 -rw-r----- 1 clickhouse clickhouse 1 Nov 5 23:16 count.txt #当前分区记录数 -rw-r----- 1 clickhouse clickhouse 194 Nov 5 23:16 data.bin #数据文件 -rw-r----- 1 clickhouse clickhouse 144 Nov 5 23:16 data.mrk3 #标记 -rw-r----- 1 clickhouse clickhouse 10 Nov 5 23:16 default_compression_codec.txt -rw-r----- 1 clickhouse clickhouse 8 Nov 5 23:16 minmax_create_time.idx #分区内最大最小值 -rw-r----- 1 clickhouse clickhouse 4 Nov 5 23:16 partition.dat #分区 -rw-r----- 1 clickhouse clickhouse 8 Nov 5 23:16 primary.idx #主键索引数据写入和分区合并:任何一个批次的数据写入都会产生一个临时分区,不会纳入任何一个已有的分区。写入后的某个时刻(大概10-15分钟后),ClickHouse会自动执行合并操作(等不及也可以手动通过optimize执行),把临时分区的数据,合并到已有分区中
optimize table tabName final;再次插入数据
insert into t_order_mt values (101,'sku_001',1000.00,'2022-08-01 12:00:00') , (102,'sku_002',2000.00,'2022-08-01 11:00:00'), (102,'sku_004',2500.00,'2022-08-01 12:00:00'), (102,'sku_002',2000.00,'2022-08-01 13:00:00'), (102,'sku_002',12000.00,'2022-08-01 13:00:00'), (102,'sku_002',600.00,'2022-08-02 12:00:00');查看数据并没有纳入任何分区
hadoop201 :) select * from t_order_mt; SELECT * FROM t_order_mt Query id: 1bc4f73d-68c4-4f37-a4ab-e1b51bc1673b ┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐ │ 102 │ sku_002 │ 600.00 │ 2022-08-02 12:00:00 │ └─────┴─────────┴──────────────┴─────────────────────┘ ┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐ │ 102 │ sku_002 │ 600.00 │ 2022-08-02 12:00:00 │ └─────┴─────────┴──────────────┴─────────────────────┘ ┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐ │ 101 │ sku_001 │ 1000.00 │ 2022-08-01 12:00:00 │ │ 102 │ sku_002 │ 2000.00 │ 2022-08-01 11:00:00 │ │ 102 │ sku_002 │ 2000.00 │ 2022-08-01 13:00:00 │ │ 102 │ sku_002 │ 12000.00 │ 2022-08-01 13:00:00 │ │ 102 │ sku_004 │ 2500.00 │ 2022-08-01 12:00:00 │ └─────┴─────────┴──────────────┴─────────────────────┘ ┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐ │ 101 │ sku_001 │ 1000.00 │ 2022-08-01 12:00:00 │ │ 102 │ sku_002 │ 2000.00 │ 2022-08-01 11:00:00 │ │ 102 │ sku_002 │ 2000.00 │ 2022-08-01 13:00:00 │ │ 102 │ sku_002 │ 12000.00 │ 2022-08-01 13:00:00 │ │ 102 │ sku_004 │ 2500.00 │ 2022-08-01 12:00:00 │ └─────┴─────────┴──────────────┴─────────────────────┘ └─────┴─────────┴──────────────┴─────────────────────┘文件展示
[root@hadoop201 t_order_mt]# pwd /var/lib/clickhouse/data/default/t_order_mt [root@hadoop201 t_order_mt]# ll total 4 drwxr-x--- 2 clickhouse clickhouse 203 Aug 3 15:25 20220801_1_1_0 drwxr-x--- 2 clickhouse clickhouse 203 Aug 4 04:44 20220801_3_3_0 drwxr-x--- 2 clickhouse clickhouse 203 Aug 3 15:25 20220802_2_2_0 drwxr-x--- 2 clickhouse clickhouse 203 Aug 4 04:44 20220802_4_4_0 drwxr-x--- 2 clickhouse clickhouse 6 Aug 3 15:23 detached手动optimize之后
hadoop201 :) optimize table t_order_mt final;再次查询
hadoop201 :) optimize table t_order_mt final; OPTIMIZE TABLE t_order_mt FINAL Query id: 4ba36fcd-654a-478b-85dc-1b1c724698bc Ok. 0 rows in set. Elapsed: 0.006 sec. hadoop201 :) select * from t_order_mt; SELECT * FROM t_order_mt Query id: 622e35d8-e5b5-41ad-bd49-69945bd05ba8 ┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐ │ 102 │ sku_002 │ 600.00 │ 2022-08-02 12:00:00 │ │ 102 │ sku_002 │ 600.00 │ 2022-08-02 12:00:00 │ └─────┴─────────┴──────────────┴─────────────────────┘ ┌──id─┬─sku_id──┬─total_amount─┬─────────create_time─┐ │ 101 │ sku_001 │ 1000.00 │ 2022-08-01 12:00:00 │ │ 101 │ sku_001 │ 1000.00 │ 2022-08-01 12:00:00 │ │ 102 │ sku_002 │ 2000.00 │ 2022-08-01 11:00:00 │ │ 102 │ sku_002 │ 2000.00 │ 2022-08-01 13:00:00 │ │ 102 │ sku_002 │ 12000.00 │ 2022-08-01 13:00:00 │ │ 102 │ sku_002 │ 2000.00 │ 2022-08-01 11:00:00 │ │ 102 │ sku_002 │ 2000.00 │ 2022-08-01 13:00:00 │ │ 102 │ sku_002 │ 12000.00 │ 2022-08-01 13:00:00 │ │ 102 │ sku_004 │ 2500.00 │ 2022-08-01 12:00:00 │ │ 102 │ sku_004 │ 2500.00 │ 2022-08-01 12:00:00 │ └─────┴─────────┴──────────────┴─────────────────────┘ 12 rows in set. Elapsed: 0.009 sec.
查看文件
[root@hadoop201 t_order_mt]# ll total 4 drwxr-x--- 2 clickhouse clickhouse 203 Aug 3 15:25 20220801_1_1_0 drwxr-x--- 2 clickhouse clickhouse 203 Aug 4 04:46 20220801_1_3_1 drwxr-x--- 2 clickhouse clickhouse 203 Aug 4 04:44 20220801_3_3_0 drwxr-x--- 2 clickhouse clickhouse 203 Aug 3 15:25 20220802_2_2_0 drwxr-x--- 2 clickhouse clickhouse 203 Aug 4 04:46 20220802_2_4_1 drwxr-x--- 2 clickhouse clickhouse 203 Aug 4 04:44 20220802_4_4_0 drwxr-x--- 2 clickhouse clickhouse 6 Aug 3 15:23 detached等到合并文件后 会删除之前的文件,可以对单独分区内数据进行合并
optimize table t_order_mt partition '20220801' final;