首页 > 数据库 >大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL

时间:2024-09-24 16:54:22浏览次数:22  
标签:HDFS 01 140 数据源 kafka 2024 id ClickHouse


点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(正在更新···)

章节内容

上节我们完成了如下的内容:

  • MergeTree 实测案例
  • ReplacingMergeTree
  • SummingMergeTree

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL_大数据

CollapsingMergeTree

简介

以增代删。
Yandex官方给出的介绍是CollapsingMergeTree会异步的删除(折叠)除了特定列的 Sign 有 1 和 -1 的值以外,其余所有字段的值都相等的成对的行。没有成对的行会被保留,该引擎可以显著的降低存储量并提高SELECT查询效率。
CollapsingMergeTree引擎有个状态列Sign,这个值为1为“状态”行,-1为“取消”行,对于数据只关心状态列为状态的数据,不关心状态列为取消的数据。

案例

创建新表

CREATE TABLE cmt_tab (
  id UInt32,
  sign Int8,
  date Date,
  name String,
  point String
) 
ENGINE = CollapsingMergeTree(sign)
PARTITION BY toYYYYMM(date)
ORDER BY (name, id)
SAMPLE BY id;

执行结果如下图:

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL_java_02

插入数据

INSERT INTO cmt_tab (id, sign, date, name, point) VALUES
(1, 1, '2024-01-01', 'Alice', '10'),
(2, 1, '2024-01-01', 'Bob', '15'),
(3, 1, '2024-01-02', 'Charlie', '20'),
(4, 1, '2024-01-02', 'David', '25'),
(5, 1, '2024-01-03', 'Eve', '30');

-- Mark Alice's row as deleted
-- Mark Bob's row as deleted
INSERT INTO cmt_tab (id, sign, date, name, point) VALUES
(1, -1, '2024-01-01', 'Alice', '10'),
(2, -1, '2024-01-01', 'Bob', '15');

-- Insert Alice's updated row
-- Insert Bob's updated row
INSERT INTO cmt_tab (id, sign, date, name, point) VALUES
(1, 1, '2024-01-01', 'Alice', '12'),
(2, 1, '2024-01-01', 'Bob', '18');

运行结果如下所示:

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL_mysql_03

optimize

OPTIMIZE TABLE cmt_tab;
SELECT
  *
FROM
  cmt_tab;

执行结果如下图所示:

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL_mysql_04

使用场景

大数据中对于数据更新很难做到,比如统计一个网站或TV的用户数,更多场景都是选择用记录每个点的数据,再对数据进行聚合查询。而ClickHouse通过CollapsingMergeTree就可以实现,使得CollapsingMergeTreeTree大部分用于OLAP场景。

VersionedCollapsingMergeTree

这个引擎和CollapsingMergeTree差不多,只是对CollapsingMergeTree引擎加了一个版本,比如可以适用于非实时的在线统计,统计每个节点用户在线的业务。

其他数据源

端口冲突

我们的ClickHouse和Hadoop的9000端口冲突了,看大家是更改ClickHouse的端口,还是Hadoop的端口。
我这里选择修改ClickHouse的端口,从9000到9001。
不过如果你不做HDFS的相关实验,这块冲突不管直接跳过就好。

我这里选择修改 ClickHouse,我已经集群都修改完毕了,所以我连接方式修改为:

clickhouse-client -m --host h121.wzk.icu --port 9001 --user default --password clickhouse@wzk.icu

HDFS

该引擎提供了集成了Apache Hadoop生态系统通过允许管理数据HDFS通过ClickHouse,这个引擎是相似的到文件和URL引擎,但提供Hadoop特定的功能。

用途介绍

ENGINE = HDFS(URI, format)
该URI参数是HDFS中整个文件的URI,该format参数指定一种可用的文件格式。执行SELECT查询时,格式必须支持输入。

示例1

添加新表

设置 HDFS_ENGINE_TABLE 表:

CREATE TABLE hdfs_engine_table(
  name String,
  value UInt32
) ENGINE = HDFS('hdfs://h121.wzk.icu:9000/clickhouse', 'TSV');

运行之后的截图为:

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL_mysql_05

插入数据

INSERT INTO hdfs_engine_table VALUES('one', 1), ('two', 2), ('three', 3);

运行之后截图为:

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL_java_06

查询数据

SELECT
  *
FROM
  hdfs_engine_table;

运行之后的截图为:

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL_mysql_07

HDFS 数据查看

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL_hdfs_08

实施细节

  • 读取和写入可以并行
  • 不支持:ALTER、SELECT SAMPLE、索引、复制

MySQL

介绍

MySQL 引擎可以对存储在远程MySQL服务器上的数据执行SELECT查询。

调用参数

  • host:port MySQL服务器地址
  • database 数据库名称
  • table 表名称
  • user 数据库用户
  • password 用户密码
  • replace_query 将INSERT INTO查询是否替换为REPLACE_INFO的标志,如果REPLACE_QUERY=1则替换查询
  • on_duplicate_clause 将ON DUPLCATE KEY UPDATE 表达式添加到INSERT查询语句中。

示例

创建新表

CREATE TABLE mysql_table2 (
  `id` UInt32,
  `name` String,
  `age` UInt32
) ENGINE = MySQL('h122.wzk.icu:3306', 'clickhouse', 'mysql_table2', 'hive', 'hive@wzk.icu')

执行结果如下图所示:

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL_java_09

数据库配置

在数据库中,我们要建立好对应的数据库和表:

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL_clickhouse_10

插入数据

INSERT INTO mysql_table2 VALUES(1, 'wzk', 18);
INSERT INTO mysql_table2 VALUES(2, 'icu', 18);

查询数据

SELECT
  *
FROM
  mysql_table2;

运行之后截图:

大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL_大数据_11

Kafka

Apache Kafka 是一个分布式流处理平台,广泛用于构建实时数据管道和流应用。它能够高效地处理大量的实时数据流,常用于日志收集、事件监控、实时分析等场景。ClickHouse 提供了专门的 Kafka 引擎,使其能够直接从 Kafka 中读取数据,实现实时数据流的处理与分析。

创建新表

CREATE TABLE kafka_events
(
    `timestamp` DateTime,
    `event_type` String,
    `user_id` UInt64,
    `event_data` String
)
ENGINE = Kafka
SETTINGS
    kafka_broker_list = 'broker1:9092,broker2:9092',
    kafka_topic_list = 'events_topic',
    kafka_group_name = 'clickhouse_group',
    kafka_format = 'JSONEachRow',
    kafka_num_consumers = 1;

创建目标表并设置 Materialized View
为了将 Kafka 中的数据持久化到 ClickHouse 的表中,通常会创建一个目标表,并通过 Materialized View 实现自动插入。

CREATE TABLE events (
    `timestamp` DateTime,
    `event_type` String,
    `user_id` UInt64,
    `event_data` String
) ENGINE = MergeTree()
ORDER BY timestamp;

CREATE MATERIALIZED VIEW kafka_to_events
TO events
AS SELECT * FROM kafka_events;

插入数据

INSERT INTO events SELECT * FROM kafka_events;

应用场景

  • 实时日志分析:通过 Kafka 收集应用日志,ClickHouse 实时消费并分析日志数据,支持快速故障排查和性能监控。
  • 事件驱动的业务分析:实时跟踪用户行为事件,进行实时的用户行为分析和推荐系统。
  • 实时监控与报警:将监控数据流入 Kafka,ClickHouse 处理并生成实时报警指标。


标签:HDFS,01,140,数据源,kafka,2024,id,ClickHouse
From: https://blog.51cto.com/wuzikang/12100910

相关文章

  • Hadoop三大组件之HDFS(一)
    1.HDFS的架构HDFS(HadoopDistributedFileSystem)采用主从架构,由一个NameNode(主节点)和多个DataNode(从节点)组成。NameNode负责管理数据块映射信息(如文件名、文件目录、权限、块位置等)并配置副本策略,而DataNode负责存储实际的数据块。SecondaryNameNode辅助NameNode进行元......
  • HBase与HDFS&Hive
    在大数据领域中,HBase和HDFS是两种常用的存储系统。它们各自有其独特的特性和优势,但也有一些关键的差异。理解这些差异可以帮助我们更好地选择适合我们需求的存储解决方案。HBase:HBase是一个分布式列存储数据库,它是ApacheHadoop生态系统的一部分。它以行键为索引,支持高性能的随机......
  • 100个句子记完7000个雅思单词 实际只有约1400个词汇
    en:"Thereisconsiderabledebateoverhowweshouldreactifwedetectasignalfromanaliencivilization.",cn:"如果我们探测到了来自外星文明的信号,我们应该如何回应是一个备受争议的问题。"en:"Thetwoworldwars,whichinterruptedthesupplyofrawmateria......
  • Flink数据源拆解分析(WikipediaEditsSource)
    在demo中,WikipediaEditsSource类作为数据源负责向Flink提供实时消息,今天咱们一起来分析其源码,了解Flink是怎么获取到来自Wiki的实时数据的,这对我们今后做自定义数据源也有很好的参考作用;官方解释以下是官网对消息来源的说明,维基百科提供了一个IRC协议的通道,从这个通道可以获取对......
  • Java中的多数据源管理:如何在单个应用中集成多数据库
    Java中的多数据源管理:如何在单个应用中集成多数据库大家好,我是微赚淘客返利系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿!在现代软件架构中,应用往往需要访问多个数据库以支持不同的业务需求。本文将介绍如何在Java应用中实现多数据源管理,包括配置、使用和切换数据源的最佳......
  • 第140期 DeepGlobe道路提取数据集
    引言亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。DeepGlobe道路提取挑战:探索卫星图像中的道路网络在世界的各个角落,特别是在那些饱受......
  • 【机器学习】多模态AI——融合多种数据源的智能系统
    随着人工智能的快速发展,单一模态(如文本、图像或语音)已经不能满足复杂任务的需求。多模态AI(MultimodalAI)通过结合多种数据源(如文本、图像、音频等)来提升模型的智能和表现,适用于多样化的应用场景,如自动驾驶、医疗诊断、跨语言翻译等。一、多模态AI简介多模态AI是一种将不同......
  • 六种主流ETL工具的比较与Kettle的实践练习指南--MySQL、hive、hdfs等之间的数据迁移
            在数据集成和数据仓库建设中,ETL(Extract,Transform,Load)工具扮演着至关重要的角色。本文将对六种主流ETL工具进行比较,并深入探讨Kettle的实践应用。一、六种主流ETL工具比较1.DataPipeline设计及架构:专为超大数据量、高度复杂的数据链路设计的灵活、可扩......