首页 > 其他分享 >Tapdata Connector 实用指南:实时数仓场景之数据实时同步至 ClickHouse

Tapdata Connector 实用指南:实时数仓场景之数据实时同步至 ClickHouse

时间:2023-02-24 20:25:47浏览次数:51  
标签:Tapdata 数仓 数据库 实时 数据 连接 ClickHouse

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata 是一个以低延迟数据移动为核心优势构建的现代数据平台,内置 60+ 数据连接器,拥有稳定的实时采集和传输能力、秒级响应的数据实时计算能力、稳定易用的数据实时服务能力,以及低代码可视化操作等。典型用例包括数据库到数据库的复制、将数据引入数据仓库或数据湖,以及通用 ETL 处理等。

随着 Tapdata Connector 的不断增长,我们最新推出《Tapdata Connector 实用指南》系列内容,以文字解析辅以视频演示,还原技术实现细节,模拟实际技术及应用场景需求,提供可以“收藏跟练”的实用专栏。本期实用指南以 MySQL → ClickHouse 为例,演示数据入仓场景下,如何将数据实时同步到 ClickHouse。

数智时代当前,数据正以极大量级、极细颗粒度、极高时效性、极智能方式影响着企业运作。业务发展更加依赖数据驱动,如何从类型丰富的海量数据中实时获取有价值的洞察力正在成为新的挑战。正因如此,兼具计算速度、高并发低延迟等性能优势的 ClickHouse 走入大家的视野,基于 ClickHouse 的实时数仓,也成为诸多企业在寻找强时效性、高数据准确性、低开发运维成本的数据分析与运营决策解决方案的优选之一。

同样密切关注实时数据价值与能量的 Tapdata,作为自带 ETL 的实时数据平台,也透过社区看到了大量相关的数据迁移需求,在最新一批数仓目标新增中,ClickHouse 赫然在列。

一、ClickHouse 的实时数仓优势

ClickHouse(全称 Click Stream, Data WareHouse),是一个开源的、面向列的 OLAP(联机分析)数据库管理系统),允许使用 SQL 查询实时生成分析报告。其前身为 Yandex.Metrica,主要用于 WEB 流量分析。除此之外, ClickHouse 官方推出的 ClickHouse Cloud,作为安全可扩展的云服务,支持轻松获取高效的实时分析处理能力,可以简化和加速现代数字企业的洞察力和分析能力。由于不需要管理基础设施,ClickHouse 云架构将存储和计算解耦,并自动扩展以适应现代工作负载,无需调整集群的大小即可满足极高的查询速度需求。

作为数据仓库使用时,ClickHouse 具有以下优势:

  • 高性能的数据处理能力。ClickHouse 设计的天然优势,支持高性能处理大量数据,每秒的数据处理量可达上亿行。
  • 实时分析。支持对大型数据集的实时分析,可满足实时数据处理和分析等场景需求。
  • 列式存储。允许对大型数据集进行快速查询和汇总。
  • 高可扩展性。Clickhouse 在构建时就考虑了水平可扩展性和高可用性,可以通过在集群中添加服务器轻松实现横向扩展,在处理大量数据的同时保障性能不受影响。
  • 数据压缩特性。内置压缩算法,可以大大减少数据所需的存储空间,便于存储和处理大量数据。
  • 生态便利。支持 SQL 查询,方便熟悉 SQL 的数据分析师和开发人员上手试用,更易于集成数据生态系统中的其他工具和应用。
  • 具有成本效益。作为一个开源项目,支持免费下载和使用。此外,活跃的开源社区也对使用者更加友好。

总的来说,ClickHouse 为存储和处理大量数据提供了一种快速、高效和具有成本效益的解决方案。为了实现上述优势,我们需要首先实现数据向 ClickHouse 的同步。

二、MySQL → ClickHouse 的数据入仓任务

点击查看演示视频
(*本演示视频版本为 Tapdata Cloud V3)

版本指路:

>>> 点击登录 Tapdata Cloud

>>> 申请试用 Tapdata 本地部署版

操作流程详解

① 登录 Tapdata Cloud

  • 默认已完成 Tapdata Cloud 账号注册及 Agent 部署

② 创建数据源 MySQL 的连接

在 Tapdata Cloud 连接管理菜单栏,点击【创建连接】按钮, 在弹出的窗口中选择 MySQL 数据库,并点击确定。
参考右侧【连接配置帮助】,完成连接创建:

③ 创建数据目标 ClickHouse 的连接

  1. 点击左侧菜单栏的【连接管理】,然后点击右侧区域【连接列表】右上角的【创建连接】按钮,打开连接类型选择页面,然后选择 ClickHouse。

  2. 在打开的连接信息配置页面依次输入需要的配置信息。

  • 连接名称:设置连接的名称,多个连接的名称不能重复
  • 数据库地址:数据库 IP / Host
  • 端口:数据库端口
  • 数据库名称
  • 账号:可以访问数据库的账号
  • 密码:数据库账号对应的密码
  • 时间类型的时区:默认使用该数据库的时区;若指定时区,则使用指定后的时区设置
  1. 单击连接测试,提示测试通过后单击保存。(*如提示连接测试失败,可根据页面提示进行修复)

④ 新建并运行 MySQL 到 ClickHouse 的同步任务

三、Why Tapdata

借助 Tapdata 出色的实时数据能力和广泛的数据源支持,可以在几分钟内完成从源库到 ClickHouse 包括全量、增量等在内的多重数据同步任务。

在 Any Source → ClickHouse 的数据同步任务中,Tapdata 展现出如下优势:

  • 内置 60+ 数据连接器,稳定的实时采集和传输能力
    以实时的方式从各个数据来源,包括数据库、API、队列、物联网等数据提供者采集或同步最新的数据变化。支持多源异构数据双向同步,自动映射关系型到非关系型。一键实现实时捕获,毫秒内更新。已内置 60+连接器且不断拓展中,覆盖大部分主流的数据库和类型,并支持您自定义数据源。

  • 具有强可扩展性的 PDK 架构
    4 小时快速对接 SaaS API 系统;16 小时快速对接数据库系统。

  • 对源库几乎无影响
    基于自研的 CDC 日志解析技术,0入侵实时采集数据,对源库几乎无影响。

  • 全链路实时
    基于 Pipeline 流式数据处理,以应对基于单条数据记录的即时处理需求,如数据库 CDC、消息、IoT 事件等。不同于传统 ETL,每一条新产生并进入到平台的数据,会在秒级范围被响应,计算,处理并写入到目标表中。同时提供了基于时间窗的统计分析能力,适用于实时分析场景。

  • 数据一致性保障
    通过多种自研技术,保障目标端数据与源数据的高一致性,并支持通过多种方式完成一致性校验,保障生产要求。

  • 可视化任务运行监控和告警
    包含 20+ 可观测性指标,包括全量同步进度、增量同步延迟等,能够实时监控在运行任务的最新运行状态、日志信息等,支持任务告警。

【相关阅读】

原文链接:https://tapdata.net/tapdata-connector-mysql-clickhouse.html

标签:Tapdata,数仓,数据库,实时,数据,连接,ClickHouse
From: https://www.cnblogs.com/tapdata/p/17153004.html

相关文章