【前言】作为中国的 “Fivetran/Airbyte”, Tapdata Cloud自去年发布云版公测以来,吸引了近万名用户的注册使用。应社区用户上生产系统的要求,Tapdata Cloud 3.0将正式推出商业版服务,提供对生产系统的 SLA 支撑。Tapdata 目前专注在实时数据同步和集成领域,核心场景包括以下几大类:
- 实时数据库同步,如 Oracle → Oracle, Oracle → MySQL, MySQL → MySQL 等
- 数据入湖入仓,或者为现代数据平台供数,如:
- 常规 ETL 任务(建宽表、数据清洗、脱敏等)
- 为 Kafka/MQ/Bitsflow 供数或下推 具体场景则数不胜数,值此之际,我们将以系列文章形式,为大家盘点 Tapdata Cloud 可以支撑的业务场景和 3.0 版本新特性,以便大家更好在业务中应用 Tapdata。本期为系列文章第三弹,将详细介绍 Tapdata Cloud 如何快速打通数据与阿里云 Tablestore 之间的高速通路,加速体验海量数据低成本存储、毫秒级的在线数据查询和检索以及灵活的数据分析能力。(点击申请产品内测,抢先体验 →)
数字化进程持续加速的今天,随着业务的发展累积,以及企业对数据的重视,需要处理的信息量也越来越大。首先,是来自于海量数据的存储挑战,如在实现可靠的持久化的同时,如何实现数据的并发写入?复杂的分析场景需要对数据进行即时访问,存储系统运维如何更加高效。其次,大数据技术的发展以及运营水平的不断提升,也对后续的数据分析工作,如流批处理、ETL 等提出了新的要求。
上述种种行业变化与技术发展,都对数据的存储系统提出了更高的要求。传统方案依赖关系型数据库在面对海量规模数据与复杂数据检索业务场景时,为了弥补能力限制往往需要分库分表、引入搜索引擎等,大大增加了开发工作量与运维复杂度。在这样的背景下,阿里云表格存储(Tablestore)能够支持海量数据持久化存储、支持数据复杂检索的优势日益凸显 。
一、阿里云 Tablestore:即开即用的 Serverless 表存储服务
作为阿里云自研的结构化数据存储,Tablestore 面向海量数据提供 Serverless 表存储服务,以及快速查询和分析的服务,同时针对物联网场景深度优化提供一站式的 IoTstore 解决方案。该产品适用于海量账单、IM 消息、物联网、车联网、风控、推荐等场景中的结构化数据存储,提供海量数据低成本存储、毫秒级在线数据查询和检索以及灵活的数据分析能力。同时兼具零运维管控,即开即用,按量付费的特性。
如何在不影响原有业务的前提下,加速实现数据迁移,把分散的海量异构数据实时同步至 Tablestore,以应对更加复杂的数据存储及查询需求?
近日,以这一需求为出发点,Tapdata 作为异构数据实时同步及开发的领先平台,已与阿里云 Tablestore 完成产品集成认证。Tapdata 已支持 Tablestore 作为数据目标,从而为 Tablestore 提供海量异构数据导入能力支撑。
二、Tapdata Cloud:开箱即用的异构数据实时同步和开发平台
秉承让每个企业使用数据像自来水一样方便,Tapdata Cloud 以突出的异构数据库实时同步能力和 SaaS 化服务方式,支持无代码可视化方式将数据从任何源端实时同步到指定的目标端。
为什么选择 Tapdata 作为 Tablestore 的数据迁移工具
借助 Tapdata 服务来完成数据向 Tablestore 的同步,具备以下特性:
-
**低代码可视化的极简操作 **全流程无代码和低代码可视操作,支持用户在拖拉拽中快速创建任务,无需编码甚至 SQL 来编写转换规则。
-
基于云原生架构,对云上数据库 Tablestore 更加友好 Tapdata 天然具备云上云下、云内/跨云数据的无缝迁移和实时同步优势。此外,Tapdata Cloud 自 3.0 版本起开始支持阿里云计算巣部署模式,在实现云上一键自动化部署的同时,对于数据向阿里云上迁移也更加便捷流畅。
-
内置 50+ 数据连接器,稳定的实时采集和传输能力 以实时的方式从各个数据来源,包括数据库、API、队列、物联网等数据提供者采集或同步最新的数据变化。支持多源异构数据双向同步,自动映射关系型到非关系型。一键实现实时捕获,毫秒内更新。已内置50+连接器且不断拓展中,覆盖大部分主流的数据库和类型,并支持您自定义数据源。
-
数据一致性保障 通过多种自研技术,保障目标端数据与源数据的高一致性,并支持通过多种方式完成一致性校验,保障生产要求。
-** 对源库几乎无影响** 基于自研的 CDC 日志解析技术,0入侵实时采集数据,对源库几乎无影响。
- 全链路实时 基于 Pipeline 流式数据处理,以应对基于单条数据记录的即时处理需求,如数据库 CDC、消息、IoT 事件等。不同于传统 ETL,每一条新产生并进入到平台的数据,会在秒级范围被响应,计算,处理并写入到目标表中。同时提供了基于时间窗的统计分析能力,适用于实时分析场景。