更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群近日,大数据研发治理套件DataLeap数据集成更新CDC分库分表能力,可做到将多个实例的多个数据库的多个分表同步到目标端的一个表中,先离线同步,然后实时同步。适用于分库分表场景。同时,支持将 MySQL 同步到EMR-Doris、EMR-Starrocks、LAS,助力将最新的数据以最快且最低的带宽成本同步到目标库,辅助业务数据分析准确、提效 CDC(Change Data Capture)是变更数据获取的简称。可以基于增量日志,以极低的侵入性来完成增量数据捕获的工作。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,可以直接写入到消息中间件中以供其他服务进行订阅及消费,也可以直接对接其他数据源做业务或者数据分析&应用。 相比批量抽取的优势 与批量同步相比,变更数据的捕获通常具有如下三项基本优势:
- CDC通过仅发送增量的变更,来降低通过网络传输数据的成本
- CDC可以帮助用户根据最新的数据做出更快、更准确的决策。例如,CDC会将事务直接传输到专供分析的应用上
- CDC最大限度地减少了对于生产环境网络流量的干扰。
- 实时整库方案:即支持将一个数据库下的多张schema不同的表在一个解决方案中分别同步到目标端的不同表中。先离线同步,然后实时同步。当前支持 MySQL、PostGreSQL、SQLsever同步到EMR-Doris、StarRocks、LAS
- 实时分库分表方案:在整库方案基础上,更进一步支持将schema相同的多个实例的多个数据库的多个分表同步到目标端的一个表中。先离线同步,然后实时同步。适用于分库分表场景。当前支持 MySQL同步到 EMR-Doris、StarRocks、LAS。支持直连同步,也支持中间缓存到后kafka后再同步。