首页 > 数据库 >XTransfer技术专家亮相2024MongoDB中国用户大会

XTransfer技术专家亮相2024MongoDB中国用户大会

时间:2024-09-04 11:54:50浏览次数:10  
标签:XTransfer 2024MongoDB 快照 读取 Connector MongoDB Flink 亮相 Apache

近日,2024 MongoDB 中国用户大会上海站顺利举办,XTransfer 技术专家、Apache Flink Committer 孙家宝受邀参加本次大会,并以“Apache Flink 连接 MongoDB 助力流式计算 ”为主题进行演讲。

本次演讲简要介绍 Apache Flink 流式计算引擎,Apache Flink CDC 流式数据集成框架,并重点探讨 Flink 与 MongoDB 数据库的集成能力,以及如何利用这些工具实现高效的数据流摄入、处理和分析

XTransfer技术专家亮相2024MongoDB中国用户大会_SQL

 图为孙家宝发表演讲

Apache Flink 是一个针对无界和有界数据流进行有状态计算的框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 擅长处理无界和有界数据集,精确的时间控制和状态化使得 Flink 的运行时能够运行任何处理无界流的应用。

XTransfer技术专家亮相2024MongoDB中国用户大会_SQL_02

Apache Flink 应用程序可以消费来自消息队列或分布式日志这类流式数据源(例如 Apache Kafka)的实时数据,也可以从各种的数据源中消费有界的历史数据。同样,Flink 应用程序生成的结果流也可以发送到各种数据存储中。

XTransfer技术专家亮相2024MongoDB中国用户大会_SQL_03

作为一个计算引擎,Flink 本身不持有数据,需要从外部系统中读取数据进行计算,然后将计算的结果写入目的地。Flink 通过 Flink Connectors 组件与外部系统相连接,Flink Connectors 在社区中一直是作为一等公民存在。

XTransfer技术专家亮相2024MongoDB中国用户大会_Apache_04

Apache Flink 官方支持的 MongoDB 连接器有两个,分别是 Flink MongoDB Connector 和 Flink MongoDB CDC Connector,均由来自 XTransfer 的贡献者发起并贡献给社区,使 Flink 具有了流批读取、流批写入 MongoDB 的能力。

Flink MongoDB Connector 基于全新的 Source 和 Sink 接口实现,同时支持 DataStream 和 Table API,在 Flink 1.16 版本得到支持。Flink MongoDB Connector 2.0.0 版本也计划近期发布,将支持 MongoDB 7.0,分片集合写入等新功能特性。

Flink MongoDB Connector 有以下四个功能特性:

● 分布式读取:MongoDB 连接器支持使用分区策略将需要读取的数据集合进行分区,将分区下发给多个 Reader 分布式读取,提升批量抽取数据的效率,减少数据读取时间。

XTransfer技术专家亮相2024MongoDB中国用户大会_SQL_05

● Lookup: MongoDB 连接器可以用在时态表关联中作为一个可 lookup 的 source (又称为维表),适用于流式数据处理时数据补全、打宽的场景。

XTransfer技术专家亮相2024MongoDB中国用户大会_数据_06

● 流批写入:MongoDB 连接器支持流式和批量写入 MongoDB,在指定主键时,支持 Upsert 方式写入 MongoDB。

XTransfer技术专家亮相2024MongoDB中国用户大会_SQL_07

● 过滤器下推: MongoDB 支持将 Flink SQL 的简单比较和逻辑过滤器下推以优化查询,并支持细粒度的开关让用户决定是否开启过滤器下推。

XTransfer技术专家亮相2024MongoDB中国用户大会_Apache_08

Apache Flink CDC 是新一代的流式数据集成框架,并且增加了一些高级特性,如表结构变更自动同步(Schema Evolution)、数据转换(Data Transformation)、整库同步(Full Database Synchronization)以及精确一次(Exactly-once)语义。

XTransfer技术专家亮相2024MongoDB中国用户大会_数据_09

Flink MongoDB CDC Connector 使用 MongoDB Change Stream 特性,实时捕获数据变更,转换成 Flink upsert 类型的变更流进行处理。

XTransfer技术专家亮相2024MongoDB中国用户大会_Apache_10

Flink MongoDB Connector 有以下四个功能特性:

● 增量快照: 接入了 Flink CDC 增量快照读框架,实现了并行增量快照读取的能力,加速快照过程,允许在快照阶段进行故障恢复。

● 多种启动模式: initial 初始读取数据快照,增量读取变更数据;lastest-offset 不读取快照,仅读取变更数据;timestamp 指定时间开始读取变更数据。

● 正则匹配多集合: 支持使用正则表达式匹配多库,多集合。

● Exactly-Once: 依托于增量快照读框架,支持精确一次读语义。

Flink SQL Planner 会对 Upsert 类型的 Changelog 使用 Changelog Normalize 算子标准化。但 Changelog Normalize 算子缓存流入的最新数据来补齐前置镜像值,带来额外的状态开销。在 MongoDB 6.0 版本,提供了 Pre- and Post-Images 选项,允许 Change Stream 返回变更完整的前置和后置镜像值,开启变更完整镜像配置后,Flink SQL Planner 会移除 Changelog Normalize 算子,从而大幅度减少状态开销,提升吞吐量。

XTransfer技术专家亮相2024MongoDB中国用户大会_Apache_11

MongoDB 是一款高性能、高可用性和易扩展性的 NoSQL 数据库,在 XTransfer 有着较大规模的应用。为了推动 Apache Flink 和 MongoDB 相集成,由来自 XTransfer 的贡献者发起和贡献了 Flink MongoDB Connector 和 Flink MongoDB CDC Connector,使 Flink 具有了完整的 MongoDB 集成能力,可以实现 MongoDB 实时入湖入仓,MongoDB 与异构数据源计算,MongoDB 参与构建实时物化视图, MongoDB 构建实时数仓等场景。

XTransfer 技术团队正在关注包括人工智能、大数据等多个领域的技术发展,旨在运用前沿技术推动跨境金融解决方案的创新。XTransfer 一直秉承开放合作的理念,持续与社区保持互动,从开源中受益,并力所能及地反哺社区。

标签:XTransfer,2024MongoDB,快照,读取,Connector,MongoDB,Flink,亮相,Apache
From: https://blog.51cto.com/u_15429786/11917152

相关文章

  • 华为见非凡品牌盛典及鸿蒙智行新品发布会定档,颠覆产品即将亮相
    9月2日,华为终端宣布将于9月10日14:30举行华为见非凡品牌盛典及鸿蒙智行新品发布会。华为常务董事、终端BG董事长余承东表示,即将发布的产品将是华为最具引领性、创新性和颠覆性的产品,引发了业界的广泛关注。博主暗示发布会新品内容:“9+7+3”博主@Adak封狼居胥在社交媒体上发......
  • 广电数安 未来已展 | 天空卫士亮相BIRTV2024
    8月21日至24日,第三十一届北京国际广播电影电视展览会(BIRTV2024)在北京隆重举行。开幕当天,中宣部及广电总局领导莅临我司展位,对安全科技引领以及护航新质生产力等方面提出期望和要求。天空卫士作为唯一一家数据安全厂商受邀参展,借此机遇,向与会嘉宾展示了为广电行业量身打造的全新数据......
  • 数据库性能诊断利器 聚好看DBdoctor亮相中国数据库技术大会
       2024年8月22-24日,备受瞩目的第15届中国数据库技术大会(DTCC2024)于北京隆总召开。数字化创新浪潮汹涌澎湃,数据库作为信息技术的核心基础设施,正以前所未用的速度推动各行各业的智能化升级。作为在数据库技术领域率先掌握前沿eBPF技术的企业,聚好看科技于本次大会展示自研数据......
  • 亮相2024 DPU&AI Networking创新大会,天翼云斩获两项大奖!
    近日,以“智驱网络芯动未来”为主题的2024DPU&AINetworking创新大会在北京举办。大会表彰了在DPU与AI网络技术创新及实践应用中取得卓越成就的单位与项目,天翼云科技有限公司荣膺创新引擎奖、《紫金DPU算力卸载与网络加速应用》荣获实践先锋奖,技术创新实力以及应用实践成果再获行......
  • 尽管乔治克鲁尼夫妇试图努力保护双胞胎孩子的隐私但还是意外亮相了
    阿迈勒·克鲁尼,乔治·克鲁尼乔治克鲁尼和阿迈勒克鲁尼尽可能让他们的孩子,双胞胎亚历山大和艾拉远离公众视线,但他们还是意外露面:与他们的父母和家人朋友布拉德皮特一起出现在GQ故事中!好吧,让我们解释一下:在《GQ》杂志的一篇深度报道中,题为“乔治克鲁尼和布拉德皮特是好莱坞......
  • 英莱科技即将亮相2024埃森展:新品携手协作机器人,开启轻便焊接新时代
    在智能制造与工业4.0浪潮的推动下,焊接行业正迎来前所未有的变革机遇。随着国家政策对高端装备制造业的大力支持,以及市场对轻量化、灵活性需求的日益增长,焊接技术正逐步向智能化、自动化转型。在此背景下,第27届北京·埃森焊接与切割展览会(以下简称“埃森展”)将于8月13—16日在上......
  • 苹果第一款M4笔记本来了!曝M4 MacBook Pro今年秋季亮相
    MarkGurman爆料,M4MacBookPro、Macmini和iMac将在今年秋季上市,其中M4MacBookPro是苹果第一款M4笔记本。他还提到,MacBookAir、MacStudio和MacPro将在2025年更新,届时也会升级M4芯片。据悉,M4由iPadPro首发搭载,采用了台积电第二代3nm制程工艺(N3E),并配备当前AIPC主流的CPU+GP......
  • 独“数”一帜 双证加冕!TeleDB亮相可信数据库发展大会
    近日,2024可信数据库发展大会在北京召开,主题为“自主、创新、引领”。大会重磅发布多项中国信通院及中国通信标准化协会大数据技术标准推进委员会(CCSATC601)在数据库领域最新研究和实践成果。一众数据库领域的专家、学者、创业者汇聚一堂,围绕金融、电信、能源与政务领域的数据库应......
  • 全球单体容量最大漂浮式风电平台“明阳天成号”正式亮相
    7月12日,全球单体容量最大的16.6MW漂浮式风电平台“明阳天成号”启航仪式在中船黄埔文冲造船厂举办,中山市委书记、市人大常委会主任郭文海主礼启航仪式。“明阳天成号”于7月3日完成吊装,经过各项调试准备工作后正式亮相,并将择日拖航至广东阳江海域。据测算,“明阳天成号”正式投运后......
  • 合合信息“大模型加速器”亮相2024世界人工智能大会
    文章目录......