首页 > 其他分享 >重磅!flink-table-store 将作为独立数据湖项目重新加入 Apache

重磅!flink-table-store 将作为独立数据湖项目重新加入 Apache

时间:2023-03-01 09:35:15浏览次数:48  
标签:Flink flink 支持 流式 Apache table Paimon 数据

数据湖是大数据近年来的网红项目,大家熟知的开源数据湖三剑客 Apache hudi、Apache iceberg 、Databricks delta 近年来野蛮生长,目前各自背后也都有商业公司支持,投入了大量的人力物力去做研发和宣传。然而今天我们要讲的是数据湖界的后起之秀 —— flink-table-store。

熟悉 Flink 项目的同学对这个项目应该并不陌生,它在去年作为 Flink 的子项目加入了 Apache 社区,由 Flink 团队主导研发,截止到目前 star 数 423,fork 数 171,总体来说并不算大火,也许是因为开源的时间并不长,也许是因为数据湖市场早已被三剑客占据了大半,也许是宣传的力度不够,也许是 Flink 子项目限制了它作为数据湖产品的发展。然而可能也正是这些种种的原因促成了这次 flink-table-store 作为独立项目重新加入 Apache,不再依附 Flink,这无论是对于 flink-table-store 的未来发展,还是对于数据湖领域来说都是一件好事。

从 Apache 的提案可以看出,flink-table-store 作为独立项目后的项目名是 Paimon,玩过原神的同学应该对这个名字不陌生,它是游戏中的 NPC,作为向导在整个冒险过程中陪伴着旅行者,至于 Paimon 具体的寓意可能得等官宣解释了。

说回正题,Paimon 的定位是分布式文件系统(HDFS、S3 等)上的数据文件支持的湖存储,用于使用大数据计算引擎(即 Flink、Spark、Hive、Trino 等)为流式处理和批处理构建动态表,支持高速数据摄取和实时数据查询。与其他数据湖存储项目不同,Paimon 旨在同时支持高吞吐量和低端到端延迟(更好的数据新鲜度),尤其适用于密集型 UPDATE 和 DELETE 工作负载。

Paimon 独立加入Apache 后的一些规划:

  • 扩展Paimon的生态,提供独立的Java API,支持 Spark、Hive、Trino、Presto、Doris等更多大数据引擎的读写。
  • 补充关键能力,特别是流式读取和密集更新/删除,以创建统一且易于使用的流式数据仓库(lakehouse)。
  • 成长为一个更有活力和中立的开源社区。(关键词“中立”,这也是促成Paimon独立的主要原因)

Paimon 解决的痛点

随着流处理在生产中的应用(Flink、Spark-Streaming等技术),对存储同时支持更新、删除和流式读取的需求越来越大,为了支持这样的要求我们有如下一些方案:

  • 一种选择是使用 OLAP 系统,如 ClickHouse 和 Aapache Doris,它们能够提供高速数据摄取。但是不支持流式读取,存储成本比较高。
  • 另一种选择是使用现有的湖存储,例如 Apache Hudi 和 Apache Iceberg。然而,从实时处理系统高速摄取最新(更新)数据提出了巨大的挑战,并且会使两个系统不堪重负。
    创建 Paimon 就是为了解决现有解决方案的局限
  • 支持大数据集存储,支持批流式读写。
  • 支持流消费的增量快照。
  • 支持最低延迟至毫秒的流式查询。
  • 支持批处理/OLAP 查询,延迟最小到秒级。

Paimon 基本原理说明

Paimon原生采用LSM(Log-Structured Merge-tree)作为其底层数据结构,除了常见的湖存储能力外,还为带主键的数据提供了增强的性能。更重要的是,Paimon 支持批流操作(读和写),方便应用程序追求批流统一语义。具体来说:

  • Paimon 利用 LSM 数据结构的附加写入功能,在密集的更新/删除工作负载上提供出色的性能。
  • Paimon 利用 LSM 的有序特性支持有效的过滤器下推,可以将主键过滤查询的延迟降低到毫秒级。
  • Paimon 支持各种(基于行或行列)文件格式,包括 Apache Avro、Apache ORC 和 Apache Parquet(行在写出之前将按主键排序)。
  • Paimon提供的表可以被各种引擎查询,包括Apache Flink、Apache Spark、Apache Hive、Trino等。
  • Paimon 的元数据是自我管理的,存储在分布式文件系统上,可以同步到 Hive metastore (HMS)。
  • 除了常见的批量读写支持外,Paimon 还支持流式读取和更改数据馈送。

目前该提案正在邮件讨论的阶段,孵化器导师对该项目独立加入 ASF 都持赞同态度,相信不久就会官宣这一消息。

另外有导师提出,鉴于大多数参与人员都熟悉 ASF 以及项目应该如何运作,是否可以不进过孵化器而直接作为单独的顶级项目(TLP)。比如 Apache Camel 是 Apache ActiveMQ 的一个子项目, 它没有经过孵化器过程就成为了 TLP,因为大多数开发人员知道如何运行 ASF 项目。该方案目前还在讨论当中。

随着 Paimon 的独立,数据湖市场的争夺将进入白热化阶段,其实百花齐发对于用户来说是利好的,良性竞争可以促进项目的快速迭代,但是在做选择上还是得头痛一会儿了,关于数据湖“四剑客”技术细节的文章后续会在这个公众号上陆续更新,欢迎持续关注。不知道这次 Paimon 可以在数据湖领域掀起多大的浪,让我们拭目以待!


标签:Flink,flink,支持,流式,Apache,table,Paimon,数据
From: https://www.cnblogs.com/uncledata/p/17166839.html

相关文章

  • Apache Drill 理解
    ApacheDrill理解一、RestApi二、遇到问题1.中文编码问题2.升级无法启动问题3.mysqlsql解析执行语法问题4.集群模式下jdbcdriver代替restapi问题三、案例......
  • 【Azure 存储服务】Azure Storage Account 下的 Table 查询的性能调优
    问题描述AzureStorageAccount下的Table查询的性能调优?问题解答因为AzureStorageTable服务(表服务)与常规的关系型数据库不一样(例如:MySQL,SQLServer等),他里面存储的......
  • Apache HttpClient使用和源码分析
    在上文中分析了HttpURLConnection的用法,功能还是比较简单的,没有什么封装接下来看看ApacheHttpClient是如何封装httpClient的目录组成请求代码代码分析自定义拦截器和处......
  • ubuntu iptables 做为路由转发
    实现功能,本地服务器的号段的192.168.8.0/24,而做为路由器的机器有2个ip,192.168.8.x和另一个ip,而另一个ip可以访问 192.168.2.0/24号段,为了让其它192.168.8.0/24上服务器......
  • Java容器类List、ArrayList、Vector及map、HashTable、HashMap
    ArrayList和Vector是采用数组方式存储数据,此数组元素数大于实际存储的数据以便增加和插入元素,都允许直接序号索引元素,但是插入数据要设计到数组元素移动等内存操作,所以索引......
  • Apache Maven Assembly自定义打包插件的使用
    前言本文主要记录在SpringBoot项目中使用ApacheMavenAssembly插件进行打包的相关内容;官网说明:https://maven.apache.org/plugins/maven-assembly-plugin/概述是什......
  • 'chromedriver' executable needs to be in PATH
    报错信息如下:selenium.common.exceptions.WebDriverException:Message:'chromedriver'executableneedstobeinPATH.Pleaseseehttps://sites.google.com/a/chrom......
  • Tableau 视图中图例隐藏了,怎么显示
    Tableau仪表板里把颜色图例给删掉了该怎么恢复原本我们的tableau视图如下图1中是这样的,右边有颜色图例,让人一看就知道什么颜色在视图中代表什么,  有的时候不小心把......
  • WPF中,Grid与Table的区别(英文)
    HowisGridDifferentfromTable?TableandGridsharesomecommonfunctionality,buteachisbestsuitedfordifferentscenarios.(1)GridderivesfromthePanel......
  • Apache Calcite 架构理解
    ApacheCalcite架构理解一、简介和架构二、SQL解析三、案例分析四、总结六、参考链接官网SQL解析和重构,Calcite简单使用【FlinkSQL】ApacheCalcite架构......