首页 > 其他分享 >均有商业公司支持!2023再看数据湖 hudi iceberg delta2 社区发展现状!

均有商业公司支持!2023再看数据湖 hudi iceberg delta2 社区发展现状!

时间:2023-01-17 09:33:54浏览次数:53  
标签:贡献者 delta2 Hudi hudi Delta Lake 2023 Apache Iceberg

开源数据湖三剑客 Apache hudi、Apache iceberg 、Databricks delta 近年来大动作不断。

2021年8月,Apache Iceberg 的创始人 Ryan Blue、Dan Weeks 和 Netflix 数据架构总监 Jason Reid 宣布从风投 a16z 处拿到了 A 轮融资,正式成立围绕 Apache Iceberg 构建新型数据平台的商业公司 Tabular。

2022年2月,Apache Hudi 也不甘示弱,创始人 Vinoth Chandar 发文官宣基于 Hudi 构建的商业公司和产品 Onehouse,其已经获得 Greylock Ventures 和 Addition 的 800 万美元种子轮投资。

2022年6月,Delta Lake 背后的大数据巨头公司 Databricks,也许是迫于 Iceberg、Hudi 的压力,也许是为了能抢占到市场, 宣布将 Delta Lake 云数据平台完全开源(即 Delta Lake 2.0)。

当开源扯上了商业,一切就都没有那么简单了,这三家之间的明争暗斗也随之拉开序幕。首先是 Databricks 在官宣 Delta Lake 2.0 时,把 Hudi 和 Iceberg 秒成了渣渣(如下图)。

接下来的剧本当然是 Apache Hudi 和 Apache Iceberg 不服,质疑测试的准确性。国内网易数帆的兄弟发表了《从 Delta 2.0 开始聊聊我们需要怎样的数据湖》,虽然言语看起来很客气,但是字里行间都是在反击,最后顺势推了一波数帆的开源产品 Arctic (底座是Iceberg)。Hudi 背后的公司 onehouse 也在第二天发表了一篇文章,质疑测试的准确性并给了他们测试的结果(如下图)。

事后 databricks 没有再回应,看来 databricks 的战略是只引战不恋战。

开源社区建设

2023年了,我们再来看看hudi iceberg delta2 三大社区的发展现状。首先看看截止到目前github的一些开源数据指标。
Github Star 数量,能反应出项目的知名度,目前来看 Delta Lake 是最高的,但是今年来看三者的差距在减小。

Github watchers 和 forks 数量,hudi 略高,整体上也是不相上下。

Github 贡献者数量,这个指标是2022年12月的贡献者数量和 commit 次数,hudi的优势较明显。

Github PR 和issue,同样是2022年12月的数据,PR是指贡献者提交的提案数量,issue是指贡献者提交的问题数量,是可以反映出项目活跃度的,Delta Lake 的活跃度明显低于 Iceberg 和 Hudi 很多。

贡献者所在公司分布

Apache Hudi

从这个分布图可以看出,Hudi 在国内的应用很广,包括国内的三个大厂阿里巴巴、腾讯、字节跳动,国外的话主要是 Uber 和 Amazon。

Apache Iceberg

Iceberg 在国内的厂商同样非常多,腾讯一马当先,是贡献者数量最多的团队,国内的字节 、网易也紧随其后,相比腾讯 Iceberg 和 Hudi 通吃的战略,阿里在 Iceberg 的投入就少了非常多,国外的贡献者也非常多,包括 Netflix、Apple 等等

Delta Lake

Delta 的开发者则主要以国外为主,作为母公司的 Databricks 贡献量稳居第一,微软紧随其后,国内的公司比较少见,仅京东、移动等几家有少来量的贡献。

从这些图中我们可以得到一些结论,似乎有大量国内公司参与的开源项目,活跃度都会相对比较高一些,且国内的大家对 Apache 基金会的项目热情会高一些。

特性对比

图来自于 ONEHOUSE 官网,所以可能偏向性会比较明显,仅供于参考。图更新于23年1月。

1. 读写特性


2. 表服务

3. 平台支持

2023 年,数据湖市场的争夺将正式进入白热化阶段,国内的开发者在这场争夺战中也将发挥着非常重要的作用,毕竟数据湖、湖仓一体等概念都已经被炒得火热,引入数据湖的公司在未来也会越来越多,数据湖的搭建、应用和开发能力也会逐渐成为大数据工程师的必备技能。在这之前,希望这篇文章能够帮助你做好 Hudi 、Iceberg、Delta Lake 这道选择题。

标签:贡献者,delta2,Hudi,hudi,Delta,Lake,2023,Apache,Iceberg
From: https://www.cnblogs.com/uncledata/p/17056982.html

相关文章

  • 2023牛客寒假集训1
    A题WorldFinal?WorldCup!(I)(条件判断)链接:https://ac.nowcoder.com/acm/contest/46800/Ain3111111111111111111100101011010out-1106说明对于第二组......
  • 力扣每日一题2023.1.16---1813. 句子相似性 III
    一个句子是由一些单词与它们之间的单个空格组成,且句子的开头和结尾没有多余空格。比方说,"HelloWorld" ,"HELLO" ,"helloworldhelloworld" 都是句子。每个单词都只 ......
  • HTML实现除夕最美烟花,2023春节倒计时,新年不可没有烟花,最炫烟花代码分享
    ......
  • 2023牛客寒假算法基础集训营1
    2023牛客寒假算法基础集训营1https://ac.nowcoder.com/acm/contest/46800过了7题,写一半没撑住去睡觉了。官方难度预期:果然我还是很菜哇qaqA-WorldFinal?WorldCu......
  • 2023年新年第一份博客
    2023年新年第一封博客,对今年的博客做一个大概的规划:技术类:Python计算机网络软件测试理论见闻类:需要去阅读一些经典的书籍:大话存储、人月神话等其他未完待......
  • 2023.1.15
    本周总结本周主要是还是了解图论相关的一些算法,补了一下组合计数专题。大主题图论,数论小专题二分图、欧拉路径,欧拉回路组合计数题目完成情况每个专题配了一到两道......
  • 2023牛客寒假算法基础集训营1 A题
    原题链接#include<bits/stdc++.h>usingnamespacestd;intmain(){intcnt1,cnt2,n,flag=0,a,b;cin>>n;stringstring1;while(n--){cnt1=c......
  • 53rd 2023/1/16 平衡树学习总结
    好久没打总结了,差不多有\(\frac16\)年,是一大失误,以后会继续坚持数据结构介绍首先,架构是一颗二叉搜索树即中序遍历为递增or递减序左子树小于根节点小于右子树请自......
  • 2023.1.16[模板] 二次剩余
    2023.1.16二次剩余问题叙述给出N,p,求解方程$x^2\equivN$(\(modp\))且保证p是奇素数。算法流程解的数量首先,探究$x^2\equivN$这个方程解的数量,假设我们......
  • 2023年01月16日训练日志
    P7453我终于过力线段树维护矩阵区间和的大卡常师srds感觉这题不卡常造屎山的过程不尽顺利但是终究还是造出来了事实告诉我们,模板常打常新因为后面的那几个20pts都是......