首页 > 其他分享 >2024数据工程开源技术跟踪

2024数据工程开源技术跟踪

时间:2024-05-04 09:03:08浏览次数:27  
标签:存储 Grafana 2024 开源 跟踪 Apache 数据 分布式

1、已退休、存档和被放弃的项目,例如:

  • Apache Sqoop:This repository has been archived by the owner on Jul 9, 2021. It is now read-only
  • Scribe: This repository has been archived by the owner on Jan 13, 2022. It is now read-only.
  • Apache Apex:This repository has been archived by the owner on Jun 7, 2021. It is now read-only.

2、过去一年在Github上完全不活跃的项目,以及在社区中几乎未被提及的项目

  • Apache Pig:last release-0.17.0 on Jun 14, 2017、Star(666)
  • Apache Oozie:last release-5.2.1 on Feb 25, 2021, star(697)

3、Apache Ozone(分布式存储):Apache Ozone是一个高度可扩展、冗余的分布式对象存储,适用于分析、大数据和云原生应用,以在Kubernetes等容器化环境中有效地工作。

  • github:https://github.com/apache/ozone
  • HDFS仍然是本地Hadoop集群的主流技术,但Apache Ozone分布式对象存储正在迎头赶上,为本地数据湖存储技术提供了另一种选择。主流商业Hadoop提供商Cloudera现在把Ozone作为其CDP私有云产品的一部分。
  • 在Hadoop生态系统中,Apache ORC仍然是列存储的首选,而Apache Parquet已经成为现代数据湖中数据序列化的事实标准。是因为它体积不大、高效压缩以及与各种处理引擎的广泛兼容性。

4、table format(数据湖):2023年最热门的发展之一是开放表格格式的兴起。这些框架实质上充当了一个表格抽象和虚拟数据管理层,位于你的数据湖存储和数据层之上。当前,开放表格格式领域三足鼎立:

  • Apache Hudi:最初由Uber开发和开源,其主要设计目标是支持近实时数据更新和ACID事务。
  • Apache Iceberg:由Netflix的工程团队发起
  • Delta Lake:由Databricks创建和开源,与Databricks平台无缝集成。
  • OneTable:已由OneHouse开源,该工具超越了单个表格格式,提供了在一个单一框架下使用所有前三个主要竞争者的能力。这让用户能够采用通用格式,同时以其首选格式向处理引擎暴露数据,从而提高了灵活性和敏捷性。

5、数据集成:2023年的数据集成领域不仅继续由Apache Nifi、Airbyte和Meltano等老牌玩家主导,还出现了一些有前景的工具,例如Apache Inlong和Apache SeaTunnel,它们以其独特的优势提供的的替代方案引人注目。

  • Apache Inlong:是一站式的海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。 InLong 项目原名 TubeMQ ,专注于高性能、低成本的消息队列服务。为了进一步释放 TubeMQ 周边的生态能力,我们将项目升级为 InLong,专注打造一站式海量数据集成框架。 Apache InLong 依托 10 万亿级别的数据接入和处理能力,整合了数据采集、汇聚、存储、分拣数据处理全流程,拥有简单易用、灵活扩展、稳定可靠等特性。 该项目最初于 2019 年 11 月由腾讯大数据团队捐献到 Apache 孵化器,2022 年 6 月正式毕业成为 Apache 顶级项目。目前 InLong 正广泛应用于广告、支付、社交、游戏、人工智能等各个行业领域,为多领域客户提供高效化便捷化服务。
  • Apache SeaTunnel: 新一代高性能、分布式、海量数据集成工具,支持上百种数据源 ( Database/Cloud/SaaS ) 支持海量数据的实时 CDC 和批量同步,可以稳定高效地同步万亿级数据。

6Redpanda:在事件和消息中间件领域,虽然有挑战者如Redpanda追赶,但Apache Kafka的地位无人撼动。Redpanda在2023年获得了1亿美元的C轮融资,表明资本对提供低延迟和高吞吐量的替代消息代理的兴趣正在增长。

7、工作流管理:工作流调度的生态可以说是整个生态系统中最丰富的类别,其中既有老牌巨头也有令人兴奋的新秀。诸如Apache Airflow和Dagster之类的老牌工具仍然很受欢迎,另一方面,在过去的两年中,GitHub见证了几个令人信服的新兴工具的崛起,它们获得了相当大的关注。

  • Kestra: 一个协调器:在几分钟内构建一个复杂的管道。 调度程序:根据需要启动流程! 丰富的用户界面:使用实时用户界面创建、运行和监控所有流程。 一个数据编排器:通过它的许多插件,直接构建您的数据编排。 
  • Temporal:用于构建和管理自定义工作流。它们提供了一种可靠、可扩展的方式来编排和协调分布式任务和业务流程。
  • 还有 Mage 和 Windmill 都值得关注,它们各自有着独特的优势。

8、数据基础设施与监控:最近Grafana Labs的调查证实,Grafana、Prometheus和 ELK 仍然在可观察性和监控领域占据主导地位。Grafana Labs本身一直非常活跃,推出了新的开源工具,如:

  • Loki :(用于日志聚合)Grafana 提供 Loki 中捕获的日志行的可视化与搜索平台,Loki 是日志记录存储与检索引擎。
  • Mimir:(用于长期的Prometheus存储),进一步加强了平台能力。Grafana Mimir 是 Grafana Labs 开发的一个 AGPLv3 许可的开源软件项目,与对象存储结合使用时,可为 Prometheus 指标提供可扩展的长期存储。Mimir 使用基于微服务的可水平扩展的架构构建。每个微服务被称为一个组件,Mimir 作为由这些组件组成的单个二进制文件运行。大多数组件都是无状态的,不需要在重新启动之间保留任何数据。
  • 在集群管理和监控方面,开源工具似乎就不那么热门了。这可能是因为云迁移的趋势减少了对管理大型本地数据平台的需求。虽然 Apache Ambari 项目曾经因Hadoop集群管理火爆一时,但在2019年Hortonworks和Cloudera合并后几乎被放弃,最近重新燃起的复苏的小火苗又给它的未来带来一丝希望。但是,它的命运是否长久仍然不确定。
  • 至于资源调度和工作负载部署,Kubernetes 似乎是首选的资源调度,特别是在基于云的平台上。

9、元数据管理:近年来,元数据管理已经成为关注焦点,这是由于对数据进行管理和访问的需求不断增长。然而,缺乏全面的元数据管理平台促使像 Netflix、Lyft、Airbnb、Twitter、LinkedIn 和 Paypal 等科技巨头构建自己的解决方案。

  • 这些努力为开源社区带来了一些显著的变化。像 Amundsen(来自Lyft)、DataHub(来自LinkedIn)和 Marquez(来自WeWork)这样的工具是自主开发的解决方案,都已经开源并正在积极开发和贡献。
  • 至于架构管理,这个领域仍然有些停滞不前。Hive Metastore 仍然是许多人的首选解决方案,因为目前没有替代的开源解决方案来取代它。

10、分析与可视化:在商业智能(BI)和可视化领域,Apache Superset  是最活跃和受欢迎的开源替代方案,与许可的SaaS BI解决方案相比,它的表现更为出色。

  • 对于分布式和大规模并行处理(MPP)引擎,一些专家认为大数据已经过时,大多数公司不需要大规模的分布式处理,而是选择单个强大的服务器来处理其数据量。
  • 尽管有这种说法,但分布式大规模并行处理(MPP)引擎,如 Apache Hive、Impala、Presto 和 Trino,在大型数据平台中仍然非常普遍,特别是对于拥有PB级数据的情况。

参考资料


标签:存储,Grafana,2024,开源,跟踪,Apache,数据,分布式
From: https://www.cnblogs.com/tgzhu/p/18146587

相关文章

  • 2024劳动节北斗课堂总结
    第一天上午讲了数据结构平衡树(Treap)随机的笛卡尔树的期望深度是\(log_{n}\)。合并合并以\(x,y\)为根的\(Treap\)过程若\(x,y\)有一个为空,则返回另一个比较\(x,y\)的随机权值若\(x<y\)则递归合并\(x\)的左儿子和\(y\)。否则返回\(x\)和\(y\)的右儿子......
  • 20240503比赛总结
    T1[CF1279C]StackofPresentshttps://gxyzoj.com/d/hzoj/p/3686数据出锅了,100->40按题意模拟即可,可以发现,最优情况下,一定是将取出的数按后面的拿的顺序排序,O(1)取出,而在取之前未排序的,则需要花2k+1的时间排序并取出代码:#include<cstdio>#definelllonglongusingnamesp......
  • 2024-5-3 假期第三天 杯具ε(┬┬﹏┬┬)3
    昨天和老哥约的今天吃饭,哥和嫂子十点多开车来学校接的我,然后去烤肉店,到店里哥就一直在看手机,然后肉刚烤熟哥就出去了,干啥也没说。我和嫂子都吃完了还没回来,得四十分钟左右吧,然后嫂子有点不高兴了,把剩下的肉打包了,就要直接回去,我趁下去的时候给大姨打个电话问问该怎么办,其实也不能......
  • 2024-5-1 假期第一天 愉快
    假期第一天,中午十点多醒的,经过一番挣扎之后还是下定决心去本部开点二硫化硒,于是坐地铁去本部,到了发现皮肤科不开,遂返回,虽然无功而返吗,但是今天天气是真的好,路上骑行看到的风景很美,回来的时候去物美逛了一圈买了点香蕉,买了点饮料,然后又花30买了两杯喜茶,挺好喝就是有点贵。愉快的一......
  • dasctf2024 week1复现
    复现题目.web1234开局源码泄露www.zipindex.php<?phperror_reporting(0);include"class.php";$Config=unserialize(file_get_contents("/tmp/Config"));foreach($_POSTas$key=>$value){if(!is_array($value)){$param[$key]=ad......
  • P2024 [NOI2001] 食物链
    原题链接题解带权并查集的应用,普通的并查集只能表示结点间的一种关系(如同一集合中的都是朋友)。而带权并查集的结点权值表示该结点与根结点的关系。相对应,带权并查集的路径压缩也复杂了一点。code #include<bits/stdc++.h>usingnamespacestd;constintN=5e4+5;intn,k......
  • Adobe PS 2024 软件分享 torrent
    Adobe-Photoshop-2024-25.5.0.375下载工具建议使用qBittorrent-enhance,qBittorrent,Transmission,uTorrent等。种子下载地址磁链地址......
  • 2024.5.3【比赛】高一下三调
    为了拓宽自己的英雄池,还是要写一下。分数&排名:理想:会牵挂的叫亲人,回不去的是故乡。现实:神虎一跃,威震天地!A.李时珍的皮肤衣今天输了,明天也要卷土重来。赛后加点卡赛时是不理解的。为啥这次就加点,上次数据范围错了都不把数据范围错的删了给我重测。自己手动模......
  • #22 2024.4.28
    817.loj4143「CCO2019」Sirtet818.loj3364「IOI2020」植物比较819.loj3367「IOI2020」装饼干820.loj3389「NOIP2020」微信步数?计算第\(kn+i\)步还没死的人的个数。每一维是个一次函数,卷起来是个\(k\)次函数,前缀和是\(k+1\)次函数。做完了???821.uoj569【I......
  • C#开源的两款功能强大的录屏神器
    ScreenToGifScreenToGif是一款由C#语言开发且开源的操作简单、免费的屏幕录制和GIF动画制作神器。它可以帮助用户捕捉计算机屏幕上的实时动画,并将其保存为高质量的GIF图像格式。该工具不仅适用于技术支持、软件演示和教程制作,还可以用于创建有趣的GIF图片和动画表情。GitHu......