1、已退休、存档和被放弃的项目,例如:
- Apache Sqoop:This repository has been archived by the owner on Jul 9, 2021. It is now read-only
- Scribe: This repository has been archived by the owner on Jan 13, 2022. It is now read-only.
- Apache Apex:This repository has been archived by the owner on Jun 7, 2021. It is now read-only.
2、过去一年在Github上完全不活跃的项目,以及在社区中几乎未被提及的项目
- Apache Pig:last release-0.17.0 on Jun 14, 2017、Star(666)
- Apache Oozie:last release-5.2.1 on Feb 25, 2021, star(697)
3、Apache Ozone(分布式存储):Apache Ozone是一个高度可扩展、冗余的分布式对象存储,适用于分析、大数据和云原生应用,以在Kubernetes等容器化环境中有效地工作。
- github:https://github.com/apache/ozone
- HDFS仍然是本地Hadoop集群的主流技术,但Apache Ozone分布式对象存储正在迎头赶上,为本地数据湖存储技术提供了另一种选择。主流商业Hadoop提供商Cloudera现在把Ozone作为其CDP私有云产品的一部分。
- 在Hadoop生态系统中,Apache ORC仍然是列存储的首选,而Apache Parquet已经成为现代数据湖中数据序列化的事实标准。是因为它体积不大、高效压缩以及与各种处理引擎的广泛兼容性。
4、table format(数据湖):2023年最热门的发展之一是开放表格格式的兴起。这些框架实质上充当了一个表格抽象和虚拟数据管理层,位于你的数据湖存储和数据层之上。当前,开放表格格式领域三足鼎立:
- Apache Hudi:最初由Uber开发和开源,其主要设计目标是支持近实时数据更新和ACID事务。
- Apache Iceberg:由Netflix的工程团队发起
- Delta Lake:由Databricks创建和开源,与Databricks平台无缝集成。
- OneTable:已由OneHouse开源,该工具超越了单个表格格式,提供了在一个单一框架下使用所有前三个主要竞争者的能力。这让用户能够采用通用格式,同时以其首选格式向处理引擎暴露数据,从而提高了灵活性和敏捷性。
5、数据集成:2023年的数据集成领域不仅继续由Apache Nifi、Airbyte和Meltano等老牌玩家主导,还出现了一些有前景的工具,例如Apache Inlong和Apache SeaTunnel,它们以其独特的优势提供的的替代方案引人注目。
- Apache Inlong:是一站式的海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。 InLong 项目原名 TubeMQ ,专注于高性能、低成本的消息队列服务。为了进一步释放 TubeMQ 周边的生态能力,我们将项目升级为 InLong,专注打造一站式海量数据集成框架。 Apache InLong 依托 10 万亿级别的数据接入和处理能力,整合了数据采集、汇聚、存储、分拣数据处理全流程,拥有简单易用、灵活扩展、稳定可靠等特性。 该项目最初于 2019 年 11 月由腾讯大数据团队捐献到 Apache 孵化器,2022 年 6 月正式毕业成为 Apache 顶级项目。目前 InLong 正广泛应用于广告、支付、社交、游戏、人工智能等各个行业领域,为多领域客户提供高效化便捷化服务。
- Apache SeaTunnel: 新一代高性能、分布式、海量数据集成工具,支持上百种数据源 ( Database/Cloud/SaaS ) 支持海量数据的实时 CDC 和批量同步,可以稳定高效地同步万亿级数据。
6、Redpanda:在事件和消息中间件领域,虽然有挑战者如Redpanda追赶,但Apache Kafka的地位无人撼动。Redpanda在2023年获得了1亿美元的C轮融资,表明资本对提供低延迟和高吞吐量的替代消息代理的兴趣正在增长。
7、工作流管理:工作流调度的生态可以说是整个生态系统中最丰富的类别,其中既有老牌巨头也有令人兴奋的新秀。诸如Apache Airflow和Dagster之类的老牌工具仍然很受欢迎,另一方面,在过去的两年中,GitHub见证了几个令人信服的新兴工具的崛起,它们获得了相当大的关注。
- Kestra: 一个协调器:在几分钟内构建一个复杂的管道。 调度程序:根据需要启动流程! 丰富的用户界面:使用实时用户界面创建、运行和监控所有流程。 一个数据编排器:通过它的许多插件,直接构建您的数据编排。
- Temporal:用于构建和管理自定义工作流。它们提供了一种可靠、可扩展的方式来编排和协调分布式任务和业务流程。
- 还有 Mage 和 Windmill 都值得关注,它们各自有着独特的优势。
8、数据基础设施与监控:最近Grafana Labs的调查证实,Grafana、Prometheus和 ELK 仍然在可观察性和监控领域占据主导地位。Grafana Labs本身一直非常活跃,推出了新的开源工具,如:
- Loki :(用于日志聚合)Grafana 提供 Loki 中捕获的日志行的可视化与搜索平台,Loki 是日志记录存储与检索引擎。
- Mimir:(用于长期的Prometheus存储),进一步加强了平台能力。Grafana Mimir 是 Grafana Labs 开发的一个 AGPLv3 许可的开源软件项目,与对象存储结合使用时,可为 Prometheus 指标提供可扩展的长期存储。Mimir 使用基于微服务的可水平扩展的架构构建。每个微服务被称为一个组件,Mimir 作为由这些组件组成的单个二进制文件运行。大多数组件都是无状态的,不需要在重新启动之间保留任何数据。
- 在集群管理和监控方面,开源工具似乎就不那么热门了。这可能是因为云迁移的趋势减少了对管理大型本地数据平台的需求。虽然 Apache Ambari 项目曾经因Hadoop集群管理火爆一时,但在2019年Hortonworks和Cloudera合并后几乎被放弃,最近重新燃起的复苏的小火苗又给它的未来带来一丝希望。但是,它的命运是否长久仍然不确定。
- 至于资源调度和工作负载部署,Kubernetes 似乎是首选的资源调度,特别是在基于云的平台上。
9、元数据管理:近年来,元数据管理已经成为关注焦点,这是由于对数据进行管理和访问的需求不断增长。然而,缺乏全面的元数据管理平台促使像 Netflix、Lyft、Airbnb、Twitter、LinkedIn 和 Paypal 等科技巨头构建自己的解决方案。
- 这些努力为开源社区带来了一些显著的变化。像 Amundsen(来自Lyft)、DataHub(来自LinkedIn)和 Marquez(来自WeWork)这样的工具是自主开发的解决方案,都已经开源并正在积极开发和贡献。
- 至于架构管理,这个领域仍然有些停滞不前。Hive Metastore 仍然是许多人的首选解决方案,因为目前没有替代的开源解决方案来取代它。
10、分析与可视化:在商业智能(BI)和可视化领域,Apache Superset 是最活跃和受欢迎的开源替代方案,与许可的SaaS BI解决方案相比,它的表现更为出色。
- 对于分布式和大规模并行处理(MPP)引擎,一些专家认为大数据已经过时,大多数公司不需要大规模的分布式处理,而是选择单个强大的服务器来处理其数据量。
- 尽管有这种说法,但分布式大规模并行处理(MPP)引擎,如 Apache Hive、Impala、Presto 和 Trino,在大型数据平台中仍然非常普遍,特别是对于拥有PB级数据的情况。
参考资料
标签:存储,Grafana,2024,开源,跟踪,Apache,数据,分布式 From: https://www.cnblogs.com/tgzhu/p/18146587