数据治理可以有效保障数据建设过程在一个合理高效的监管体系下进行，最终提供高质量、安全、流程可追溯的业务数据。

1 序：数据治理体系

企业数据治理体系包括元数据管理、主数据管理、数据资产管理、数据质量管理、数据安全及数据标准等内容。

2 最新一代数据治理开源软件

2.0 一站式数据开发集成平台

DataSphere Studio : 982 fork / 2.9k star | Since : Nov 24, 2019

DataSphere Studio

https://github.com/WeBankFinTech/DataSphereStudio
DataSphere Studio（简称 DSS）是微众银行自研的数据应用开发管理集成框架。
基于插拔式的集成框架设计，及计算中间件 Linkis ，可轻松接入上层各种数据应用系统，让数据开发变得简洁又易用。在统一的 UI 下，DataSphere Studio 以工作流式的图形化拖拽开发体验，将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等，数据应用开发全流程场景需求。DSS 通过插拔式的集成框架设计，让用户可以根据需要，简单快速替换 DSS 已集成的各种功能组件，或新增功能组件。借助于 Linkis 计算中间件的连接、复用与简化能力，DSS 天生便具备了金融级高并发、高可用、多租户隔离和资源管控等执行与调度能力。

主要编程语言：Java / Scala
社区活跃情况

2.1 元数据

Open Metadata : 753 fork / 3.7k star | Since : Aug 1, 2021

Open Metadata | 元数据管理

https://open-metadata.org/

https://github.com/open-metadata/OpenMetadata
Open-Metadata 是元数据的开放标准，为端到端元数据管理解决方案提供了基础能力。提供数据发现、数据治理、数据协同、数据质量和可观测性的所有必要组件。

主要编程语言： TypeScript / Java / Python
社区活跃情况

Commits

Amundsen : 945 fork / 4.2k star | Since : Feb 3, 2019

Amundsen | 数据发现、元数据引擎

https://www.amundsen.io/

https://www.amundsen.io/amundsen/

https://github.com/amundsen-io/amundsen

主要编程语言: Python / TypeScript
社区活跃情况

Commits

Marquez : 279 fork / 1.6k star | Since : Jul 1, 2018

Marquez

https://marquezproject.ai/

https://github.com/MarquezProject/marquez
Marquez 是一款WeWork发布并开源的元数据服务，用于数据生态系统元数据的收集、汇总及可视化。它维护着数据集的消费和生产，为作业运行时和数据集访问频率提供全局可见性，提供集中的数据集生命周期管理等。

主要编程语言：Java / TypeScript
社区活跃度

Commits

Data Hub : 2.6K fork / 9K star | Since : Nov 15, 2015

Data Hub |

DataHub 是由Linkedin开源的，官方Slogan：The Metadata Platform for the Modern Data Stack - 为现代数据栈而生的元数据平台。
目的就是为了解决多种多样数据生态系统的元数据管理问题
它提供元数据检索、数据发现、数据监测和数据监管能力，帮助大家解决数据管理的复杂性。

https://datahubproject.io/

https://github.com/datahub-project/datahub

主要编程语言：Java / Python / TypeScript
社区活跃情况：

Commits

Apache Atlas : 817 fork / 1.7k star | Since : Nov 16, 2014

Apache Atlas | 元数据、数据血缘

Apache Atlas是Apache Hadoop的数据和元数据治理的框架，是Hortonworks 公司联合其他厂商与用户于2015年发起数据治理倡议，2015年5月5日进入Apache孵化，2017年6月21日成为Apache顶级项目。
是为解决Hadoop生态系统的元数据治理问题而产生的开源项目。它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心登能力。

https://atlas.apache.org/#/

https://github.com/apache/atlas.git | https://github.com/apache/atlas

主要编程语言 : Java / JavaScript
社区活跃度

Commits

Dataedo [闭源]

Dataedo | 数据字典、元数据管理

Dataedo是一个开源的数据字典和元数据管理工具。它可以帮助用户创建和维护数据字典，并对数据进行元数据建模和文档化。

https://dataedo.com/

https://github.com/Dataedo

ERD Online [闭源]

ERD Online

ERD(Entity-Relationship Diagram) Online 是全球第一个开源、免费在线数据建模、元数据管理平台(口号)。提供简单易用的元数据设计、关系图设计、SQL查询等功能，辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能、方便我们快速、安全的管理数据库中的元数据。

https://www.erdonline.com/

https://www.erdonline.com/ERD Online白皮书.html

2.2 数据集成

Sea Tunnel : 1.5k fork / 7k star | Since : Jul 30, 2017

Sea Tunnel

https://seatunnel.apache.org/

https://github.com/apache/seatunnel

主要编程语言：Java
社区活跃情况

Kettle : 3.2k fork / 7.2k star | Since : Oct 6, 2013

Kettle (全名 : Pentaho Data Integration - Kettle)

https://github.com/pentaho/pentaho-kettle

https://www.hitachivantara.com/en-us/products/pentaho-plus-platform/data-integration-analytics/pentaho-community-edition.html
厂商 : Hitachi Vantara

主要编程语言：Java
社区活跃情况

ChunJun : 1.7k / 3.9k | Since : Apr 29, 2018

ChunJun(纯均)

https://dtstack.github.io/chunjun/

https://github.com/DTStack/chunjun

https://www.dtstack.com/resources?src=dsyzh
ChunJun 是易用、稳定、高效的批流一体的数据集成框架。
该项目最早启动的初衷是为【袋鼠云】的核心业务一站式大数据基础软件 - 数栈，打造一款具有 “袋鼠特色 “的核心计算引擎，承载实时平台、离线平台、数据资产平台等多个应用的底层数据同步及计算任务。
ChunJun 基于 Flink 并采用插件式架构，将源数据库抽象成 Reader 插件，将目的数据库抽象成 Writer 插件。

核心特点

基于 json、sql 构建任务

支持多种异构数据源之间数据传输

支持断点续传、增量同步

支持任务脏数据存储管理

支持 Schema 同步

支持 RDBS 数据源实时采集

主要编程语言：Java
社区活跃情况

DataX : 5.2k fork / 14.8k star

DataX => DataWorks (商业版)

https://github.com/alibaba/DataX
DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。
https://www.zhihu.com/question/438081889/answer/项目最早启动的初衷是为袋鼠云的核心业务一站式大数据基础软件 - 数栈，打造一款具有 “袋鼠特色 “的核心计算引擎，承载实时平台、离线平台、数据资产平台等多个应用的底层数据同步及计算任务。

主要编程语言：Java(97.6%)、Python (2.3%)

其他成熟度低的产品

Cannal : 7.5 fork / 27.4k star | Since : Sep 21, 2014

https://github.com/alibaba/canal
阿里巴巴 MySQL binlog 增量订阅&消费组件

主要编程语言：Java
社区活跃情况

2.3 数据开发

Apache Flink

https://flink.apache.org/

https://github.com/apache/flink

https://github.com/ververica/flink-cdc-connectors

https://ververica.github.io/flink-cdc-connectors/

Apache Spark

https://spark.apache.org/

https://github.com/apache/spark

2.4 数据质量

2.5 数据标准

2.6 数据模型 /数据建模 / 数据资产

2.7 数据分析与可视化

Superset | 开源BI

由Airbnb贡献的轻量级BI产品；
数据源方面，Superset支持CSV、MySQL、Oracle、Redshift、Drill、Hive、Impala、Elasticsearch等27种数据源，并深度支持Druid。

https://superset.apache.org/

https://github.com/apache/superset

Grafana

Grafana 主要用于对接时序数据库，分析展示监控数据。
目前支持的数据源包括 InfluxDB、Elasticsearch、Graphite、Prometheus 等，同时也支持 MySQL、MSSQL、PG 等关系数据库。

Metabase

数据源方面，Metabase 支持 Redshift、Druid、Google BigQuery、MongoDB、MySQL、PG 等 15 种数据源。

DataEase |

理念：人人可用的开源数据可视化分析工具。

https://github.com/dataease/dataease

https://dataease.io/

ECharts | 基于 JavaScript 的开源可视化图表库

https://echarts.apache.org/zh/index.html

https://echartsjs.com/

2.8 调度系统

Apache Dolphi Scheduler

Apache Dolphi Scheduler

一个分布式和可扩展的开源工作流协调平台，具有强大的DAG可视化界面

https://dolphinscheduler.apache.org/zh-cn

https://github.com/apache/dolphinscheduler

XXL-JOB

XXL-Job

https://www.xuxueli.com/xxl-job/

https://github.com/xuxueli

https://gitee.com/xuxueli0323/xxl-job

X 参考文献

标签：github,数据,开源,数据管理,https,apache,com
From： https://www.cnblogs.com/johnnyzen/p/18029696/data-governance-tools

[数据管理] 数据治理/大数据平台-开源软件与框架篇

1 序：数据治理体系

2 最新一代数据治理开源软件

2.0 一站式数据开发集成平台

DataSphere Studio : 982 fork / 2.9k star | Since : Nov 24, 2019

2.1 元数据

Open Metadata : 753 fork / 3.7k star | Since : Aug 1, 2021

Amundsen : 945 fork / 4.2k star | Since : Feb 3, 2019

Marquez : 279 fork / 1.6k star | Since : Jul 1, 2018

Data Hub : 2.6K fork / 9K star | Since : Nov 15, 2015

Apache Atlas : 817 fork / 1.7k star | Since : Nov 16, 2014

Dataedo [闭源]

ERD Online [闭源]

2.2 数据集成

Sea Tunnel : 1.5k fork / 7k star | Since : Jul 30, 2017

Kettle : 3.2k fork / 7.2k star | Since : Oct 6, 2013

ChunJun : 1.7k / 3.9k | Since : Apr 29, 2018

DataX : 5.2k fork / 14.8k star

其他成熟度低的产品

2.3 数据开发

2.4 数据质量

2.5 数据标准

2.6 数据模型 /数据建模 / 数据资产

2.7 数据分析与可视化

2.8 调度系统

Apache Dolphi Scheduler

XXL-JOB

X 参考文献

相关文章

赞助商

阅读排行