首页 > 其他分享 >[数据管理] 数据治理/大数据平台-开源软件与框架篇

[数据管理] 数据治理/大数据平台-开源软件与框架篇

时间:2024-02-23 15:46:50浏览次数:32  
标签:github 数据 开源 数据管理 https apache com

数据治理可以有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量、安全、流程可追溯的业务数据。

1 序:数据治理体系

企业数据治理体系包括元数据管理主数据管理数据资产管理数据质量管理数据安全数据标准等内容。

2 最新一代数据治理开源软件

2.0 一站式数据开发集成平台

DataSphere Studio : 982 fork / 2.9k star | Since : Nov 24, 2019

  • DataSphere Studio
  • https://github.com/WeBankFinTech/DataSphereStudio
    DataSphere Studio(简称 DSS)是微众银行自研的数据应用开发管理集成框架。
    基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。DSS 通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换 DSS 已集成的各种功能组件,或新增功能组件。借助于 Linkis 计算中间件的连接、复用与简化能力,DSS 天生便具备了金融级高并发、高可用、多租户隔离和资源管控等执行与调度能力。
  • 主要编程语言:Java / Scala

  • 社区活跃情况

2.1 元数据

Open Metadata : 753 fork / 3.7k star | Since : Aug 1, 2021

  • Open Metadata | 元数据管理
  • 主要编程语言 : TypeScript / Java / Python

  • 社区活跃情况

Commits

Amundsen : 945 fork / 4.2k star | Since : Feb 3, 2019

  • Amundsen | 数据发现、元数据引擎
  • 主要编程语言: Python / TypeScript

  • 社区活跃情况

Commits

Marquez : 279 fork / 1.6k star | Since : Jul 1, 2018

  • Marquez
  • https://marquezproject.ai/
  • https://github.com/MarquezProject/marquez
    Marquez 是一款WeWork发布并开源的元数据服务,用于数据生态系统元数据的收集、汇总及可视化。它维护着数据集的消费和生产,为作业运行时和数据集访问频率提供全局可见性,提供集中的数据集生命周期管理等。

  • 主要编程语言:Java / TypeScript

  • 社区活跃度

Commits

Data Hub : 2.6K fork / 9K star | Since : Nov 15, 2015

  • Data Hub |

DataHub 是由Linkedin开源的,官方Slogan:The Metadata Platform for the Modern Data Stack - 为现代数据栈而生的元数据平台。
目的就是为了解决多种多样数据生态系统的元数据管理问题
它提供元数据检索、数据发现、数据监测和数据监管能力,帮助大家解决数据管理的复杂性。

  • 主要编程语言:Java / Python / TypeScript

  • 社区活跃情况:

Commits

Apache Atlas : 817 fork / 1.7k star | Since : Nov 16, 2014

  • Apache Atlas | 元数据、数据血缘

Apache Atlas是Apache Hadoop的数据和元数据治理的框架,是Hortonworks 公司联合其他厂商与用户于2015年发起数据治理倡议,2015年5月5日进入Apache孵化,2017年6月21日成为Apache顶级项目。
是为解决Hadoop生态系统的元数据治理问题而产生的开源项目。它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心登能力。

  • 主要编程语言 : Java / JavaScript

  • 社区活跃度

Commits

Dataedo [闭源]

  • Dataedo | 数据字典、元数据管理

Dataedo是一个开源的数据字典和元数据管理工具。它可以帮助用户创建和维护数据字典,并对数据进行元数据建模和文档化。

ERD Online [闭源]

  • ERD Online

ERD(Entity-Relationship Diagram) Online全球第一个开源、免费在线数据建模、元数据管理平台(口号)。提供简单易用的元数据设计、关系图设计、SQL查询等功能,辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能、方便我们快速、安全的管理数据库中的元数据。

2.2 数据集成

Sea Tunnel : 1.5k fork / 7k star | Since : Jul 30, 2017

  • Sea Tunnel

  • 主要编程语言:Java

  • 社区活跃情况

Kettle : 3.2k fork / 7.2k star | Since : Oct 6, 2013

  • Kettle (全名 : Pentaho Data Integration - Kettle)
  • 主要编程语言:Java

  • 社区活跃情况

ChunJun : 1.7k / 3.9k | Since : Apr 29, 2018

  • ChunJun(纯均)
  • https://dtstack.github.io/chunjun/
  • https://github.com/DTStack/chunjun
  • https://www.dtstack.com/resources?src=dsyzh
    ChunJun 是易用、稳定、高效的批流一体的数据集成框架。
    该项目最早启动的初衷是为【袋鼠云】的核心业务一站式大数据基础软件 - 数栈 ,打造一款具有 “袋鼠特色 “的核心计算引擎,承载实时平台、离线平台、数据资产平台等多个应用的底层数据同步及计算任务。
    ChunJun 基于 Flink 并采用插件式架构,将源数据库抽象成 Reader 插件,将目的数据库抽象成 Writer 插件。

  • 核心特点
  • 基于 json、sql 构建任务
  • 支持多种异构数据源之间数据传输
  • 支持断点续传、增量同步
  • 支持任务脏数据存储管理
  • 支持 Schema 同步
  • 支持 RDBS 数据源实时采集

  • 主要编程语言:Java

  • 社区活跃情况

DataX : 5.2k fork / 14.8k star

  • DataX => DataWorks (商业版)
  • 主要编程语言:Java(97.6%)、Python (2.3%)

其他成熟度低的产品

  • Cannal : 7.5 fork / 27.4k star | Since : Sep 21, 2014
  • 主要编程语言:Java

  • 社区活跃情况

2.3 数据开发

  • Apache Flink
  • Apache Spark

2.4 数据质量

2.5 数据标准

2.6 数据模型 /数据建模 / 数据资产

2.7 数据分析与可视化

  • Superset | 开源BI

由Airbnb贡献的轻量级BI产品;
数据源方面,Superset支持CSV、MySQL、Oracle、Redshift、Drill、Hive、Impala、Elasticsearch等27种数据源,并深度支持Druid。

  • Grafana

Grafana 主要用于对接时序数据库,分析展示监控数据
目前支持的数据源包括 InfluxDB、Elasticsearch、Graphite、Prometheus 等,同时也支持 MySQL、MSSQL、PG 等关系数据库。

  • Metabase

数据源方面,Metabase 支持 Redshift、Druid、Google BigQuery、MongoDB、MySQL、PG 等 15 种数据源。

  • DataEase |

理念:人人可用的开源数据可视化分析工具。

  • ECharts | 基于 JavaScript 的开源可视化图表库

2.8 调度系统

Apache Dolphi Scheduler

  • Apache Dolphi Scheduler

一个分布式和可扩展的开源工作流协调平台,具有强大的DAG可视化界面

XXL-JOB

  • XXL-Job

X 参考文献

标签:github,数据,开源,数据管理,https,apache,com
From: https://www.cnblogs.com/johnnyzen/p/18029696/data-governance-tools

相关文章

  • python处理栅格数据
    字节序列:ReadRaster([xoff],[yoff],[xsize],[ysize],[buf_xsize],[buf_ysize],[buf_type],[band_list],[buf_pixel_space],[buf_line_space],[buf_band_space])xoff是列读取起点,默认值为0。yoff是行读取起点,默认值为0。xsize是读取的列数,默认为全部读取。ysize是读取的......
  • 医疗大模型:数据+知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策,为未来
    医疗大模型:数据+知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策,为未来医疗服务提供全新可能性1.指令数据集构建目前大多数开源的ChatLLM项目使用的是其他模型(如:ChatGPT)生成的指令数据,其不可避免的存在数据幻想的问题,数据幻想问题将严重影响LLM在实际场景中的应用......
  • 开源:Taurus.DistributedLock 分布式锁框架,支持 .Net 和 .Net Core 双系列版本
    前言:在经过漫长的技术沉淀,终于又为.Net及.NetCore的微服务系列框架贡献当中的一个重要组件。Taurus.DistributedLockisadistributedlockfor.netor.netcore.【支持:Redis、MemCache、Database、Local、File五类锁】1、开源地址:https://github.com/cyq1162/Taurus......
  • 提升办公质量,开源可视化表单助力梦想成真!
    想要实现高质量的办公目的,可以借助低代码技术平台的力量梦想成真。开源可视化表单操作简单、灵活简便、易维护,是通信业、电力、高校等众多行业实现流程化办公的理想表单。广州流辰信息是专注于低代码技术平台研发与创新的服务商,经验足、创新能力强,是众多客户理想的合作伙伴。1、......
  • 用户数据之存量——DAU/MAU
     编辑导语:数据分析是设计师了解用户行为的一个重要手段。本文作者分享了不同指标的核心含义,从用户数据的存量、Active活跃度、User用户展开分析,一起来学习一下吧,希望对你有帮助。  随着设计师对产品设计在业务上的接触越来越深入,数据分析成为设计师了解用户行为的一个重......
  • 第六章 自己动手压缩数据
    《程序是怎样跑起来的》这本书的第六章“自己动手压缩数据”为读者揭示了一个神奇而又实用的世界——数据压缩。在阅读这一章之后,我不仅对数据压缩的原理有了更深入的理解,也对计算机科学中的实用技术产生了浓厚的兴趣。这一章首先介绍了文件是以字节为单位记录的。文件是在磁盘等......
  • CreateHolesInImage说明文档-对于遥感影像的空洞创建多边形矢量数据
    提取遥感影像的空洞地理处理工具箱特点:通用地理处理工具,支持任何遥感影像,包括无人机,卫星遥感,普通图片和gdb,mdb数据库等。速度快,极致效率,效率高,支持对多个文件夹下的任意多数据进行批处理使用简单,全自动话,无人工干预功能:提取空洞提取空洞和非空洞默认临时文件夹,结果文件夹默认临时......
  • chapter5-线性数据结构
    1.向量向量(vector)是可以改变其大小的线性序列容器。像数组一样,向量使用连续的空间存储元素,这表明向量也可以像数组一般通过其下标来访问其元素。但与数组不同的是,向量的大小可以动态变化。向量在内部使用动态数组的方式来存储元素,无需关心实现细节。(平均意义下,向量插入元素的时......
  • 数据可视化是怎样在智慧工业中发挥作用的?
    在智慧工业的大潮中,数据可视化崭露头角,以其直观、清晰的方式赋能工业生产,为智慧工业的高效运转提供了强有力的支持。下面我就以可视化从业者的角度,简单聊聊这个话题。数据可视化首先在智慧工业的生产监控中大显身手。通过将实时产线数据以图形、图表等形式呈现,生产管理人员可以一......
  • .Net Core Unit of Work 基于Entity Framework Core 封装的多数据源操作 (MySql版本)
    先说一下UnitofWork是什么:UnitofWork(工作单元)是一种设计模式,通常用于管理数据库事务和持久化操作。它有助于确保数据操作的一致性和完整性,同时减少不必要的数据库操作,提高性能。在软件开发中,UnitofWork模式通常与Repository模式一起使用。下面是UnitofWork模式的......