首页 > 其他分享 >一体化元数据管理平台——OpenMetadata入门宝典

一体化元数据管理平台——OpenMetadata入门宝典

时间:2023-07-12 10:22:32浏览次数:44  
标签:数据管理 平台 宝典 开源 OpenMetadata docker 数据

大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。在最近的两年的时间里,因为公司的需求,还有大数据的发展趋势所在,我开始学习数据治理的相关知识。今天给大家分享一体化的元数据管理平台——OpenMetadata。

本文档基于官网及个人实践资料整理。后续的文档请关注公众号 大数据流动,会持续的更新~

本文分四个部分,分别从开源元数据管理平台,OpenMetadata简介,安装过程和功能演示四个方面来进行。

一、开源元数据管理平台

元数据管理是企业全面开展数据治理的起点。各种元数据管理工具,元数据管理平台也层出不穷。

开源的元数据管理平台很多。开源元数据管理平台是一种用于收集、存储和管理数据的工具,它们提供了一种可扩展的方式来组织和维护数据的元数据信息。以下是一些常见的开源元数据管理平台:

  1. Apache Atlas:Apache Atlas是一个开源的大数据元数据管理和数据治理平台,旨在帮助组织收集、整理和管理数据的元数据信息。它提供了丰富的元数据模型和搜索功能,可以与各种数据存储和处理平台集成。
  2. LinkedIn DataHub:LinkedIn DataHub是LinkedIn开源的元数据搜索和发现平台。它提供了一个集中式的元数据存储库,用于管理和浏览各种类型的数据集和数据资产的元数据信息。
  3. Amundsen:Amundsen是Lyft开源的数据发现和元数据管理平台。它提供了一个用户友好的界面,使用户可以搜索、浏览和贡献数据集的元数据信息。Amundsen还支持与其他数据工具和平台的集成。
  4. Metacat:Metacat是Netflix开源的数据发现和元数据管理平台。它提供了一个统一的接口来查找和浏览各种数据集的元数据信息,并支持与其他数据工具和服务的集成。

这些开源元数据管理平台都提供了各种功能,如元数据存储、搜索、浏览、数据资产关系管理、数据血统跟踪等,帮助组织更好地管理和利用数据的元数据信息。

而今天我们要介绍的OpenMetadata,希望提供一种元数据的管理标准,来让我们更好的管理元数据。

二、OpenMetadata简介

OpenMetadata是一个用于数据发现、数据沿袭、数据质量、可观察性、治理和团队协作的一体化平台。它是发展最快的开源项目之一,拥有充满活力的社区,并被各行业垂直领域的众多公司采用。OpenMetadata 由基于开放元数据标准/API 的集中式元数据存储提供支持,支持各种数据服务的连接器,可实现端到端元数据管理,让您可以自由地释放数据资产的价值。

目前OpenMetadata在Github标星2.5k,并刚刚更新了1.1版本。

考虑部分同学网络问题,可在大数据流动后台回复“OpenMetadata1.1”进行源码和安装包下载,有效期一个月。

OpenMetadata 包括以下内容:

  • 元数据模式- 使用类型、实体和实体之间关系的模式定义元数据的核心抽象和词汇。这是开放元数据标准的基础。还支持具有自定义属性的实体和类型的可扩展性。

  • 元数据存储- 存储连接数据资产、用户和工具生成的元数据的元数据图。

  • 元数据 API - 用于生成和使用基于用户界面模式以及工具、系统和服务集成构建的元数据。

  • 摄取框架- 用于集成工具并将元数据摄取到元数据存储的可插入框架,支持大约 55 个连接器。摄取框架支持众所周知的数据仓库,如 Google BigQuery、Snowflake、Amazon Redshift 和 Apache Hive;MySQL、Postgres、Oracle 和 MSSQL 等数据库;Tableau、Superset 和 Metabase 等仪表板服务;消息服务,如 Kafka、Redpanda;以及 Airflow、Glue、Fivetran、Dagster 等管道服务。

  • OpenMetadata 用户界面- 用户发现所有数据并就所有数据进行协作的单一位置。

核心功能

  • 数据协作- 通过活动源获取事件通知。使用 webhook 发送警报和通知。添加公告以通知团队即将发生的更改。添加任务以请求描述或术语表术语批准工作流程。添加用户提及并使用对话线程进行协作。
  • 数据质量和分析器- 标准化测试和数据质量元数据。将相关测试分组为测试套件。支持自定义SQL数据质量测试。有一个交互式仪表板可以深入了解详细信息。
  • 数据血缘- 支持丰富的列级沿袭。有效过滤查询以提取沿袭。根据需要手动编辑谱系,并使用无代码编辑器连接实体。
  • 全面的角色和策略- 处理复杂的访问控制用例和分层团队。
  • 连接器- 支持连接到各种数据库、仪表板、管道和消息传递服务的 55 个连接器。
  • 术语表- 添加受控词汇来描述组织内的重要概念和术语。添加词汇表、术语、标签、描述和审阅者。
  • 数据安全- 支持 Google、Okta、自定义 OIDC、Auth0、Azure、Amazon Cognito 和 OneLogin 作为 SSO 的身份提供商。此外,还支持 AWS SSO 和 Google 基于 SAML 的身份验证。

三、安装过程

主要使用Docker的安装方式,几分钟就可以搞定。

首先查看python版本。

python3 --version

需要python 3.7 3.8 3.9三个版本都可以。

查看docker版本。

docker --version

20.10.0或者更高的版本。

docker compose version

需要docker compose 2.1.1或者更高的版本。

建立文件夹

mkdir openmetadata-docker && cd openmetadata-docker

创建虚拟环境。

python3 -m venv env

虚拟环境生效。

source env/bin/activate

更新pip

pip3 install --upgrade pip setuptools

安装openmetadata

pip3 install --upgrade "openmetadata-ingestion[docker]"

确定安装成功

metadata docker --help

启动容器

metadata docker --start

启动postgre

metadata docker --start -db postgres

随后访问

 http://localhost:8585

成功!

四、功能演示

首页展示

多语言支持

概览页面

数据质量监控页

数据资产

业务术语表功能

一些数据源的配置。

未完待续~

更多大数据、数据治理、人工智能相关知识分享,请关注大数据流动。

标签:数据管理,平台,宝典,开源,OpenMetadata,docker,数据
From: https://www.cnblogs.com/tree1123/p/17546832.html

相关文章

  • 元数据管理
    元数据管理一个企业中的数据可能分布在不同的部门、系统和地方,而这些数据往往以不同的形式存在,难以进行有效管理和利用,如何高效管理这些数据,元数据管理则是解决这个问题的关键工作之一。本文将详细介绍元数据管理的概念、意义以及如何做好元数据管理。4.1元数据介绍关于元数据......
  • 从0开始,手写MySQL数据管理器DM
    文章很长,且持续更新,建议收藏起来,慢慢读!疯狂创客圈总目录博客园版为您奉上珍贵的学习资源:免费赠送:《尼恩Java面试宝典》持续更新+史上最全+面试必备2000页+面试必备+大厂必备+涨薪必备免费赠送:《尼恩技术圣经+高并发系列PDF》,帮你实现技术自由,完成职业升级,薪......
  • Docker数据管理_数据卷容器
    Docker数据管理_数据卷容器Volume基本使用参数: create#创建数据卷 inspect#查看数据卷元数据 ls#查看数据卷列表 prune#删除所有未使用的卷 rm#删除数据卷创建一个自定义容器dockervolumecreateedc-tomcat-vol查看所有容器卷dockervolumels查看指定容器......
  • Docker数据管理_配置数据卷
    Docker数据管理_配置数据卷命令dockerrun-v宿主机目录(文件):容器内目录(文件)webapps注意事项目录必须是绝对路径如果目录不存在则会自动创建可以挂载多个数据卷示例给Tomcat服务器挂载/opt/webapps路径。dockerrun-d--namemytomcat-p8080:8080......
  • Docker数据管理_为什么使用数据卷
    Docker数据管理_为什么使用数据卷什么是容器数据卷Docker中的数据可以存储在类似于虚拟机磁盘的介质中,在Docker中称为数据卷(DataVolume)思考Docker容器删除后,在容器中产生的数据还在吗?Docker容器和外部机器可以直接交换文件吗?容器之间能进行数据交互?数据卷概念......
  • 瓴羊Quick BI数据门户,让企业数据管理一目了然
    信息科技时代,大量企业已经意识到:商业信息将成为企业的核心资产之一。而商业信息的获取,离不开专业的数据分析,这也让瓴羊QuickBI等商业智能BI工具成为了企业们进入信息化时代后的“标配”。对现代市场环境下的企业而言,竞争是全方面的。除了产品、服务、价格等外在能力的比较之外,企业......
  • Docker 数据管理
    参考资料:Docker从入门到实践Docker教程|菜鸟教程Docker数据卷概念Docker数据卷(Volume)是一种持久化数据的机制,可以将容器内的数据存储到主机或其他容器之外的地方。数据卷让你在容器运行期间保持数据的一致性和存活性。数据卷有以下特点:数据卷可以被多个容器共享,......
  • 史上最全Hadoop面试题:尼恩大数据面试宝典专题1
    文章且持续更新,建议收藏起来,慢慢读!疯狂创客圈总目录博客园版为您奉上珍贵的学习资源:免费赠送:《尼恩Java面试宝典》持续更新+史上最全+面试必备2000页+面试必备+大厂必备+涨薪必备免费赠送:《尼恩技术圣经+高并发系列PDF》,帮你实现技术自由,完成职业升级,薪酬猛......
  • 鹅厂流出两份Android Framework技术宝典火了,完整版 PDF 限时开放下载
    前言最近互联网大厂的”裁员潮“愈演愈烈……如何破局?我想最重要的一点:不断提升个人价值。AndroidFramework的重要性AndroidFramework开发虽然比较偏底层,圈子窄,但是能掌握一些原理的东西,可以触类旁通,往应用层发展也可以,接下来我们看看Framework知识有多重要。举几个栗子,你或许......
  • Android进阶宝典 -- JetPack Navigation的高级用法(解决路由跳转新建Fragment页面问题)
    相信有相当一部分的伙伴,在项目开发中依然使用Activity作为页面承载体,有10个页面就会有10个Activity,这种方式当然没问题,但是如果涉及到页面间数据共享,那么使用多Activity就不是很方便了,需要Activity传递各种数据,涉及到数据的序列化与反序列化;因此产生了单Activity和多Fragment架构,所......