首页 > 其他分享 >一站式数据可观测性平台 Datavines 正式开源啦

一站式数据可观测性平台 Datavines 正式开源啦

时间:2023-06-22 15:44:13浏览次数:44  
标签:检查 概览 一站式 作业 支持 开源 Datavines 数据

Datavines是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力,致力于帮助用户全面地了解和掌管数据,让您做到心中有数,目前作为 Datavane 开源组织的重点推荐项目,正式开源,欢迎大家使用。

核心特性

数据目录

  • 定时获取数据源元数据,构造数据目录

  • 定时监听元数据变更情况

  • 支持元数据的标签管理

数据目录

数据质量监控

  • 内置 27 个数据质量检查规则,开箱即用

  • 支持 4 种数据质量检查规则类型

    • 单表单列检查类型

    • 单表自定义SQL检查类型

    • 跨表准确性检查类型

    • 两表值比对检查类型

  • 支持配置定时任务进行定时检查

  • 支持配置 SLA 用于检查结果告警

数据质量检查

数据概览

  • 支持定时执行数据探测,输出数据概览报告

  • 支持自动识别列的类型自动匹配合适的数据概况指标

  • 支持表行数趋势监控

  • 支持列的数据分布情况查看

数据概览

插件化设计

平台以插件化设计为核心,以下模块都支持用户自定义插件进行扩展

  • 数据源:已支持 MySQLImpalaStarocksDorisPrestoTrinoClickHousePostgreSQL
  • 检查规则:内置空值检查、非空检查、枚举检查等27个检查规则
  • 作业执行引擎:已支持SparkLocal两种执行引擎。Spark 引擎目前仅支持Spark2.4版本,Local 引擎则是基于JDBC开发的本地执行引擎,无需依赖其他执行引擎。
  • 告警通道:已支持邮件
  • 错误数据存储:已支持 MySQL本地文件(仅支持Local执行引擎)
  • 注册中心:已支持 MySQLPostgreSQLZooKeeper

多种运行模式

  • 提供Web页面配置检查作业、运行作业、查看作业执行日志、查看错误数据和检查结果

  • 支持在线生成作业运行脚本,通过 datavines-submit.sh 来提交作业,可与调度系统配合使用

作业脚本

容易部署&高可用

  • 平台依赖少,容易部署

  • 最小仅依赖 MySQL 既可启动项目,完成数据质量作业的检查

  • 支持水平扩容,自动容错

  • 无中心化设计Server 节点支持水平扩展提高性能

  • 作业自动容错,保证作业不丢失和不重复执行

项目架构

Datavines架构图

CatalogManager

CatalogManager 是负责管理元数据的组件,主要负责元数据的存储、查询以及元数据获取任务的调度和容错处理等。

DataQualityCenter

DataQualityCenter 是负责数据质量管理的组件,主要负责数据质量规则的管理、数据质量作业的调度、执行和自动容错处理等。

快速上手

数据概览

进行数据概览只需下面3步:

  • 创建数据源(或者选择创建好的数据源)
  • 点击相应的表
  • 点击右上角 运行概览 并选择想要探查的列

数据质量检查

进行数据质量检查只需下面4步:

  • 点击想要进行检查的列,点击 添加作业
  • 选择 检查规则 并填入参数
  • 选择 检查公式 ,比如 实际值/期望值 x100% ,填入比较符和阈值
  • 点击保存并运行即可

加入我们

Datavines 的目标是成为更好的数据可观测性领域的开源项目,为更多的用户去解决元数据管理和数据质量管理中遇到的问题。在此我们真诚欢迎更多的贡献者参与到社区建设中来,和我们一起成长,携手共建更好的社区。

关于Datavane

Datavane 是一个专注于大数据领域的开源组织(社区),由一群大数据领域优秀的开源项目作者共同创建,旨在帮助开源项目作者更好的建设项目、为大众提供高质量的开源软件,宗旨是:只为做一个好软件。目前已经聚集了一批优质的开源项目,涉及到数据集成、大数据组件管理、数据质量等。

Datavane 社区中,所有的项目都是开源开放的,代码质量和架构设计优质的潜力项目。社区保持开放中立、协作创造、坚持精品,鼓励所有的开发者、用户和贡献者积极参与我们的社区、共同合作,创新创造,建设一个更加强大的开源社区。

官 网: http://www.datavane.org/
Github : https://github.com/datavane

标签:检查,概览,一站式,作业,支持,开源,Datavines,数据
From: https://www.cnblogs.com/simple-focus/p/17497906.html

相关文章

  • 人工智能核心技术与研究领域划分,最新《人工智能入门指南》开源
    经过半个多世纪的发展,人工智能技术逐步成熟,已然形成了固定的产业链。而随着近几年国家的大力支持,我国的人工智能产业规模也在不断扩大,科技人才供应吃紧,尤其是算法设计岗和应用开发岗供需比均在0.2以下,也就是说企业需要100个员工,市场却只能提供不到2个,人才的吸引和管理可谓迫在眉睫......
  • 探索WordPress:开源内容管理系统的强大功能和灵活性
    WordPress是一款广泛使用的开源内容管理系统(CMS),它提供了许多强大的功能和灵活性,使其成为建立和管理网站的首选工具。在本篇博客中,我们将深入探讨WordPress的一些关键功能和技术,以及如何最大限度地发挥其潜力。1.简单易用的界面和内容管理WordPress提供了一个直观且用户友好的管......
  • 这应该是堪称教科书级别的“Android Framework学习笔记”了,字节九位大佬联合打造,首次
    相信大家在找工作的时候,肯定或多或少都被面试官问到过安卓的八股文。ActivityManagerService(简称AMS),或者WindowManagerService(WMS)怎么实现的啊,有些什么细节需要注意啊,View被加入到ViewRoot的流程啊等等。在我看来,对于应用开发来说,面试考这些纯粹就是扯淡,很有可能面试官自己也......
  • Android 面试 | 开源库面试题
    1,HTTP与缓存理论1.1HTTP缓存策略HTTP的缓存机制也是依赖于请求和响应header里的参数类实现的,最终的响应结果是从缓存还是从服务端拉取是有一套完整的机制的,HTTP的缓存机制的流程如下所示。HTTP的缓存可以分为两种:强制缓存和对比缓存1.2强制缓存要服务端参与判断是否继续使用缓存,......
  • 常见开源协议介绍
    搬砖:https://zhuanlan.zhihu.com/p/569905141借用乌克兰程序员PaulBagwell的分析图目录一、BSD协议二、ApacheLicence2.0三、GPL一、BSD协议主要特点:允许修改源码允许源码再发布允许商业软件发布和销售约束:如果再次发布的产品中包含源代码,需要在源代码中必须带......
  • 100+前沿“拿来即用”开源深度学习模型汇总分享
        本文整理了Tensorflow、Pytorch等开源深度学习模型,可以非常方便供用户调用。比如Pytorch仅需一行代码(torch.hub.load())调用ResNet,ResNext,BERT,GPT,PGAN,Tacotron,DenseNet,MobileNet等最新模型。推荐给大家使用。 PyTorchHub    链接:https://pytorch.org/......
  • Lowes EDI 项目数据库方案开源介绍
    近期为了帮助广大用户更好地使用EDI系统,我们根据以往的项目实施经验,将成熟的EDI项目进行开源。用户安装好知行之桥EDI系统之后,只需要下载我们整理好的示例代码,并放置在知行之桥指定的工作区中,即可开始使用。今天的文章主要为大家介绍LOWE'SEDI项目,了解如何获取开源的项目......
  • [万神网络科技]Windows12网页版开源HTML源码
    Windows12网页版开源HTML源码源码介绍Windows12网页版是一个开源项目,使用标准网络技术,例如Html、CSS和Javascript,希望让用户在网络上预先体验Windows12因为这只是概念版,所以内容可能与Windows12正式版本不一致。源码截图下载地址:vx公众号:万神的小屋......
  • 来自 VMWare 的开源 Linux 容器系统: Photon OS 5.0 发布
    导读PhotonOS 是一个开源 Linux 容器主机,针对云原生应用程序、云平台和VMware基础架构进行了优化。 PhotonOS 为高效运行容器提供了安全的运行时环境。PhotonOS 的一些主要亮点是:针对VMwarehypervisor进行了优化:当PhotonOS在VMwareESXi上运行时,Lin......
  • 开源的轻量级任务调度框架
    你好,这里是Dotnet工具箱,定期分享Dotnet有趣,实用的工具和组件,希望对您有用!1.开源的轻量级任务调度框架FluentScheduler是一个开源的任务调度框架,支持Fluent语法,通过Nuget安装引用,和Quartz.Net相比,FluentScheduler足够轻量,非常容易上手。使用示例下面是一个仅仅......