首页 > 其他分享 >数据治理核心保障数据质量监控开源项目Apache Griffin分享

数据治理核心保障数据质量监控开源项目Apache Griffin分享

时间:2023-06-01 23:11:19浏览次数:66  
标签:Griffin griffin 开源 质量 Apache docker 数据

@

目录

概述

定义

Apache Griffin 官网地址 https://griffin.apache.org/ 源码release最新版本0.6.0

Apache Griffin 官网文档地址 https://griffin.apache.org/docs/quickstart.html

Apache Griffin 源码地址 https://github.com/apache/griffin

Apache Griffin是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产,从而提升数据的准确度、可信度。

Apache Griffin提供了一套定义良好的数据质量领域模型,涵盖了一般情况下的大多数数据质量问题。它还定义了一组数据质量DSL来帮助用户定义他们的质量标准。通过扩展DSL甚至可以在Apache Griffin中实现自定义的特定特性/功能。

数据质量(DQ)是物联网、机器学习等许多数据消费者的关键标准,但如何确定“好”数据没有标准协议。Apache Griffin是一个模型驱动的数据质量服务平台,可以在其中按需检查数据。它提供了一个标准流程来定义数据质量度量、执行和报告,允许跨多个数据系统进行这些检查;当不信任自己的数据或者担心数据会对关键决策产生负面影响时则可以使用Apache Griffin来确保数据质量。

Apache Griffin支持两种类型的数据源:

  • batch数据:通过数据连接器从Hadoop平台收集数据。
  • streaming数据:可以连接到诸如Kafka之类的消息系统来做近似实时数据分析。

为何要做数据质量监控

  • 当数据从不同的数据源流向不同的应用系统的时候,缺少端到端的统一视图来追踪数据沿袭(Data Lineage)。这也就导致了在识别和解决数据质量问题上要花费许多不必要的时间。
  • 缺少一个实时的数据质量检测系统。从数据资产(Data Asset)注册,数据质量模型定义,数据质量结果可视化、可监控,当检测到问题时,可以及时发出警报。
  • 缺乏一个共享平台和API服务,让每个项目组无需维护自己的软硬件环境就能解决常见的数据质量问题。

基本概念

  • DQC:Data Quality Control,数据质量检测/数据质量控制,一般称为数据质量监控。

  • SLA:Service Level Agreement,也就是服务等级协议,指的是系统服务提供者(Provider)对客户(Costomer)的一个服务承诺,通常称为数据产出分级运维服务。

由定义可知,DQC关注数据口径,负责数据准不准的监测,而SLA关注产出及时性和稳定性,这两者有机结合共同保障了数据质量。在需求场景上DQC主要负责对数据资产质量和波动的监控,SLA主要负责对数据产出和任务调度结果和时长的监控。

特性

  • 度量:精确度、完整性、及时性、唯一性、有效性、一致性。
  • 异常监测:利用预先设定的规则,检测出不符合预期的数据,提供不符合规则数据的下载。
  • 异常告警:通过邮件或门户报告数据质量问题。
  • 可视化监测:利用控制面板来展现数据质量的状态。
  • 实时性:可以实时进行数据质量检测,能够及时发现问题。
  • 可扩展性:可用于多个数据系统仓库的数据校验。
  • 自助服务:Griffin提供了一个简洁易用的用户界面,可以管理数据资产和数据质量规则;同时用户可以通过控制面板查看数据质量结果和自定义显示内容。

架构

image-20230531164904597

Apache Griffin通过3个步骤来处理数据质量问题,步骤如下:

  • 定义数据质量:数据科学家/分析师定义他们的数据质量要求,如准确性、完整性、及时性、唯一性、有效性、一致性和分析等。
  • 测量数据质量:源数据将被摄取到Apache Griffin计算集群中,Apache Griffin将根据数据质量需求启动数据质量测量。
  • 度量结果:作为度量的数据质量报告将被发送到指定的地方。

此外Apache Griffin还为用户提供了一个前端层,用户可以轻松地将任何新的数据质量需求装载到Apache Griffin平台中,并编写全面的逻辑来定义他们的数据质量。

在Griffin的架构中,主要分为Define、Measure和Analyze三个部分

image-20230531171815533

各部分的职责如下:

  • Define:主要负责定义数据质量统计的维度,比如数据质量统计的时间跨度、统计的目标(源端和目标端的数据数量是否一致,数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等)。
  • Measure:主要负责执行统计任务,生成统计结果。
  • Analyze:主要负责保存与展示统计结果。

安装

Docker部署

Griffin docker镜像是预先构建在docker hub上的,可以通过docker方式试用体验Apache Griffin。

# 国外地址镜像下载安装
docker pull apachegriffin/griffin_spark2:0.3.0
docker pull apachegriffin/elasticsearch
docker pull apachegriffin/kafka
docker pull zookeeper:3.5
# 中国地址镜像下载安装
docker pull registry.docker-cn.com/apachegriffin/griffin_spark2:0.3.0
docker pull registry.docker-cn.com/apachegriffin/elasticsearch
docker pull registry.docker-cn.com/apachegriffin/kafka
docker pull zookeeper:3.5

docker映像是Apache Griffin环境映像,各镜像包含内容如下:

  • apachegriffin/griffin_spark2:该镜像包含mysql、hadoop、 hive、 spark、 livy、Apache Griffin服务、Apache Griffin度量,以及一些准备好的demo数据,它作为一个单节点spark集群,提供spark引擎和Apache Griffin服务。
  • apachegriffin/elasticsearch:此镜像基于官方的elasticsearch,添加了一些配置以启用cors请求,为指标持久化提供elasticsearch服务。
  • apachegriffin/kafka:此镜像包含kafka 0.8,以及一些演示流数据,以流模式提供流数据源。
  • zookeeper:3.5:此镜像为官方zookeeper,以流媒体模式提供zookeeper服务。

Docker 镜像批处理使用

  • 下载获取源码中docker/compose/docker-compose-batch.yml文件,Griffin源码目录主要包括griffin-doc、measure、service和ui四个模块
    • griffin-doc负责存放Griffin的文档
    • measure采用scala语言编写,负责与spark交互,执行统计任务
    • service采用java的SpringBoot作为服务实现,负责给ui模块提供交互所需的restful api,保存统计任务,展示统计结果。

image-20230601093104328

  • 通过docker-compose启动
# 启动
docker-compose -f docker-compose-batch.yml up -d
# 查看容器
docker container ls

image-20230601102503643

  • 可以通过使用任何http客户端来尝试Apache Griffin api,这里以postman为例,官方源码中准备了两个postman的json配置文件。

image-20230601103654339

在postman以文件导入上面两个json配置文件,在Griffin Environment配置BASE_PATH环境变量,端口为上面docker容器暴露的38080

image-20230601142613932

先通过调用api (Basic -> Get griffin version)以确保Apache Griffin服务已经启动。

image-20230601142925038

  • 通过api Measures -> Add measure添加一个精度度量,在Apache Griffin中创建一个度量。

image-20230601143424953

  • 通过api jobs -> Add job添加一个作业来调度一个作业来执行度量。在本例中,调度间隔为4分钟,measure.id填写为上一步返回的id值。

image-20230601143845048

  • 几分钟后,可以从elasticsearch获得度量
curl -XGET 'hadoop2:39200/griffin/accuracy/_search?pretty&filter_path=hits.hits._source' -d '{"query":{"match_all":{}},  "sort": [{"tmst": {"order": "asc"}}]}'
{
  "hits" : {
    "hits" : [
      {
        "_source" : {
          "name" : "metricName",
          "tmst" : 1509599811123,
          "value" : {
            "__tmst" : 1509599811123,
            "miss" : 11,
            "total" : 125000,
            "matched" : 124989
          }
        }
      },
      {
        "_source" : {
          "name" : "metricName",
          "tmst" : 1509599811123,
          "value" : {
            "__tmst" : 1509599811123,
            "miss" : 11,
            "total" : 125000,
            "matched" : 124989
          }
        }
      }
    ]
  }
}

Docker 镜像流处理使用

  • 下载获取源码中docker/compose/docker-compose-streaming.yml文件。
  • 通过docker-compose启动
# 启动
docker-compose -f docker-compose-streaming.yml up -d
# 查看容器
docker container ls

image-20230601154639542

  • 执行流测试
# 进入griffin容器
docker exec -it griffin bash
# 切换到measure目录
cd ~/measure
# 执行脚本进行流精度测量
./streaming-accu.sh
# 跟踪日志
tail -f streaming-accu.log
  • 执行流分析测量
# 先杀死上面进行进程
kill -9 `ps -ef | awk '/griffin-measure/{print $2}'`
# 然后清除上次流作业的检查点目录和其他相关目录
./clear.sh
# 执行脚本进行流分析度量
./streaming-prof.sh
# 跟踪日志
tail -f streaming-prof.log

UI界面操作

image-20230601160053592

  • 总体业务流程

image-20230601160024505

  • 当前docker镜像中默认有创建两个数据资产demo_src和demo_tgt可供测试。
# 进入griffin容器
docker exec -it griffin bash
# 进入hive命令行
hive

image-20230601161237157

  • 创建度量标准

    image-20230601155334764

    • 选择数据源,单一的真实来源与目标进行数据质量比较,目前只能从一个模式中选择属性。

    image-20230601164420574

    • 选择目标,以便与源进行数据质量比较。

    image-20230601164643592

    • 将目标数据字段映射到源字段

    image-20230601164849519

    • 完成demo_src和demo_tgt的分区配置

    image-20230601165043437

    • 填写度量的必要信息

    image-20230601165252504

    • 确保度量配置并保存

    image-20230601165604638

  • 创建作业来定期处理度量,度量名称选择上面my_accuracy_measure,设置每五分钟执行任务,点击提交按钮确认信息再点击保存按钮

image-20230601165859311

  • 热图和仪表板将显示度量的数据图。数据验证度量和分析任务都已配置完成,还可根据指标设置邮件告警等监控信息,等过一段时间后就可以在控制面板上监控的数据质量了。可以在Jobs中查看某个job的Metric可视化展示,也可以直接查看DQ Metrics和My Dashboard。

image-20230601175755447

  • 本人博客网站IT小神 www.itxiaoshen.com

标签:Griffin,griffin,开源,质量,Apache,docker,数据
From: https://www.cnblogs.com/itxiaoshen/p/17450500.html

相关文章

  • SREWorks v1.5 版本发布 | 基于实时作业平台的日志聚类开源
    在经过v1.0\~v1.4四个版本迭代后,SREWorks的核心底座已经表现出极高的稳定性和成熟性。在v1.5版本中,SREWorks开发团队在核心底座上,进行了较多的数智化能力迭代。同时,在数智能力迭代过程中,我们也维持着与SREWorks用户较高的沟通频率。我们发现大家普遍对于监控数据之上的数智化能力比......
  • 从Google、创业再到字节跳动,我在开源领域的实践与思考
    点击以下链接收听本期“大咖访谈”播客,与大咖面对面:https://www.xiaoyuzhoufm.com/episodes/64780ea016726282409baf70开源雨林:请您先向观众介绍自己大家好,我是张鑫。以往在不同场合我会有很多不同的介绍方式,今天我想多聊聊与开源的缘分。我从事过科研、尝试过创业、在互联网......
  • 英特尔深度学习框架BigDL——a distributed deep learning library for Apache Spark
    BigDL:DistributedDeepLearningonApacheSparkWhatisBigDL?BigDLisadistributeddeeplearninglibraryforApacheSpark;withBigDL,userscanwritetheirdeeplearningapplicationsasstandardSparkprograms,whichcandirectlyrunontopofexisting......
  • Alluxio : 开源分布式内存文件系统
    Alluxio:开源分布式内存文件系统Alluxioisamemoryspeedvirtualdistributedstoragesystem.Alluxio是一个开源的基于内存的分布式存储系统,现在成为开源社区中成长最快的大数据开源项目之一。公司简介:由项目的创建者李浩源以及来自UCBerkeley,Google,CMU,Palantir,Stan......
  • 微信开源组件WCDB漫谈及Demo
    前言移动端的数据库选型一直是一个难题,直到前段时间看到了WeMobileDev(微信前端团队)放出了第三个开源组件-WCDBWCDB(WeChatDataBase)是微信官方的移动端数据库组件,致力于提供一个高效、易用、完整的移动端存储方案项目目录微信团队怎么说基于SQLCipherWCDB-iOS/MacWCDB-Android数......
  • 青语言开源发布
    青语言发布6月1日,在这个充满欢声笑语的日子里,数心开物工作室开源发布了一门面向青少年、儿童和非专业人士的中文编程语言——青语言。青语言主页:https://qingyuyan.cn青语言文档:https://doc.qingyuyan.cn青语言社区:https://forum.qingyuyan.cn青语言仓库:https://gitee.com/Nj......
  • 开源.NetCore通用工具库Xmtool使用连载 - 发送短信篇
    【Github源码】《上一篇》介绍了Xmtool工具库中的发送邮件类库,今天我们继续为大家介绍其中的发送短信类库。发送短信就像发送邮件一样,在软件系统中使用非常普遍,甚至比发送邮件还要常见,有些甚至是软件标配功能;例如现在的短信验证码登录、通过短信找回密码等等。发送短信需要......
  • Apache DolphinScheduler 3.0.6 发布,或将是最后一个 3.0.X 版本
     ApacheDolphinScheduler于近日发布了3.0.6版本,主要针对3.0.5重要bug进行修复。如果之后没有发现重大问题,3.0.6将会是3.0.x最后一个版本。Bug修复 Master重新连接zk后slot没有正常更新#14014父工作流失败时subprocess没有正常结束#14087下载地址:ht......
  • 2022 Kube-OVN开源社区年度报告
    感谢各位社区小伙伴陪伴Kube-OVN又走过了快速发展的一年,随着Kubernetes技术的广泛应用,CNI网络插件的使用率逐步攀升,Kube-OVN社区也在不断成长。让我们一起跟随这篇文章,走进Kube-OVN的2022。  产品功能持续优化 2022年,是Kube-OVN夯实基础、巩固优势的一年,完成了从1.10到1......
  • 可视化探索开源项目的 contributor 关系
    引语:作为国内外最大的代码托管平台,根据最新的GitHub数据,它拥有超372,000,000个仓库,其中有28,000,000是公开仓。分布式图数据库NebulaGraph便是其中之一,同其他开源项目一样,NebulaGrpah也有自己的contributor们,他们是何时,通过哪个pr与NebulaGraph产生联系的呢?本文......