首页 > 其他分享 >《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(三)

《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(三)

时间:2024-09-09 16:47:32浏览次数:13  
标签:Griffin 读书笔记 核心技术 E6% 质量 Apache 数据 第四章

《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。

图书介绍:数据资产管理核心技术与应用

今天主要是给大家分享一下第四章的内容:

第四章的标题为数据质量的技术实现

内容思维导图如下:

本文是接着

《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(二)

继续往下介绍

4、 常见的开源数据质量管理平台

4.1、   Apache Griffin

Apache Griffin 是一个开源的大数据质量管理系统,底层是基于Hadoop和Spark实现的,支持批处理和流处理模式两种数据质量检测方式,官方网址为:https://griffin.apache.org/,如下图所示,是Apache Griffin 官方地址https://griffin.apache.org/docs/quickstart-cn.html中提供的架构图。

Apache Griffin 的源代码github地址为https://github.com/apache/griffin    《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

从架构图中可以看到

  • Apache Griffin 在做数据质量检测时,是基于Spark 实现的,以Spark任务的形式对定义的待采集数据质量的数据源进数据采集。
  • 在架构图中,Define主要用于数据质量的维度定义,也就是我们说的数据质量规则的定义。
  • Measure负责数据质量任务的执行以及生成数据质量的结果数据。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著
  • Analyze主要负责结果数据的存储以及呈现。

如下图所示,Apache Griffin 的架构图刚好是可以对应到我们前面的数据质量采集流程的。

另外Apache Griffin   也是支持容器化部署的,相关部署介绍请参考:https://github.com/apache/griffin/blob/master/griffin-doc/docker/griffin-docker-guide.md

Apache Griffin   的主要技术栈和开发语言包括

  • 后端:Java和Scala,其API服务主要是由Java 语言开发,基于Http协议和GRPC协议做数据通信。其任务的执行主要是基于Scala语言开发,用于Spark任务的提交、运行等。
  • 前端:TypeScript、Html、Css

其核心技术架构如下图所示。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

从图中可以看到其核心技术是通过SpringBoot+Spark来实现的。

4.2、  Qualitis

Qualitis是一个支持多种异构数据源的数据质量监测平台,其设计初衷是用于解决业务系统运行、数据中心建设及数据治理过程中的遇到的各种数据质量问题。

如下图所示,是Qualitis官方地址https://github.com/WeBankFinTech/Qualitis/blob/master/docs/zh_CN/ch1/%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1%E6%96%87%E6%A1%A3.md#21-%E6%80%BB%E4%BD%93%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1中提供的架构图。

从架构图中可以看到也是包含了质量规则配置、质量任务管理和质量数据采集、质量数据存储和分析等这些核心模块。

在Qualitis官方网址中也提供了总体模块设计图,其模块设计图也是刚好可以对应到我们前面的数据质量采集流程,如下图所示。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

可以看到数据质量采集的流程其实不管在哪个开源的数据质量平台中,都几乎是一样的,都需要包括

  • 质量规则的配置和管理:主要是配置规则和维护规则。
  • 定时job定时去执行质量规则抓取原始的数据质量数据。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著
  • 质量的数据处理和分析:对抓取到的原始质量数据进行处理,然后通过质量数据的分析来优化质量规则的配置,形成一个闭环的链路,如下图所示

标签:Griffin,读书笔记,核心技术,E6%,质量,Apache,数据,第四章
From: https://www.cnblogs.com/laoqing/p/18404837

相关文章

  • Springboot计算机毕业设计线上线下的篮球培训系统02tab(程序+源码+数据库+调试部署+开
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表学员,教练,篮球课程,线上教学,学习记录,签到打卡,学员点评,班级开题报告内容一、研究背景及意义1.1研究背景随着体育运动的普及与全民健身意识的提升,篮球作为......
  • Springboot计算机毕业设计线上跳蚤市场平台iy7e7(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表用户,商家,商品分类,商品信息,公告信息开题报告内容一、研究背景与意义随着互联网技术的飞速发展,电子商务已经成为人们生活中不可或缺的一部分。特别是在高校环......
  • Springboot计算机毕业设计闲置物品共享平台2l1ij(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表用户,卖家用户,物品分类,免费物品,积分物品,物物交换,领取订单,积分订单,交换订单,积分消费,每日签到,签到积分,申请退还,退回积分开题报告内容一、研究背景与意......
  • 使用SSE发送和接收流式数据
    背景早期去玩了一下各个Ai厂商的免费额度(主要是国内的),虽然不是很给力,但是还是蛮好玩的。建立长连接我们通常使用WebSocket,而对于流式数据发送,只需要服务器返回数据,而不需要客户端发送数据的情况下,SSE是一个不错的选择。介绍SSE(Server-SentEvents)。数据格式大致如下,如果不写......
  • 【Spark+Hive】基于大数据招聘数据分析预测推荐系统(完整系统源码+数据库+开发笔记+详
    文章目录【Spark+Hive】基于大数据招聘数据分析预测推荐系统(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)源码获取方式在文章末尾一、 项目概述二、研究意义三、背景四、国内外研究现状五、开发技术介绍六、算法介绍 七、数据库设计八、系统......
  • 探索CSDN博客数据:使用Python爬虫技术
    探索CSDN博客数据:使用Python爬虫技术在数字化时代,数据的获取和分析变得越来越重要。作为一名程序员或数据分析师,我们经常需要从各种在线平台抓取数据以进行进一步的分析或学习。CSDN作为中国最大的IT社区和服务平台,拥有大量的技术博客和文章,是一个丰富的数据源。本文将介绍......
  • 算法与数据结构——图简介
    图图(graph)是一种非线性数据结构,由顶点(vertex)和边(edge)组成。我们可以将图G抽象地表示为一组顶点V和一组边E的集合。以下示例展示了一个包含5个顶点和7条边的图。如果将顶点看做节点,将边看做连接各个节点的引用(指针),我们就可以将图看作一种从链表拓展而来的数据结构。如下图,相较于......
  • SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与
    查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模......
  • 海外合规|新加坡 【数据保护新风向】你的DPO注册了吗?
    数据安全已经成为了我们不可忽视的重要议题。新加坡个人数据保护委员会(PDPC)提醒,2024年9月30日之前,根据新加坡的个人资料保护法(PDPA),每个组织都必须指定至少一名数据保护官(DPO)来确保数据的合规使用。DPO注册相关问题:1、是否必须通过BizFile+注册我组织的DPO?根据法律规定,组织必须......
  • 2025超实用的软件EasyRecovery数据恢复工具免费版下载
    ......