实时数据治理—当Atlas遇见Flink

时间：2023-06-02 20:01:00浏览次数：59

标签：Flink 实时数据管理治理 Atlas 血缘数据

Atlas是Hadoop的数据治理和元数据框架。

Atlas是一组可扩展和可扩展的核心基础治理服务，使企业能够有效，高效地满足Hadoop中的合规性要求，并允许与整个企业数据生态系统集成。

Apache Atlas为组织提供了开放的元数据管理和治理功能，以建立其数据资产的目录，对这些资产进行分类和治理，并为数据科学家，分析师和数据治理团队提供围绕这些数据资产的协作功能。

不熟悉的同学可以参考下面的文章入门。

数据治理之元数据管理的利器——Atlas入门宝典

而Flink则是实现Google Dataflow理念的大数据实时处理框架。

近年来，流处理变得越来越流行。实时数据分析有更大的价值所在，而现在许多系统都是连续的事件流，除了互联网领域，车联网，电力系统，穿戴设备等等的数据都是以事件流的方式收集并处理的。但目前为止大多数公司并没有用流处理的方式解决实时大数据分析的问题，原因可能是有限数据的存储更容易，而sql等分析方式也更简单。但只有用流的方式处理这种数据才是更符合实际的，当然这个困难很大，涉及数据一致性与时间的问题，其实已经属于物理学范畴。

基于Flink的实时数仓也开始在越来越多的公司搭建起来，相当于离线数仓，实时数仓的数据血缘更难收集，元数据管理也更加复杂。

在Atlas的官方也并不支持Flink的元数据管理，但是有很多公司都在努力尝试解决这个问题。

本文选自Flink对接血缘系统Atlas的实现方案，思路有很多值得借鉴之处。原文获取请在后台回复 “atlas20220117”。

1、为什么Flink需要血缘

在Flink任务执行中随着业务的增加变得越来越复杂，在整个数据链路中Flink任务将会多次的调度执行。

实时数据治理—当Atlas遇见Flink_Hadoop

而Flink的任务显示无法追踪Source/Sink的上游或下游全景链路。

实时数据治理—当Atlas遇见Flink_数据_02

2、Atlas的血缘实现

Atlas作为Hadoop体系的元数据管理工具，提供了丰富的元数据管理功能。

1、元数据检索

Atlas 提供了对元数据进行了全量的收集，并支持多种元数据查询或检索方式。

实时数据治理—当Atlas遇见Flink_Hadoop_03

2、元数据标签

Atlas 提供了对元数据进行打标签的功能，并且可以通过标签进行反向查找。

实时数据治理—当Atlas遇见Flink_数据_04

3、血缘管理

Atlas 提供了交互式血缘分析和管理功能。

实时数据治理—当Atlas遇见Flink_数据_05

而Atlas的架构也非常的清晰。

Atlas 通过插件（Hook）的方式在服务段注入捕获代码，并将元数据提交至Kafka

Atlas服务从Kafka中消费元数据信息，并将元数据写入到 JanusGraph(on HBase) 和 Solr 两个系统

Atlas 通过其他应用通过RestAPI 方式向其他第三方服务提供元数据查询和检索的服务

实时数据治理—当Atlas遇见Flink_Hadoop_06

3、两者对接

如何将两个系统打通呢？

需要实现三件事。

在Atlas中定义Flink的相关类型

实时数据治理—当Atlas遇见Flink_Hadoop_07

2.在Flink中定义相关的Hook

实时数据治理—当Atlas遇见Flink_Hadoop_08

3.抓取Flink Connector的元数据

实时数据治理—当Atlas遇见Flink_元数据_09

最终效果：

单个Flink任务

实时数据治理—当Atlas遇见Flink_Hadoop_10

多个Flink任务

实时数据治理—当Atlas遇见Flink_数据_11

当然在当前实现中还有很多的不足和改进之处。

实时数据治理—当Atlas遇见Flink_元数据_12

原文获取请关注大数据流动在后台回复 “atlas20220117”

标签：Flink,实时,数据管理,治理,Atlas,血缘,数据
From： https://blog.51cto.com/u_14500431/6404784

5月《中国数据库行业分析报告》正式发布，首发时序、实时数据库两大【全球产业图谱】
为了帮助大家及时了解中国数据库行业发展现状、梳理当前数据库市场环境和产品生态等情况，从2022年4月起，墨天轮社区行业分析研究团队出品将持续每月为大家推出最新《中国数据库行业分析报告》，持续传播数据技术知识、努力促进技术创新与行业生态发展，目前已更至第十三期，并发布了共计1......
FLink写入Clickhouse优化
一、背景ck因为有合并文件操作，适合批量写入。如单条插入则速度太慢二、Flink写入ck优化改为分批插入，代码如下DataStream<Row>stream=...stream.addSink(JdbcSink.sink("INSERTINTOmytable(col1,col2)VALUES(?,?)",(ps,row)->{ps.setString(1,row.ge......
使用 mysql-replication python监听mysql binlog 实时同步数据
使用mysql-replicationpython监听mysqlbinlog实时同步数据文章目录使用mysql-replicationpython监听mysqlbinlog实时同步数据前言一、环境二、安装与配置1.首先安装mysql-replication2.参数3.配置数据库4.读取binlog日志总结前言数据库的基础信息需要频繁访问，需要存入red......
FLink怎么做压力测试和监控？
我们一般碰到的压力来自以下几个方面：一，产生数据流的速度如果过快，而下游的算子消费不过来的话，会产生背压问题。背压的监控可以使用FlinkWebUI(localhost:8081)来可视化监控，一旦报警就能知道。一般情况下背压问题的产生可能是由于sink这个操作符没有优化好，做一下优化就可以了。比......
为什么使用Flink替代Spark？
一，Flink是真正的流处理，延迟在毫秒级，SparkStreaming是微批，延迟在秒级。二，Flink可以处理事件时间，而SparkStreaming只能处理机器时间，无法保证时间语义的正确性。三，Flink的检查点算法比SparkStreaming更加灵活，性能更高。SparkStreaming的检查点算法是在每个stage结束以后，才会保......
Qcon 广州主题演讲：融云实时社区的海量消息分发实践
移步公众号预约纸质版《作战地图》5月26日-27日，QCon全球软件开发大会落地广州。移步【融云全球互联网通信云】回复【wicc】报名融云IM服务架构师罗伟受邀分享“实时社区的海量消息分发实践”，从实践中来的前沿技术分享，收获现场开发者的热烈响应和一致好评。后台回复“QCon”......
Flink流式数据缓冲后批量写入Clickhouse
一、背景对于clickhouse有过使用经验的开发者应该知道，ck的写入，最优应该是批量的写入。但是对于流式场景来说，每批写入的数据量都是不可控制的，如kafka，每批拉取的消息数量是不定的，flink对于每条数据流的输出，写入ck的效率会十分缓慢，所以写了一个demo，去批量入库。生产环境使用还需要优......
SREWorks v1.5 版本发布 | 基于实时作业平台的日志聚类开源
在经过v1.0\~v1.4四个版本迭代后，SREWorks的核心底座已经表现出极高的稳定性和成熟性。在v1.5版本中，SREWorks开发团队在核心底座上，进行了较多的数智化能力迭代。同时，在数智能力迭代过程中，我们也维持着与SREWorks用户较高的沟通频率。我们发现大家普遍对于监控数据之上的数智化能力比......
flink安装（无hadoop）
下载Flink：访问Flink的官方网站（https://flink.apache.org/），在下载页面找到适合你操作系统的预编译二进制包。选择与你的操作系统和版本相对应的下载链接，点击下载。解压二进制包：下载完成后，将二进制包解压到你想要安装Flink的目录中。你可以使用命令行工具（如tar命令）（没动）配置环......
YOLOV5实时检测屏幕
YOLOV5实时检测屏幕目录YOLOV5实时检测屏幕思考部分先把原本的detect.py的代码贴在这里分析代码并删减不用的部分把屏幕的截图通过OpenCV进行显示写一个屏幕截图的文件用OpenCV绘制窗口并显示最终代码注：此为笔记目的：保留模型加载和推理部分，完成实时屏幕检测实现思路：1.写一......