首页 > 其他分享 >听说火山引擎推出的 DataLeap,已经可以支持万级表的数据血缘图谱了!

听说火山引擎推出的 DataLeap,已经可以支持万级表的数据血缘图谱了!

时间:2023-03-20 14:08:15浏览次数:37  
标签:图谱 用户 节点 DataLeap 血缘 数据 万级表

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

数据来源广、量级大、场景多,导致数据之间关系变得异常复杂。

经过读取、清洗、存储、计算等一系列流程之后,数据最终汇入指标、报表等服务系统中。但如何对数据溯源、跟踪变化,成为困扰数据研发工程师的难题之一。

数据血缘描述了数据的来源和去向,以及多个处理过程中的转换,是组织内使数据发挥价值的重要基础能力。通过构建数据血缘图谱,可以直接清晰地观察表之间的上、下游依赖关系,甚至是特殊场景下用户关注的表属性,更清晰查看数据链路和统计信息。

但是,要构建清晰、灵活、便利的数据血缘图谱不是易事,特别是在数据量级大的情况下,往往面临层级关系复杂、表任务混乱、分组结构不清楚的问题。

在字节跳动内部,有一套支持万级表血缘的关系展示图谱每天被近万名员工使用,已经沉淀为火山引擎 DataLeap“数据地图”能力,并对外输出。通过提供便捷的找数、理解数服务,火山引擎 DataLeap 大大节省企业内部数据沟通和建设成本。

那么。这套图谱究竟是如何设计和实现的?

首先,抽象用户使用场景和需求。经过内部场景的深度用户调研,火山引擎 DataLeap 抽象出如下需求:

  1. 表血缘关系查看:能从图中清楚浏览用户关注的表上、下游血缘关系,以及场景的表属性。
  2. 表血缘链路查看:能清晰查看某个上游/下游表到用户关注表的链路情况。
  3. 按关键指标分组查看:例如当表数据发生变更时,分组查看所有下游表的负责人以便通知变更。
  4. 筛选关键信息查看:例如用户找数据指标的时候,仅看相关的报表更高效。

其次,在技术选型上,采用 React + Canvas 的混合模式来实现血缘图谱。由于 Canvas 模拟滚动条研发成本高,与 HTML 相比,实现结构样式复杂的节点定制较复杂,但结合 React 框架渲染则可以轻松解决以上问题。因此,最终方案为:采用 Canvas 居于底部,仅负责画连线;React 负责渲染节点、响应 hover 等交互。

听说火山引擎推出的 DataLeap,已经可以支持万级表的数据血缘图谱了!_数据研发

最后,在方案设计和实现上,主要从查看关系的效率和属性完备度两个角度出发,完善以下能力:

  • 为了解决数据量大情况下,数据关系不清晰的问题,火山引擎 DataLeap 支持点击任意节点,则高亮该节点到主节点的链路功能,并在列表顶部增加层级信息和节点统计,让用户能同时查看每个节点细节和节点整体分布。
  • 当用户找数、理解数或进行归因分析时,不仅要了解表的上游依赖,更需要理解表的加工逻辑。因此,火山引擎 DataLeap 在节点连线上新增任务信息,当用户 hover 连线即加粗、高亮并弹出任务信息,并匹配大数据开发平台对应的任务链接,点击即可跳转查看。
  • 在筛选功能上,火山引擎 DataLeap 采用服务端筛选,保证符合要求的数据全量展示。
  • 不同职能的用户在不同场景下使用血缘图谱时,关注的节点属性不相同。火山引擎 DataLeap 血缘图谱上设计了属性展示功能,用户可以勾选自己感兴趣的属性直接显示到图中。

听说火山引擎推出的 DataLeap,已经可以支持万级表的数据血缘图谱了!_大数据_02

据介绍,火山引擎 DataLeap 能帮助企业快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,其中数据地图主要提供数据检索、元数据详情查看、数据理解等功能,解决找数难、理解数据难的痛点,同时支持数据专题、血缘图谱、数据发现、库表管理等特色功能。

听说火山引擎推出的 DataLeap,已经可以支持万级表的数据血缘图谱了!_数据研发_03

目前,火山引擎 DataLeap 的数据地图平台已接入全链路核心元数据,包括 LAS、MySQL、ByteHouse CE、ByteHouse CDW、TOS、LasFS、EMR hive 等,提供可视化的血缘关系展示能力,帮助用户全面的探查了解数据,支持表、字段级别血缘可视化查询,以及按层级、范围筛选展示,可根据用户需求灵活适配。


点击跳转 ​​大数据研发治理套件 DataLeap​​ 了解更多

标签:图谱,用户,节点,DataLeap,血缘,数据,万级表
From: https://blog.51cto.com/bytedata/6132702

相关文章

  • 知识图谱-TransR原理
    一.摘要知识图谱补全旨在执行实体之间的链接预测。在本文中,我们考虑了知识图嵌入的方法。最近,诸如TransE和TransH等模型通过将关系视为从头实体到尾实体的翻译来构建实体......
  • 乌克兰学者的学术图谱case1
     0.人物:米哈伊洛·兹古罗夫斯基MykhailoZakharovychZghurovskyi,也拼写为MykhailoZgurovsky,(乌克兰语:МихайлоЗахаровичЗгуровський),乌克......
  • 知识图谱-TransE模型原理
    1.TransE模型介绍1.1TransE模型引入知识图谱补全任务的前提任务是知识表示学习,在知识表示学习中,最为经典的模型就是TransE模型,TransE模型的核心作用就是将知识图谱中的三......
  • 人工智能 —— 知识图谱
    引言初学者刚开始学习人工智能时,面对铺天盖地的概念,如,人工智能、机器学习、深度学习、计算机视觉等等,一时间可能就被这些“高深”的名称给唬住了,不知道如何下手。又或者有......
  • 知识图谱的图嵌入模型
    本文梳理了面向知识图谱的图嵌入学习算法的不同设计思想,并对相应方法进行了总结。然后按照设计思路,信息利用程度的不同将图嵌入学习方法分成如下5种类别:基于转移思想的图嵌......
  • 开发技术图谱
    ---前端html,CSS,JQuery,easyUI,extjs,layUI,Bootstrap,AngularJS,react,Vue,ElementUI,Node.js---语言VB、Delphi、PB、PHP、C/C++、C#、JAVA、JavaScript、Python、Go、R、Swift......
  • 告别数据开发中的人工审核!火山引擎 DataLeap 落地“自动校验开发规范”能力
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群近期,火山引擎DataLeap智能市场上线“数仓建表规范”功能,该功能通过规范数仓场景......
  • 知识图谱手段增强的推荐系统
    经典协同过滤假设行为相似的用户有着相似的偏好,根据大量用户user的行为反馈识别用户群体的感兴趣的内容item并推荐,通常使用用户内容矩阵(User-ItemInteractionMatrix)来表......
  • 火山引擎DataLeap:揭秘字节跳动数据血缘架构演进之路
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成数据......
  • 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成......