首页 > 其他分享 >火山引擎数据飞轮实践:在电商场景中,如何建设全链路数据血缘?

火山引擎数据飞轮实践:在电商场景中,如何建设全链路数据血缘?

时间:2024-07-04 14:41:25浏览次数:18  
标签:数仓 链路 指标 飞轮 SQL 血缘 电商 数据

数据作为新型生产要素,正支撑企业的数智化转型。但企业数字化建设也存在管理成本高、数据产品使用门槛高、数据资产价值不够的问题,其原因在于业务和数据之间没有形成双向良性驱动。   结合新时代企业数字化转型需求,火山引擎基于字节跳动十余年数据驱动的实践经验,对外发布企业数智化升级新范式“数据飞轮”,帮助企业实现数据驱动。   具体来说,数据消费是数据飞轮的核心,通过一个又一个具体业务中的数据消费,在上层“业务应用轮”实现决策科学、行动敏捷,带来业务价值提升;在下层“数据资产轮”,也通过频繁的数据消费和业务收益,有的放矢建设高质量、低成本的数据资产,更好支撑业务应用。   构建扎实的数据资产轮能更好支撑企业上层数据应用。那么,在企业实践中,究竟应该如何做呢?   作为数据资产轮的支撑产品之一,火山引擎DataLeap在资产建设治理层面,能提升数据质量,实现效率提升和成本优化。本文将从电商角度出发,聚焦在数据血缘建设层面,具体介绍如何建设血缘底座、电商场景的血缘应用实践。

数据全链路血缘介绍

在电商场景中,我们建设数据全链路血缘的核心目的,是对数据从源头到终端全过程进行追踪和管理。 以零售行业举例,数据包括商品数据、物流信息、用户反馈等,其全流程包括:
  • 通过数据采集,如业务日志、埋点、表格、存储;
  • 经过ETL数据加工,包括离线和实时两种任务;
  • 再到数据服务中的物理表、逻辑表,以及服务编排;
  • 最后透传到数据应用,比如接口、页面、报表、指标等。
在业务发展过程中,我们常常会遇到如下问题: 首先,随着业务的快速发展,数据不断膨胀。数据量到大,但数据产生的实际价值在哪里?数据血缘则可以帮助我们更好评估数据价值,并在满足业务需求的同时,控制存储计算资源的膨胀速度。与此同时,数据血缘还能够衡量数仓建设的优劣,并且做好数仓体系化建设。 第二,如何做好数仓变更监控?在数仓的日常开发过程中,我们经常会遇到上下游变更,变更后希望能及时、准确地衡量数据变更的影响。由于数据来源变更丰富,需要通过数据血缘将数据变更及时通知下游关联方。 第三,数仓研发提效。我们希望通过数据血缘及时完成表重构,理清字段的来源以及加工口径,并且进行任务精准回溯。 最后,通过数据血缘助力指标体系化建设,保证指标一致性,避免重复开发。在指标体系化建设中,数据血缘可以帮助将新增的指标绑定到已有的指标上。

解决数据不断膨胀的问题

针对数据膨胀的问题,数据血缘可以明确数据流转路径,优化资源配置。血缘关系可以精确衡量数仓对业务的价值,实现数据治理,控制资源膨胀,并且能够精准地完成影响面评估。

帮助数仓开发提效

随着业务发展,我们经常面临模型重构的问题,比如一些旧表要切换到新表。数据血缘分析可以帮助我们快速定位模型重构的切入点,提升数据处理的效率。基于算子级的血缘关系,数据血缘可以实现任务的精准回溯优化,减少数据修复流程时间,减少错误传播。

保障数据一致性

在数据一致性方面,通过全链路血缘等手段,我们实现了指标从定义到生产消费的完整自动化流程,提升了指标的管理效率,减少了人为失误。通过血缘分析加解析能力,我们能识别出重复加工的字段,优化数据流程,从而减少不必要的资源消耗。  

如何构建数据血缘底座

血缘底座是全链路数据血缘的基石。接下来,我将从整体架构、质量评估体系和应用层血缘三个方面来介绍血缘底座的建设。

整体架构

整体架构-关系图谱   如上图所示,关系图谱中有一些关键特点,如点、边、节点存储和边存储等。
  • 点(Node):代表各种类型的节点,如指标、任务等
  • 边(Edge):表示节点之间的血缘关系,如数据流向、任务依赖等
  • 节点存储:每个节点类型对应一个或多个图中的点
  • 边存储:节点间的血缘关系通过边来表示,边包含方向和类型信息
一般数仓加工链路会进行分层,如ODS贴源层、DWD明细层、DWS汇总层等,最终透传到数据产品的前端页面。 如果用传统的离线数仓来实现以上架构,且有明确关系的表模型,是非常困难的。最终,我们选择了字节自研图数据库来实现血缘数据的底层存储。

血缘质量度量体系

血缘质量是整个全链路血缘从应用到实践的最核心评测标准。 举个例子,如果某个业务要基于字段级的血缘回溯下游,但是由于血缘质量不达标,预期要回溯10个任务,最终查出来11个或者9个,出现一定误差。 在电商场景中,我们搭建了一套完整的血缘质量度量体系,从血缘解析的准确率、成功率、覆盖率、查询能力等维度来度量血缘的数据质量,评估血缘质量的健康程度,并且定期自动化检验血缘数据与实际数据流向的一致性。我们通过定期巡检机制发现bad case,并随之更新、迭代对应的血缘模块。

应用层血缘

应用层调度链路   应用层数据采集方案   应用层血缘,与常规理解的数仓链路血缘不同。   对于数据链路血缘来说,我们针对异构数据源的SQL进行解析,在数据平台上维护了很多丰富的元数据,可以更好解析数仓之间的链路关系。但是对于应用层则不同,在电商场景中,我们维护了很多数据应用,如果逐一推进应用接入全链路血缘能力,成本很高。数据流转是从产品页面经过HTTP或者thrift接口请求后端服务,经过数据服务层打到数仓底表。   右图将该过程划分层级,通过低代码平台搭建前端页面、业务产品页面、数据产品页面,再通过接口的形式请求后端服务,最终映射到在one service上,形成对应的API,其底层就是刚才提到的数仓链路的血缘。   为了解决业务应用接入成本高的问题,我们实现了网关层自动参数上报,通过日志平台以及网关平台、服务平台间的合作,在前端请求接口时会自动上报URL refer参数,再通过日志采集系统把所有前端请求的日志采集下来,经过清洗,最终实现应用程序血缘的数据采集。   但在整个过程中,我们会遇到爬虫乱传参数、不传参数等问题,对血缘质量造成污染。为了解决该问题,我们通过脚本对域内的爬虫进行补全。通过自定义爬虫脚本,对全域的前端接口进行抓包,替换外部污染的数据。  

电商场景的血缘应用实践

接下来重点介绍一下血缘应用在电商场景的实践,包含新旧表切换、字段口径探查、指标自动化拆解三个部分。

新旧表切换

开发人员使用IDE修改一个方法时,会改方法名、方法的入参以及方法的出参,IDE则提供代码级的替换能力。 而对于数仓研发人员来说,没有类似的能力可以做切换的操作。一般在重构中,数仓研发人员拿到要切换的表,通过人工查询,获取切换旧表影响的任务,进而手动拉群,做切换表的通知,下游的接收人收到消息后,更改任务代码,并进行数据比对,如果发现有问题需要再与上游进行沟通,如果没有问题则上线代码。 基于一站式新旧表切换功能,上述人工操作可以由平台自动完成,大幅降低了切换的工作量,提高了工作效率和质量。 通过平台能力,数仓研发人员只需要在系统中录入旧表信息,以及新旧表的映射关系,就可以自动生成切换后的代码。在生成代码、跑数之后,平台还支持与旧表的历史数据进行比对。对比结果无误的情况下,下游无需做任何调整。除此之外,平台还提供了批量切换的能力,可以同时进行多张表的切换。 对于下游切换者来说,原本由于切换收益不大,导致操作意愿不强。但现在通过平台提供的切换收益量化的能力,如SLA和稳定性提升,提升下游切换意愿。 下面介绍技术实现。用户输入需要切换的旧表之后,平台通过旧表的产出任务进行解析,获取语法树文件,并基于语法树文件做裁剪、替换。基于用户输入的新旧表映射关系生成切换后的SQL,再提交到比对平台,最终完成整体比对。 在这一过程中,用户不希望原生代码遭到太多破坏,如注释被溶解,或对一些写法造成影响。针对这种情况,我们会在SQL解析前把注释的关键信息保留下来,拿到比对完成的SQL之后再做补全,最终把原始任务的SQL尽可能相似地提供出来。

字段口径探查

作为一名数仓研发人员或BI分析师,经常需要阅读其他人代码,如果代码复杂度高,对读码的专业性要求会比较高。为解决这个问题,平台提供可视化页面辅助转译。   如上图中的例子,将一段SQL转译成图的形式,可以更好帮助不写代码的角色更好理解这段SQL。   在大多数使用场景中,用户只想看到某个字段,或者某几个字段在任务中的加工逻辑。平台能力实现了在任务中裁剪出所需字段加工逻辑的能力,最终裁剪掉超90%的无关代码。原本需要从100行代码中提取出来某个字段的加工口径,现在借助平台能力,只需要阅读几行代码就可以完成需求。 此外,我们希望将整个数仓链路中分层维护的SQL进行溶解。   一个传统数仓链路有ODS层、DWD层、DWM层、APP层等等,每层都会维护一段SQL。用户需要梳理APP层的SQL里面的某个字段从ODS层哪里来的,过程比较复杂。 基于平台的能力,我们把4个任务的SQL先展开成一段大SQL,再进行内敛,最终变成从ODS层溯源到APP层的字段。平台内敛之后进行裁剪。代码的展开和收敛,是通过自研的一套语义解析引擎实现,该引擎已经申请了专利。 核心步骤如下:  
  • 第一步,对SQL算子进行优化,平台功能必须对算子级别SQL进行裁剪;
  • 第二步,语法糖溶解,一段SQL要不断内敛,基于血缘关系找到上游表,放到替换掉这个实际的物理表名称中,在这个过程中,就会涉及到很多语法糖的溶解,在传统离线数仓里命名很多临时表,平台会进行完整的语法糖溶解;
  • 第三步,基于此加上算子重写,获取关系代数,最终unparse成一段SQL返回给用户。

指标自动化拆解

左图是传统数据指标体系化建设架构,包含配置信息、原子指标、度量、时间周期、修饰词等。每个指标种类不一样,衍生指标来源于原子指标,复合指标来源于衍生指标。 指标体系化建设的核心目的就是保证指标的一致性,避免指标重复建设。 在电商场景中,我们早期推进指标体系化建设有一个核心的步骤——指标拆解,即把字段关联到录入好的配置信息里面。如果发现绑定已有的衍生指标,则避免了重复建设的工作。 在该过程中,通过进行用户调研,我们发现,在做拆解的过程中,用户有几个核心环节,如通过字段口径了解字段真实的来源链路,同时还要看字段整体的加工逻辑,再人工用该SQL做拆解工作。最后,用户在指标平台里面维护好元信息。应用层的指标开发完成之后,再去评审最终拆解结果的质量。 指标自动化拆解-技术实现   上图为指标自动化拆解-技术实现过程。 第一,工程能力。工程能力底层是字段口径探查的能力,将应用层的指标透传到明细数据层表,同时平台进行单指标粒度的裁剪,裁剪完成之后拿到字段应该绑定的DWD表,最终内敛到DWD表的极简SQL,过程中不需要人为查询代码完成逻辑梳理。 第二,底层数据能力。关键是必须维护好高质量的元数据。在电商场景中,我们维护了万级别的指标关系,在指标关系中再维护类似于业务过程度量的SQL逻辑,如where条件。 第三,大模型的能力。基于大模型能力,我们结合裁剪之后的SQL、待选SQL完成召回。裁剪之后的SQL,基于元数据及大模型能力,与规则方法论进行匹配,最终把标的元素判断出来。也就是说,研发人员只需要输入新开发的表,就可以知道该表是否存在重复开发的问题。 判断过程:根据拆解过程找到对应SQL,原子指标、修饰词、时间周期三个元素生成衍生指标,该衍生指标如果存在,就是存在重复开发,如果不存在,则可以在系统里绑定,供给数据应用使用。  

总结与展望

数据血缘底座是提升数据管理效率和数据质量的关键。我们希望能不断提升全链路数据血缘的能力,在上文提到的新旧表切换、数仓价值评估、指标拆解等场景中,更好结合大模型等能力优化功能和用户体验,为业务提供更多价值。以上就是本次分享的内容,谢谢大家。  

点击跳转火山引擎DataLeap了解详情

标签:数仓,链路,指标,飞轮,SQL,血缘,电商,数据
From: https://www.cnblogs.com/bytedata/p/18283829

相关文章

  • AI绘画·为电商图优化赋能AI虚拟模特电商图实战StableDiffusion电商图优化教程
    随着科技的不断发展,AI绘画技术逐渐在电商领域展现出其独特的优势。StableDiffusion作为一种先进的AI绘画技术,为电商图优化提供了强有力的支持。本教程将详细介绍如何利用StableDiffusion技术实现AI虚拟模特电商图的优化。StableDiffusion技术概述StableDiffusion是一种基......
  • 第三方支付平台如何完美契合跨境电商?
    在全球化的大潮中,跨境电商"EurasiaBoutique"的创始人艾米丽,带着她的梦想和手工艺品,踏上了进入中国市场的征程。这是一个充满挑战和机遇的旅程,艾米丽和她的企业需要面对和解决一系列复杂的问题。合规的门槛艾米丽在欧洲小镇上的成功,并没有让她对中国市场有过多的了解。当她准......
  • 全链路性能测试:Nginx 负载均衡的性能分析和调优
    为什么性能测试很多同学觉得是一个比较难以自学上岸的测试领域,是因为真正做全链路的性能测试是比较难的。所谓的全链路就是在项目的整个链路上任何一环节都有可能存在性能测试瓶颈,我们都需要能够通过分析性能的监控指标找到对应的问题。我们今天要讲的Nginx负载均衡就是属于......
  • 阿里巴巴中国站拍立淘API返回值分析:图像识别技术助力电商用户体验升级
    阿里巴巴中国站拍立淘API的返回值分析,以及图像识别技术如何助力电商用户体验升级,可以从以下几个方面进行详细阐述:一、拍立淘API返回值分析拍立淘API是阿里巴巴中国站提供的一项基于图片搜索的商品搜索服务,它允许用户通过上传商品图片,系统自动识别图片中的商品信息,并返回与之......
  • 义乌到印尼雅加达,电商卖家物流攻略!广东智慧物流
    义乌到印尼雅加达,电商卖家物流攻略!广东智慧物流作为电商卖家,发货到印尼雅加达需要一个可靠的物流合作伙伴。选择让您的货物安全、快速地到达客户手中的攻略!......
  • 电商案例1-京东搜索商品列表采集||电商大数据之京东关键词采集接口
    采集场景在京东搜索页https://search.jd.com/Search 输入搜索,搜出后得到的多个商品列表数据。采集字段商品名称、价格、评论数、店铺名称、店铺链接等字段。接口采集京东按关键字搜索商品API返回值说明item_search-按关键字搜索商品 jd.item_search公共参数......
  • 从美图类场景,看火山引擎数据飞轮如何赋能产品增长
    伴随移动移动互联网发展以及手机拍摄能力提升,美图类APP已成为人们手机中常见的应用之一。根据广发证券发展研究中心《数字媒体行业AI系列报告:美图类APP,商业模式逐渐清晰,AIGC加速付费心智培养》显示,从行业整体流量来看,拍摄美化行业的MAU在2019年中达到峰值,2020年起随着互联网行业......
  • 03 | 大规模数据处理初体验:怎样实现大型电商热销榜?
    今天要与你分享的主题是“怎样实现大型电商热销榜”。在Google面试过很多优秀的候选人,应对普通的编程问题coding能力很强,算法数据结构也应用得不错。可是当我追问数据规模变大时该怎么设计系统,他们却说不出所以然来。这说明他们缺乏必备的规模增长的技术思维(mindsetofs......
  • 解决接入sleuth链路追踪后xxl-job定时任务的日志无日志问题
    问题背景随着业务规模的不断的增大,系统的复杂度也越来越高,公司软件架构也进入到了分布式微服务的阶段,在这样的情况下每一次请求都有可能跨越多个项目,传统的日志监控方式无法满足调用链路追踪,这就导致问题定位/诊断服务变得复杂。所以我们引入了sleuth这一链路追踪框架为......
  • 基于SpringBoot+大数据+协同过滤推荐算法的电商商品推荐系统设计和实现(源码+LW+部署
    博主介绍:✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、P......