Data Fabric(数据编织),作为新一代的数据管理策略,其核心在于通过逻辑层面的数据整合与加工,打破物理集中的局限,实现数据的无缝共享与高效利用。以往,我们更多地从理论层面探讨数据编织的技术与数据编织产品的设计理念。今天,我们将深入具体场景,剖析数据编织如何有效解决企业在实际业务中遭遇的挑战。
场景一:如何低代价打破混合多云、多湖仓、跨组织的数据孤岛?
对于拥有多个子分公司、多湖仓并存的大型企业而言,数据共享是一个棘手的问题。例如,企业中的各子分公司都可能拥有自己独立且完整的数据仓库以及数据处理团队,当集团试图整合所有数据时,若采用传统数仓方案,要将全域数据物理复制到集团共享数据平台进行存储,其中的各项挑战让人望而却步:
- 数据权责难以转移
数据同步会导致权责转移。在很多情况下,出于合规限制、数据安全及组织原因,数据出域流程涉及沟通讨论环节多,导致子分公司的数据无法出域或者出域很麻烦,这让跨组织的数据集中无法实现; - 海量数据同步与拷贝产生巨量成本
对于子分机构已独立建设了数据中台的大型集团型企业,在集团层面再统一建设一套“超级中台”,物理集中子分公司的全部数据意味着极其高昂的成本,投资收益很难论证; - 数据同步会引发时效问题和数据质量问题
比如数据按天产出,下游同步后产出周期可能从 T + 1 变为 T + 2。大量数据同步也存在着一定的同步失败概率,同步失败会进一步导致数据时效降低和数据质量下降; - 数据安全与权限管理面临挑战
当子公司的核心数据同步至集团后,集团人员可能难以准确判断数据的开放范围与对象,导致安全管理边界和职责范围模糊不清。
逻辑数据编织实现低成本、高效率的跨湖仓数据共享
逻辑整合全域数据,快速实现数据查询
Aloudata AIR 逻辑数据编织平台不再通过物理同步的方式进行数据集成,而是采用数据编织的方式,快速连接多源异构数据进行逻辑集成。无需像传统方式那样等待数据同步成功,源端数据立即可用。通过逻辑视图的方法,用户能高效地从海量源端数据中加工出真正需要的资产,加快数据探查与集成流程。逻辑集成极大降低了数据同步和物理集中的成本,避免了数据同步导致的时效性和数据质量问题。
海量数据的查询性能保障
在数据查询方面,Aloudata AIR 采用多项关键技术保障性能。
- 灵活的查询下推技术,支持根据查询场景需求做灵活的下推策略,可以实现对源端的全下推、部分下推或者不下推策略配置,通过不同的查询下推策略将过滤、聚合、关联等算子(甚至是整个SQL)下推到数据源端执行,充分复用源端湖仓的基础设施算力,并且极大减少了大量数据的网络传输;
- 对查询透明的数据加速技术:通过 RP(关系投影)技术对核心的 VDS(逻辑视图)或者公共算子抽取实现数据加速。在查询过程中,数据虚拟化引擎接收用户输入的统一 SQL 语法,经过 Parser 过程提取逻辑算子,自动匹配可命中的 RP,并对查询进行改写。在面对亿级甚至百亿级数据量的时候,也能够支持跨数据仓库进行高效、快速的分析和访问。
多租户隔离与统一数据安全管控
Aloudata AIR 支持多租户隔离。跨租户数据共享时,数据提供方在自己的租户中创建账号并分配权限,其他租户根据租户权限访问指定的资产,既保留了数据拥有方对数据进行管理、监控的权利,又完美地解决了传统物理搬运数据带来的数据安全问题。
场景二:如何保障跨境数据的安全合规查询?
大部分跨国企业面临着跨云和跨境的数据共享难题。不同国家和地区对数据安全管控有着不同的政策,例如欧洲的 GDPR 数据管控策略和国内的个人信息保护法都会严格限定敏感数据不能出境或者出域。企业在进行跨域分析时,由于数据不能随意拷贝,跨源关联计算存在各类安全合规风险,导致跨域分析难以实现,进一步限制了企业对全球数据资源的利用。这导致企业只能在本地完成数据查询后通过线下手工汇总结果,效率低下且易出错。
同时,海外数据还面临着网络带宽的问题,将数据全部拉回成本极高。对于那些拥有多个子分公司的企业,子公司服务器机房分布在不同地点、不同网段,同时企业内部数据可能分布在云上和自有机房,数据集成难度较大。
逻辑数据编织方案实现合规跨境数据查询
在跨境的数据安全合规场景中,Aloudata AIR 主要通过以下策略来确保数据不出境的同时满足业务分析需求。
- 第一,提供敏感字段拦截能力。假设存在一张用户表,包含姓名、年龄和资产三个字段。如果年龄和资产为敏感数据,且不允许其出境,就可以在源表对其进行打标,并配置对应的安全管控策略,例如确定其是可用不可见还是完全不可用。例如使用 SQL 查询,“当年龄大于 35 的数据”,查询会根据拦截策略自动过滤掉敏感数据,数据不可见,但查询仍可进行,也可以进行统计操作;例如“统计年龄大于 30 的人数”,如果策略允许基于敏感字段进行数据统计,那么数据仍能被统计出来,但明细数据不能查询;如果策略设定为不允许敏感数据进行统计或查询,那么整个查询就会自动拦截。
- 第二,非敏感字段跨源聚合计算。例如假设有场景对 DomainA、DomainB 、DomainC 三张不同域的表,进行关联聚合计算。如果源端表中的字段,如员工 ID、产品 ID 进行了敏感数据打标。当 SQL 语句下发后,会根据敏感策略自动生成相应安全管控的 SQL,最终实现查询结果的返回。这意味着即使设置了敏感字段,仍然可以在非敏感字段的跨域计算中使用它们,但如果要查询 Product ID 这个明细数据,则无法查到。
- 第三,敏感字段的关联计算。有些敏感字段可以作为维度字段参与聚合计算。例如可以基于敏感字段进行 Group by 操作,但如果 Group by 的明细中出现了这个敏感字段,又会被拦截掉。当然,敏感字段的度量也可以基于策略参与聚合计算,但理论上存在一定的泄露风险。所以这个策略取决于具体企业的安全管控需要,可以拦截也可以不拦截。
场景三:如何摆脱数据中台持续高投入、低产出的黑洞,获取更高 ROI?
传统数据中台以数据的物理集中为前提,随着时间的推移,数据同步、物理建模、数据开发、资产管理与数据治理导致越来越重的人力负担与成本投资。
数据集成通常涉及复杂的数据传输和存储过程,需要大量的计算资源和网络带宽和人工配置同步作业。而且,一旦同步任务出现问题,就需要重新建立同步任务,这不仅浪费了之前投入的时间和资源,还可能导致数据不一致与不完整,影响业务决策的准确性。
在研发方式上,传统数据中台的研发方式是面向物理表的数据加工方式。随着作业的增多,作业调度变得越来越复杂,表面上看,数据开发只是编写 SQL 代码层面的操作,但因其操作对象是物理数据,ETL 工程师还要熟悉不同引擎的特性,配置作业的调度和监控执行过程,系统调优、作业监控与基线运维等工作量占比越来越高,直接导致数据交付效率的下降。同时,由于这种面向大量底层不同物理组件的数据处理方式,导致数据处理门槛变得极高。
在物理建模时,为避免成本失控,需要充分考虑模型的复用性和扩展性。然而,这又与追求交付效率产生了矛盾。为了快速满足业务需求,可能需要牺牲模型的复用性,一次性资产的不断增加又会导致事后的数据治理困难重重。这种矛盾使得企业在数据中台建设过程中难以平衡交付效率、数据质量与存算成本。
在数据查询和消费性能方面,随着数据量的不断增长,企业可能会考虑引入新的引擎或技术来提升数据查询的性能,但这又会带来数据体系复杂度的增加。新引擎的集成和管理需要专业的技术知识和经验,这极大地增加了整套系统的维护成本和风险。
而且,一旦企业选定了特定的数据中台、引擎与数据集成方式,日后若想切换到更好的平台或引擎,由于作业编写基于特定引擎,技术更新迭代的成本极高。
逻辑数仓实现极致性价比的敏捷数据交付
逻辑集成与秒级数据探查
在数据集成方面,数据源接入 Aloudata AIR 逻辑数据编织平台后会自动形成 PDS 层。与传统物理集成方式相比,数据源接入后,其内部所有表即可在平台中立即使用,无需像过去那样等待数据同步成功。通过逻辑化的方法,可以极大地加快数据探查与集成过程,提升业务或者 ETL 人员处理数据的效率。
一套 SQL 实现集成、加工与查询
Aloudata AIR 提供了统一的抽象层,使得使用者在面对数据集成、加工和消费查询时,语法与引擎都是统一的。只需一种 SQL 即可实现多源异构数据的集成、加工与查询操作,极大地降低了使用难度和成本。
作业自动编排,统一流批转换
为实现高效的数据处理,Aloudata AIR 采用 RP(关系投影)技术。创建 RP 时,可根据需求勾选时效性(跑批或实时),底层作业的生成与翻译由虚拟化引擎代持完成,NoETL 自动实现统一流批处理。这不仅节省了人力成本,还提高了任务执行的准确性和及时性。
自适应查询加速
在查询加速方面,数据虚拟化引擎接收用户输入的统一 SQL 语法后会经过 Parser 过程,提取出真正的逻辑算子。然后自动在 RP 库中匹配可命中的 RP。例如,在一个复杂的 SQL 语句中,从代码片段中找出特定表的 Join 条件与字段,如果在 RP 中能找到匹配,就会进行查询改写,从而极大降低 SQL 查询响应时间。
与传统 BI 工具的完整查询结果缓存不同,RP 的查询改写机制范围更广。RP 改写基于 Query SQL 的逻辑算子来进行改写,通过改写、执行计划优化,最终基于 CBO 和 RBO 机制对查询优化,从而构建出最佳的查询方案。确定命中方案后,虚拟化引擎进行路由选择,确定将查询分配给哪个引擎执行更合理、更快速。在执行过程中,根据不同场景采用不同的查询下推策略来进一步优化查询性能。
智能 RP 回收
Aloudata AIR 可以根据访问热度和管理员预先配置的既定策略,对热度不足的 RP 进行资源回收。同时,智能 RP 回收不会影响用户原有的数据处理逻辑和资产,确保了用户侧加工好数据的完整性和可用性。在数据处理过程中,随着业务需求的变化和数据访问模式的调整,系统能够自动优化资源分配,降低成本。
回顾三个场景:Aloudata AIR 逻辑数据编织平台的价值总结
其一,企业多湖仓数据共享场景。当企业拥有多套数据中台/湖仓时,关键在于如何实现这些数据的融合共享,而非必须将数据物理集中在一起才能进行跨湖仓的数据查询。在此场景下,通过 Aloudata AIR 逻辑数据编织平台,无需物理集中,即可实现高效、安全且可控的数据共享。这样的方式避免了传统数据集中可能带来的高昂成本,也一举解决了数据权责不清、时效性降低、安全风险增加等一系列业务取数用数过程中面临问题。
其二,跨国或跨域的安全合规类数据融合场景。企业可能拥有多个国家和地区的业务数据,跨境场景下的数据访问与移动会面临一定的法律约束。或者企业内部不同子公司之间,有些数据比较敏感,不希望被他人随意使用,但又希望这些数据能够为业务发挥价值。 Aloudata AIR 能够在确保数据安全合规的前提下,实现企业内部跨域的数据融合和共享。通过配置相应的安全管控策略,可以实现对敏感数据进行自动化的拦截和内部脱敏计算,确保敏感数据不出域的同时,又能很好的满足业务的查询和分析需求。
其三,针对企业规划建设数据仓库的场景。Aloudata AIR 逻辑数据编织平台提供了一种 NoETL 的逻辑数仓思路。相比传统数仓建设,逻辑数仓以更低的建设成本和使用成本与快速的交付周期实现 ROI 的显著提升。无论是对人员的专业性要求,还是管理维护的难度以及存储成本等方面,都比传统数仓至少降低一个量级。对于那些没有数仓但又有数据管理和分析需求的企业来说,逻辑数据编织平台提供了一种高效、便捷且经济的解决方案,使企业能够在较短的时间内建立起自己的逻辑数仓,满足业务发展的需求。
综上,Aloudata AIR 逻辑数据编织平台具有重要的价值。首先,它具有及时性,能够非常快速、实时地拿到原始数据,满足企业对数据时效性的要求。其次,它能做到准确性,不存在物理复制数据导致不一致的问题,确保数据的可靠性和一致性。第三,它具有全面性。物理集中数据往往很难做到全面,而逻辑集中由于成本低,可以很轻松地连接企业全域的数据。通过这种及时、准确、全面的能力特性,企业可以轻松实现全域的敏捷用数。
Q&A
1.逻辑数据编织平台如何保障查询性能?
通过自适应的查询加速能力以及灵活可配置的查询下推技术,实现了在大规模逻辑数据编织的情况下,仍然可以很好的保障业务所有场景对数据查询性能的要求。
2.Aloudata AIR 和 Presto 有什么区别?
从产品定位上来看:Aloudata AIR 不是支持跨源查询的 OLAP 引擎,而是一个纯粹的数据虚拟化引擎,数据虚拟化引擎通过统一数据处理语言、数据加速、查询下推和执行优化等技术,对上层用户提供了一套基于逻辑数据模型进行数据加工处理的能力。通过数据虚拟化层,用户可以摆脱传统面向底层物理引擎来处理数据方式;另外一方面,虚拟化引擎可以将逻辑数据模型的加工和查询代码转义成底层具体物理引擎的执行代码,通过在虚拟化引擎接入相应的跨源查询引擎、跑批引擎和 OLAP 引擎,从而实现数据的处理和即时查询,通过逻辑和物理层的解耦的技术,可以实现在用户代码不改变的情况下,进行物理引擎的替换和升级。而 Presto 是一个支持跨源查询的 OLAP 引擎;
3.逻辑数据编织平台的价值如何量化?
- 数据交付效率 10 倍提升
数据交付涉及复杂的 ETL 工作,主要分成 5 个部分:业务需求理解、业务数据建模、物理数据建模、ETL 代码开发、ETL 任务运维,其中前面 4 个部分是一次性投入,最后 ETL 任务运维这个部分是长期投入,通常能够占到所有成本的 40%~70% 以上。
Aloudata AIR 逻辑数据编织平台本身并不改变业务需求,但会屏蔽企业内各种数据源、计算引擎和存储引擎的差异性,通过一套 SQL 实现数据的集成、加工与查询。并通过自适应关系投影技术实现自动化的作业编排和统一流批转换,大幅降低 ETL 链路优化和运维的成本。
因此 Aloudata AIR 在上述 5 个 ETL 工作环节中,物理数据建模、ETL 代码开发和 ETL 任务运维这三个环节会有极大的效率提升,尤其是 ETL 任务运维从人工运维变成自动化运维,结合真实案例效果,整体带来 10 倍数据交付效率提升。
- 存算成本至少节省 30%
基于数据物理集中的数据平台由于每一个 ETL 步骤都会搬运和拷贝数据,是一个“先生产后消费”、“生产跟不上消费”的模式。比如在数据仓库分层设计的时候,在每一层都会保留数据,在面向不同场景的时候会提供不同的宽表、汇总表。一个 5 年以上的数据平台内部当天生产的数据在未来 30 天内被消费的比率通常不到 50%,天然存在大量的数据计算和存储浪费的问题。
Aloudata AIR 逻辑数据编织平台默认不会搬运和拷贝数据,系统是依据不同场景的查询性能要求,提供人工或自动构建关系投影的方式进行最小化的数据计算和存储,是一个“以消定产”、“无消费不生产”的模式,会极大地减少不必要的“无用计算”和“冗余计算”,通常会有至少 30% 的存算成本节省。