12 月 15 日,以“NoETL 重构数据生产力”为主题的 Aloudata 战略与产品发布会成功召开。会上,我们首次完整地阐释了 Aloudata 首倡的 NoETL 数据架构理念,还发布了 Aloudata AIR、Aloudata BIG、Aloudata CAN 三款划时代的数据管理产品,引起热烈反响。
本篇内容整理了 Aloudata CEO 周卫林的主题演讲,旨在清晰阐述 NoETL 数据架构设计与价值。Aloudata「NoETL 驱动数据工程范式变革」白皮书也已正式发布,文末即可下载查阅。
各位老师、专家以及线上的新老朋友们,大家好!非常荣幸也很高兴,能有机会在这次线上战略与产品发布会上与大家相聚。我是周卫林,Aloudata 的创始人兼 CEO。
每一次技术创新和突破都源自于需求的变化
首先,让我们从企业数字化的需求变化出发,来探讨我们的思考和方案。企业中存在两类显著的数字化需求:一类是数字化管理,另一类是数智化运营。这两种需求具有截然不同的特性。
其中最大的区别在于,数字化管理需求面向管理层和较小的受众群体,且通常是基于固定的需求模板,因此它较为固化,类似于射击固定靶。相比之下,数智化运营需求则更为灵活,需要快速响应业务运营的日常变化,就像是射击移动靶。数智化运营这种需求在具体的分析场景中才能清晰地确定分析的目标(度量)和视角(维度),事前很难枚举,它的分析需求是在业务运营过程中动态产生的。
这两类需求的差异导致了我们在设计 ETL 工程架构时面临不同的挑战。随着数字商业的发展,企业必将从数字化管理逐步过渡到数智化运营。而这一进程面临的主要挑战源自三个方面的爆炸性增长:数据分析需求、数据分析人群,以及数据源。这是大家共同面临的挑战。
我们将这种挑战背后的技术问题称为“ETL 鸿沟”。那么,ETL 的鸿沟是什么呢?简单来说,从业务角度看,每个需求和每次查询背后都需要有高性能数据集支持。为此,需要创建大量的宽表、汇总表和接口表。每个表背后都有一个复杂的 ETL 管道(Pipeline),每个 ETL 管道背后都是一系列的 ETL 任务(Task)。这些 Table、Cube、Pipeline 和 Task 共同构成了一个复杂的数据构建、查询和管理的网络。
在这样复杂的网络背后,想要实现清晰的管理、有效的控制和优化,需要全面、精细、准确的元数据服务,而传统模式上靠人工维护的静态元数据是做不到的。数据目录的缺失意味着数据管理的失败,因为企业的数据资产是承载在数十台、数百台甚至数万台服务器上,是定义在数千个、数万个甚至数十万个 ETL 代码里,如果没有准确的数据目录,这些宝贵的数据资产就会丢失在这些服务器上、这些代码里,而无法被业务可信赖地广泛使用和产生价值。
总结一下,企业花费大量的资金和精力投资在数智化上,但在两个方面存在显著的缺陷:
- 业务满意度难以提升;
- 计算有效性急剧下降。
数智化运营的需求通常要求我们把交付效率从月、周提升到日、小时甚至分钟级别,传统 ETL 架构为了满足需求的灵活性和交付的及时性,会疲于奔命建设大量宽表,陷入无休止的任务运维和数据质量陷阱里。这也引发了数智化建设投入的经济性问题,企业内部的大量宽表,背后意味着消耗了大量的计算、查询和存储成本,和大量的人力和运维成本。
但实际上,这些资源与成本投入的使用效率却非常低,我们有相关数据统计显示,企业内部每天更新的数据中,只有 5% 是当天使用的,只有 30% 是当月使用的。这意味着,随着企业数智化运营需求比例的大幅提升,传统数据仓库的计算效率和经济性逐渐丧失。
数据工程变革迫在眉睫 NoETL 实现数据生产力百倍提升
基于前面的分析,我们可以得出一个明显的结论:在数据需求指数级增长的情况下,依赖传统的由 ETL 工程师驱动的模式是不可持续的。
这主要体现在两个方面:首先,数据需求百倍增长,但社会上和企业内部的 ETL 工程师数量不可能同比例增长;其次,企业数据网络的复杂性也在百倍增长,且没有上限,但工程师的能力是有上限的。在数字经济时代,数据平台或数据仓库已经成为了企业的新“器官”,这些“器官”会随着使用年限的增长和需求的增加而变得越来越复杂。
随着平台复杂度的增加,从几千张表到几万张表,再到几十万张表,工程师的能力是有限的,无法跟上这种需求复杂度的增长速度。因此,这两个方面的限制导致了传统 ETL 工程模式的致命问题。
面对数据需求百倍增长的挑战,数据生产力能否实现百倍的提升?我们认为,ETL 工程的变革迫在眉睫,这需要一种全新的思维、全新的架构和全新的技术。有一个非常显而易见的思路:既然传统的 ETL 工程本身存在问题,是否存在一种新的工程范式,即“无 ETL”的架构和实践?我们将这种思维模式和理念称为 NoETL。
NoETL 理念的核心在于转变数据生产的驱动力。传统 ETL 背后的生产力是由 ETL 工程师驱动的,而 NoETL 背后的生产力则基于 ETL 智能体(ETL Agent)。
我们认为,ETL 智能体没有数量上限和能力上限,因为他们背后是基于 ETL 专家的知识和技能,只是以在线化和自动化的形式呈现。相当于为每个企业提供一批 7 x 24 小时持续在线的 ETL 专家,以实现 ETL 任务的“自动驾驶”。通过这种模式,我们设想未来能够实现 ETL 工程的高度自动化,从而提高效率并降低成本。我们认为这种效率提升和成本降低将通过业务自助和数据自治来体现。
NoETL 理念下的解决方案创新
如果把企业的数据源比喻为电商平台的各类商家,数据源里的数据就是商品,而数据需求方和应用场景则类似于消费者。
我们的第一个创新是一个新的数据集成方案,类似于电商的商品目录,它允许企业内的所有数据通过这种集成方案成为一个虚拟的数据资产库,类似于淘宝商家发布商品形成商品库,我们称之为数据虚拟化引擎。
第二个创新是一种全新的数据交互界面。在电商世界中,这种全新的交互界面就是面向消费者的购物车。在数据世界中,这种面向数据消费者的全新交互界面就是数据集和指标。这种创新使得企业创建和分享数据集和指标就像消费者在购物车中添加商品一样。当数据消费者对数据集或指标进行查询时,会触发数据集或指标的执行,相当于消费者在购物车里点“下单”,不仅完成商品的购买,也触发商品的物流配送。我们把这个全新的数据交互界面称之为数据语义引擎。
第三个创新是全新的数据管理模式。传统的数据管理模式依赖于 ETL 工程师的被动日常管理,而新的数据管理模式突出两个特点:一是追求 100% 的元数据保鲜,通过实时采集企业数据运行环境里的元数据信息,比如代码、任务日志等,进行精细的元数据分析,能够准确全面地洞察整个复杂数据网络的结构;二是化被动为主动,我们认为只有通过主动性,才能在复杂的数据世界中掌握治理的主动权。这种能力我们称之为主动元数据引擎。在后续的产品介绍中,我们将详细阐述这些技术的具体实现。
NoETL 从技术创新向业务价值的转化
拥有这三项技术后,能带来 ETL 工作自动化水平的显著提高,将需求响应效率从过去的月、周级别提升到日、小时和分钟级别。这样一来,就能满足业务部门在数字化时代对 IT 的主要诉求:与业务节奏保持同步,并迅速适应业务创新的需求。例如,我们希望各种运营活动和业务分析能够在小时内完成,实现快速响应而不是延长至数周或数月。
同时,通过数据虚拟化技术实现动态数据集成、自动数据链路编排和智能按需物化,我们可以节约超过 50% 的数据存算和运维成本。这样不仅提升了面向数智化运营场景下的计算效率,还确保每个业务需求背后的创新想法不会因 IT 成本限制而无法实现。
各位老师、专家和朋友们,我刚才全面地分享了我们对数据工程和数据管理的思考,以及我们对 NoETL 理念的设计与定义。这些都是我们公司自创立以来始终坚持的初心和理念。在过去的两年半里,我们与我们的灯塔客户一起,不断打磨和验证了我们的技术和产品。现在,我们认为是时候将我们的成果呈现给大家,并向市场公开推广。
我们的产品命名为 ABC 系列。首先,Aloudata AIR 是国内首个 Data Fabric 逻辑数据平台;其次,Aloudata BIG 作为全球首个实现算子级血缘解析的主动元数据平台,代表了主动元数据管理的新时代;最后,Aloudata CAN 是一个自动化指标平台,它实现了指标的“管研用一体化”,实现定义即生产、定义即服务、定义即管理的效果,对业务数智化的支持至关重要。
最后,我想重申我们公司的初心和使命:作为一家以“NoETL 重塑数据生产力”为信念的公司,我们的使命是让数据随时就绪,随需而用。感谢大家聆听我的分享。
标签:需求,数智化,CEO,Aloudata,周卫林,NoETL,数据,ETL From: https://blog.51cto.com/u_15879876/9028350