首页 > 其他分享 >不懂“数据服务”,聊什么“数据中台”

不懂“数据服务”,聊什么“数据中台”

时间:2022-11-24 15:39:01浏览次数:34  
标签:数据服务 存储 应用 什么 接口 数据量 数据

阿里推出“数据中台”时,点明其两个核心概念,一个是One Data,一个是One Service。

阿里One data 数据中台建设过程

很多人都只注意到了One Data,元数据中心、指标字典、数据模型设计等等都属于One Data理念下数据中台架构的重要部分。

但其实One Service——数据服务也是数据中台的核心,目前市面上的数据中台没有好用的产品很大的原因就是数据服务没做好。

数据服务平台架构

反而国内外专门做数据服务的产品好评不断,今天展开介绍数据服务是如何提高企业数据开发效、降低数据开发成本、让企业快速挖掘数据价值的。

01

屏蔽中间存储,提高数据开发效率

数据平台加工好的数据,通常会以Hive表的形式存储在HDFS 上。

如果想直接通过数据报表或者数据产品前端展现,为了保证查询的速度,会把数据导出到一个中间存储上:

数据量少的可以用MySQL , Oracle 等数据库,具有部署维护方便、数据量小、查询性能强等优势。例如,数据量小于500W条记录,建议使用数据库作为中间存储; 涉及大数据量、多维度查询的可以用GreenPlum,它在海量数据的在线分析处理场景中有优异的性能表现。例如,数据量超过 500W 记录,要进行多个条件的过滤查询; 涉及大数据量的单Key查询,可以用HBase。在大数据量下,HBase拥有不错的读写性能。例如,超过500W记录,根据Key查询Value的场景。 由于不同的中间存储,涉及的访问API也不一样,因此对数据应用开发,每个数据应用都要根据不同的中间存储,开发对应的代码。

如果涉及多个中间存储,还需要开发多套代码,数据接入效率很低。

以数据API作为数据服务的主要方式

此时,数据服务为数据开发屏蔽了不同的中间存储,通过使用统一的API接口访问数据,可以大幅度提高数据应用的研发效率。

02

完成数据接口复用,降低数据开发成本

如下图所示,当我们开发“数据应用-经营分析”时,数据开发会基于a表加工c表,然后数据应用开发会把a和b的数据导出到“数据应用-经营分析的数据库db1”中,然后开发经营分析的服务端代码,通过接口1对web提供服务。

当我们又接到任务开发“数据应用-毛利分析”时,我们同样需要用到b表的数据,虽然b的数据已经存在于db1中,但db1是“数据应用-经营分析”的数据库,无法共享给“数据应用-毛利分析”。

同时,经营分析的服务端接口也无法直接给毛利分析用,因为接口归属在经营分析应用中,已经根据应用需求高度定制化。

以上,我们看到这样的现象:即使数据重复,不同数据应用之间,在中间存储和服务端接口上,也是无法复用的。

这种烟囱式的开发模式,导致了数据应用的研发效率非常低。

此时,数据服务使得暴露的不再是数据,而是接口,接口不再归属于某个数据应用,而是在统一的数据服务上。

这就使接口可以在不同的数据应用之间共享,同时因为数据服务具备限流的功能,使接口背后的数据共享成为可能,解决了不同应用共享数据相互影响的问题。

03

建立从数据到应用全链路血缘

传统的数据项目中,由于数据平台通过导出/导入或数据复制的方式为数据应用提供数据,数据一旦进入到下游系统中,数据平台就无法监控其使用情况了。

即使用了元数据中心,也无法实现数据全链路血缘分析。

想象一个真实的场景:某技术人员突然接到了一堆电话报警:有大量的任务出现异常。经过紧张的定位后,他确认问题来源于业务系统的源数据库:因为一次数据库的表结构变更,导致数据中台的原始数据清洗出现异常,从而影响了下游的多个任务。

这时,摆在他面前的是一堆需要恢复重跑的任务。可是队列资源有限,到底先恢复哪一个呢?哪个任务最终会影响到老板第二天要看的报表?

虽然数据血缘建立了表与表之间的链路关系,但是在表的末端,我们却不知道这个表被哪些应用访问,所以应用到表的链路关系是割裂的。

当某个任务异常时,我们无法快速判断出这个任务影响了哪些数据应用,也无法根据影响范围决定恢复的优先级,最终可能导致重要的报表没有恢复,不重要的报表却被优先恢复了。

麦聪软件,全球领先的DaaS厂商,轻量级数据中台领导者。 目前,麦聪DaaS平台在世界500强集团中已有30多家选用,两年内帮助超400家加速企业数字化转型。麦聪DaaS平台核心功能包含,统一数据管理和统一数据服务两大模块,具备数据集成、数据开发、数据质量、数据服务相关功能,欢迎大家带着企业数字化问题与我们一起讨论。

API调用分析

此时,数据服务打通了数据和应用的访问链路,建立了从数据应用到数据中台数据的全链路数据血缘关系,这就相当于我们在迷宫中拿到了一个地图,当任何一个任务出现问题,我们都可以顺着地图,找到这个故障影响了哪些应用,从而针对重要应用加速恢复速度。

标签:数据服务,存储,应用,什么,接口,数据量,数据
From: https://blog.51cto.com/u_12208051/5884015

相关文章

  • 元宇宙虚拟现实教育的实际价值是什么
    在元宇宙虚拟现实技术的发展过程中,应用最多的领域莫过于教育行业,将实践教学与元宇宙虚拟现实技术深度结合,这种新的授课方式让学生可以随时随地轻松有效地沉浸式互动学习,元......
  • 数据可视化大屏开发公司哪家做的好?
    在人类科技快速发展的今天,各行各业对于数据的重视程度越来越高,从大量数据中分析预测,可以挖掘出很多有用的信息。如何让庞大而且枯燥的数据易于理解和更加直观地展现?毫无疑......
  • MySQL数据库管理
    一、MySQL数据库管理1、库和表行(记录):用来描述一个对象的信息列(字段):用来描述对象的一个属性2、常用的数据类型int:整型float:单精度浮点4字节32位double:双精度浮点......
  • 数据工程师被当作取数的怎么办?
    首先:我们需要明确提取数据是数据工作的一个基础内容,也是大多数“入门”级别数据工作人员(例如数据分析师、ETL)的基本职责,对于前期了解公司业务和数据是必不可少的。但是如果......
  • 数据开发工程师门槛高在哪里?
    今年网上对于秋招的形容越来越恐怖,从“怎么这么难”到“哀鸿遍野”,再到“灰飞烟灭”,但有一个岗位却显的格外亮眼,就是数据开发工程师。数据开发最近几年的年新增需求都在10......
  • 加强元数据管理对企业来说有哪些价值?
    1、更好的数据质量:有了自动化,数据质量得到了系统的保证,数据管道被无缝地治理和操作,使所有涉众受益。实时识别集成数据源或目标内的数据问题和不一致性,通过增加洞察或修复的......
  • EFCore DBFirst从数据库生成实体类
    目录EFCoreDBFirst从数据库生成实体类官网安装指定NuGet包生成实体类EFCoreDBFirst从数据库生成实体类本示例仅适用于mysql版本,其他版本请根据官网说明进行操作。官网......
  • 什么是Socket?
    网络应用程序员最熟悉的就是Socket,现在抛开计算机网络理论,从应用层的角度来理解到底什么是Socket。1)Socket是什么;数据包经由应用程序产生,进入到协议栈中进行各种报文头的包......
  • 华为云GaussDB打造金融行业坚实数据底座,共创数字金融新未来
    近期,由北京金融信息化研究所主办的首届中国金融业数据库技术大会在京顺利举行,大会邀请了金融主管单位领导、金融机构高层、以及数据库企业代表和众多数据库领域专家,共同畅谈......
  • offset新探索:双管齐下,加速大数据量查询
    offset新探索:双管齐下,加速大数据量查询​众所周知,在各类业务中时常会用到LIMITyoffsetx来做跳过x条数据读取Y条数据的操作。例如:SELECT*FROM...LIMIT1000OFFSET10......