首页 > 其他分享 >从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史

从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史

时间:2024-09-15 17:57:05浏览次数:10  
标签:Data 数据仓库 中台 飞轮 工具 数据

1.自我介绍

我是 Java 开发工程师,最初的项目是数据治理相关的内容,主要使用的是 ETL 工具 KETTLE 现在这个工具已经改名为 Pentaho,具体的工作内容如下:

从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史_Data

  • 数据的抽取(从不同的数据库、ftp)获取数据
  • 转换(数据合并、统计)
  • 生成宽表(用于支撑 BI 部门的数据展示)

这份工作跟数据打交道比较多,当时也是大数据潮流来袭的时候,正好也遇到了疫情,在家办公期间学习了基于 Hadoop 的大数据相关的组件:

从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史_数据仓库_02

  • 大数据基座 Hadoop
  • 数据抽取工具 sqoop、flume
  • 数据存储和分析 Hive、HBase
  • 调度工具 Azkaban(个人也集合 kettle 实现了 ktr 和 kjb 的调用)

随着大数据知识的加深,我开始做大数据相关的系统,当时使用的大数据平台主要是基于分布式数据库 Greenplum 的,并非 Hadoop,但是实现思路是相似的,就是使用多个节点将数据和算力分摊开来,最终再聚合到一起。

从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史_数据仓库_03

以上是我数据相关的工作经历,这些年的“数据飞轮”概念也给了我不少启发。

2.我了解的数据技术进化史

我也是经历了数据技术的进化,从数据仓库到数据中台再到如今的数据飞轮,每个阶段都代表了数据处理和分析的不同理念和技术发展。

  1. 数据仓库(Data Warehousing):这个阶段主要集中在整合来自不同源的数据,并将其存储在一个集中式的仓库中。数据仓库主要用于支持商业智能(BI)和决策支持系统(DSS)。数据仓库通常采用星型模式(Star Schema)或雪花模式(Snowflake Schema)来组织数据,以优化查询性能。
  2. 数据集市(Data Marts):随着数据仓库的发展,数据集市应运而生。数据集市是面向特定业务领域的小型数据仓库,专注于满足特定部门或团队的分析需求。数据集市可以更快地实施,并针对特定用户群体进行优化。
  3. 数据集成(Data Integration):随着企业拥有越来越多的数据源,数据集成成为一个重要的挑战。数据集成技术如提取、转换、加载(ETL)工具和中间件帮助企业将数据从源系统传输到数据仓库或数据集市。
  4. 数据质量管理(Data Quality Management):数据质量管理涉及确保数据的一致性、准确性和完整性。这包括数据清洗、数据校验和数据标准化等过程。
  5. 商业智能(Business Intelligence):BI工具使业务用户能够通过报表、仪表板和数据可视化来分析和理解数据。这些工具通常与数据仓库或数据集市紧密集成。

这五个阶段个人感觉是可以划分到一起的,实际上我的数据治理工作也是这个阶段,只不过数据规模较小。这部分主要是偏数据的,不包含复杂的数据分析。

  1. 数据中台(Data Middle Office):数据中台是一个相对较新的概念,它位于数据仓库和前台应用之间。数据中台的主要目标是提供一个统一的数据服务层,以支持前台应用的快速开发和创新。数据中台通常包括数据资产管理、数据治理、数据服务API等功能。我在工作中的 ODS + DATA 服务就形成了数据中台。
  2. 数据湖(Data Lake):数据湖是一种存储架构,它可以存储大量原始数据的原始格式。与数据仓库不同,数据湖不需要预先定义数据模式,这使得它能够灵活地处理结构化和非结构化数据。

这两个阶段可以划分到一起,实际上是数据量的增加,数据类型的丰富,数据中台增加了数据查询和分析的接口,可以不关心数据的来源。

  1. 数据飞轮(Data Flywheel):数据飞轮是一种数据驱动的增长策略,它强调数据、洞察和行动之间的闭环。数据飞轮的核心思想是利用数据来产生洞察,然后根据这些洞察采取行动,从而产生更多的数据,形成一个正向循环。

从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史_数据仓库_04

数据飞轮对我来说是比较新的概念,所谓数据飞轮,指的是数据资产与业务之间形成的正向循环,即数据被应用于业务,进而产生新的数据再反馈回系统,进一步丰富和优化数据资产,从而形成一个持续增强的循环。从运行机制来看,它强调的是一种动态的数据应用过程。整体概念并不繁复,但或许可以为企业转型过程中如何优化数据驱动提供新的思路。

虽然终极目的都是为了让数据更好地为业务服务,但数据飞轮与数据中台有鲜明的差异性。数据飞轮更侧重于业务流程或价值关系,而中台更偏向于技术工具层面。某种程度上,数据飞轮可以由中台或其他技术手段实现。

具体来说,数据中台的重点在于数据的集中管理和高效利用,它是一个技术实现。实现手段是提供一个统一的数据服务接口,支持企业的数据需求;数据飞轮的重点则在于数据如何推动业务增长和创新,它是一个业务和战略层面的概念,更多地强调数据与业务之间的动态循环和相互作用。个人工作上感觉数据我们的数据中台也具有一定的数据飞轮属性。

  1. 大数据和实时分析(Big Data and Real-time Analytics):随着数据量的增长和分析需求的实时性,大数据技术和实时分析变得至关重要。这包括分布式计算框架(如Hadoop和Spark)、流处理引擎(如Kafka和Flink)以及实时BI工具。
  2. 人工智能和机器学习(AI and Machine Learning):AI和机器学习技术正在改变数据分析的面貌。这些技术可以自动发现数据中的模式和关联,并进行预测和推荐。

最后的这两个阶段也许是当前最为火爆的,数据融合分析和大模型。

3.一点总结

我个人是从数据处理到数据中台到大数据分析都经历过的,数据飞轮对我来说是较新的概念,在如今大模型遍地的当下,数据飞轮的概念还是比较有意义的,数据资产要充分利用到企业的日常决策中,这些决策产生的数据再融入到数据资产里,产生一个良性的循环,让数据的价值不断增加。

标签:Data,数据仓库,中台,飞轮,工具,数据
From: https://blog.51cto.com/u_13214932/12024215

相关文章

  • 唤醒数据中台的数据,分享我的数据驱动秘籍
    1.自我介绍虽然我是Java开发工程师,但最初的项目是数据治理相关的内容,主要使用的是ETL工具KETTLE现在这个工具已经改名为Pentaho,具体的工作内容如下:数据的抽取(从不同的数据库、ftp)获取数据转换(数据合并、统计)生成宽表(用于支撑BI部门的数据展示)这份工作跟数据打交道比较多,当......
  • 达梦数据库之Oracle到DM的数据迁移
    文章目录一、环境说明二、迁移前准备三、数据迁移一、环境说明源数据库:OracleV11.2.0.4.0目标数据库:DM8二、迁移前准备在DM数据库中执行如下:创建表空间:createtablespace"TEST"datafile'/dmdata/data/DAMENG/TEST.DBF'size50autoextendonnext10;创......
  • Springboot高校学生会管理网站的设计与实现622c6程序+源码+数据库+调试部署+开发环境
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、项目背景与意义随着高校学生会活动的日益增多与复杂化,传统的管理方式已难以满足高效、透明的管理需求。为了提升学生会的组织效率与服务质量,设......
  • Springboot高校后勤保障系统8c549(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、项目背景随着高等教育的普及与高校规模的扩大,高校后勤保障工作日益复杂且重要。作为支撑高校教学、科研及师生生活的基础,后勤保障系统的效率与......
  • 达梦数据库之DM到DM单向的DMHS部署
    文章目录一、数据库安装二、DMHS安装三、源端和目的端开启归档及逻辑日志四、配置ddl辅助表和触发器五、配置目的端六、启动目的端七、配置源端八、启动源端九、验证同步一、数据库安装两个单机DM8都需要做:1、安装数据库软件2、初始化实例3、注册服务并启动......
  • RHEL8下的IRIS CACHE数据库部署
    一、概述IRIS是数据库管理平台,安装IRIS+Caché相当于安装完整MySQL。EPIC基于Caché开发了Chronicles管理工具,医院系统使用EPIC系统时,通常使用Chronicles操作数据库。IRIS提供完整的MySQL安装实例,包括数据库、管理工具和连接工具。二、部署1、环境准备本次测试的环境采用虚拟主......
  • 使用Altair轻松实现统计数据可视化-从基础图表到高级交互
    在数据科学和数据可视化领域,生成清晰、漂亮的统计图表对于展示数据和传达见解至关重要。Python中有许多强大的库可以帮助我们实现这一目标,其中Altair库是一个非常流行的选择。Altair是一个基于Vega和Vega-Lite的声明式统计可视化库,它使得生成交互式、漂亮的图表变得非常简单。本文......
  • Springboot高校宿舍分配管理系统40783(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、研究背景与意义随着高校招生规模的不断扩大,宿舍资源的合理分配与管理成为高校后勤工作的重要一环。传统的人工分配方式存在效率低下、信息不透......
  • 帝国cms连接不上数据库怎么办
    当帝国CMS无法连接到数据库时,通常是因为配置问题、数据库服务问题或网络问题等引起的。以下是一些具体的排查步骤和解决方法:1.检查数据库配置确保数据库配置文件中的信息正确无误。对于帝国CMS7.0及以后版本,数据库配置文件通常位于:数据库配置文件位置:e/config/config.php......
  • 达梦数据库之异构数据库(dm-oracle)的dblink
    文章目录一、安装客户端二、添加环境变量三、配置tnsnames.ora四、开始创建dblink准备一台装有oracle数据库和一台装有DM数据库一、安装客户端解压客户端文件到/opt/oracle/下查看解压文件二、添加环境变量vim.bash_profileexportPS1="[`whoami`@`hostname`......